NVIDIA Mellanox MQM9790-NS2F InfiniBand स्विच एक्शन में: लो-लेटेंसी इंटरकनेक्ट ऑप्टिमाइज़ेशन

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand स्विच एक्शन में: RDMA/HPC/AI क्लस्टर के लिए लो-लेटेंसी इंटरकनेक्ट ऑप्टिमाइज़ेशन

AI ट्रेनिंग, हाई-परफॉरमेंस कंप्यूटिंग (HPC) सिमुलेशन और बड़े पैमाने पर डिस्ट्रीब्यूटेड स्टोरेज में, नेटवर्क लेटेंसी और बैंडविड्थ अक्सर क्लस्टर दक्षता की ऊपरी सीमा तय करते हैं। संगठनों को इस बाधा को तोड़ने में मदद करने के लिए, NVIDIA Mellanox का MQM9790-NS2F InfiniBand स्विच कई AI और HPC डिप्लॉयमेंट में एक मुख्य इंटरकनेक्ट घटक बन रहा है। यह लेख एक बड़े पैमाने पर AI ट्रेनिंग क्लस्टर के वास्तविक-दुनिया के अपग्रेड के माध्यम से चलता है, यह दर्शाता है कि यह स्विच लो-लेटेंसी RDMA नेटवर्क और मापने योग्य प्रदर्शन लाभ कैसे प्रदान करता है।MQM9790-NS2F InfiniBand स्विच NVIDIA Mellanox से कई AI और HPC डिप्लॉयमेंट में एक मुख्य इंटरकनेक्ट घटक बन रहा है। यह लेख एक बड़े पैमाने पर AI ट्रेनिंग क्लस्टर के वास्तविक-दुनिया के अपग्रेड के माध्यम से चलता है, यह दर्शाता है कि यह स्विच लो-लेटेंसी RDMA नेटवर्क और मापने योग्य प्रदर्शन लाभ कैसे प्रदान करता है।

पृष्ठभूमि और चुनौती: हज़ारों-GPU से दस-हज़ार-GPU नेटवर्क दबाव तक

एक प्रमुख शोध संस्थान ने पहले बड़े भाषा मॉडल प्रशिक्षण और मौसम सिमुलेशन के लिए एक हज़ार-GPU क्लस्टर संचालित किया था। जैसे-जैसे मॉडल पैरामीटर दसियों अरबों से सैकड़ों अरबों तक बढ़े, मौजूदा 200Gb/s HDR InfiniBand नेटवर्क में भीड़भाड़ और संचार ओवरहेड में वृद्धि होने लगी। क्रॉस-नोड ऑल-रिड्यूस ऑपरेशन में काफी अधिक समय लगा, और नेटवर्क ट्रांसफर की प्रतीक्षा करते हुए GPU अक्सर निष्क्रिय रहते थे। आर्किटेक्ट्स को तुरंत एक ऐसे समाधान की आवश्यकता थी जो उच्च पोर्ट घनत्व, अधिक बारीक लोड संतुलन और मौजूदा RDMA इंफ्रास्ट्रक्चर के साथ पूर्ण संगतता प्रदान करे।

गहन मूल्यांकन के बाद, टीम ने NVIDIA Mellanox MQM9790-NS2F पर आधारित एक NDR-ग्रेड InfiniBand फैब्रिक का चयन किया। 64 OSFP पोर्ट के साथ, प्रत्येक 400Gb/s लाइन रेट पर काम कर रहा है, यह स्विच अगली पीढ़ी के GPU सर्वर की थ्रूपुट मांगों से पूरी तरह मेल खाता है।समाधान और परिनियोजन: NDR फैब्रिक + लॉसलेस RDMA नेटवर्कनए डिज़ाइन में, प्रत्येक GPU सर्वर डुअल-पोर्ट ConnectX-7 एडॉप्टर से लैस है, जो दो लीफ स्विच से जुड़ा हुआ है। कोर पर, MQM9790-NS2F 400Gb/s NDR 64-पोर्ट OSFP स्विच एक नॉन-ब्लॉकिंग क्लोज़ आर्किटेक्चर का उपयोग करके दो-स्तरीय फैट-ट्री टोपोलॉजी बनाते हैं। एडेप्टिव रूटिंग और कंजेशन कंट्रोल सक्षम किए गए हैं, जो CPU और सॉफ़्टवेयर स्टैक ओवरहेड को बायपास करते हुए, सीधे GPU मेमोरी से रिमोट GPU मेमोरी में डेटा ट्रांसफर करने के लिए मूल InfiniBand RDMA का लाभ उठाते हैं।

पोर्ट उपयोग और संगतता:

मौजूदा HDR एडॉप्टर कम गति पर काम कर सकते हैं, जिससे पिछले निवेशों की सुरक्षा होती है। MQM9790-NS2F संगत सूची मुख्यधारा के GPU सर्वर और स्टोरेज सिस्टम को कवर करती है, जिसके लिए परिनियोजन के दौरान किसी ड्राइवर संशोधन की आवश्यकता नहीं होती है।बुद्धिमान संचालन: अंतर्निहित टेलीमेट्री वास्तविक समय में लिंक त्रुटियों और भीड़ की निगरानी करती है, जिससे टीमों को ऑप्टिकल मॉड्यूल या केबल की समस्याओं को जल्दी से अलग करने में मदद मिलती है और मरम्मत के औसत समय में काफी कमी आती है।

परिणाम और लाभ: ट्रेनिंग पुनरावृति समय 38% कम हुआ, नेटवर्क ओवरहेड 8% तक गिराअपग्रेड के बाद, संस्थान ने उत्पादन वर्कलोड पर तुलनात्मक परीक्षण चलाए। 100-अरब-पैरामीटर GPT-शैली के प्री-ट्रेनिंग कार्य में, MQM9790-NS2F InfiniBand स्विच पर निर्मित क्लस्टर ने पुनरावृति समय को 2.8 सेकंड से घटाकर 1.73 सेकंड कर दिया - 38% का सुधार। कुल लेटेंसी में नेटवर्क संचार का हिस्सा 22% से घटकर 8% हो गया, जिसका अर्थ है कि GPU उपयोगी गणना पर काफी अधिक समय व्यतीत कर रहे थे। NDR स्विच के अंदर SHARPv3 इन-नेटवर्क कंप्यूटिंग की बदौलत, ऑल-रिड्यूस बैंडविड्थ उपयोग लगभग दोगुना हो गया।स्टोरेज साइड पर, लो-लेटेंसी NVMe ओवर InfiniBand ने पैरेलल फ़ाइल सिस्टम के एग्रीगेट रीड/राइट बैंडविड्थ को 2.3x तक बढ़ा दिया। चेकपॉइंट सेव और रिस्टोर समय 12 मिनट से घटकर 5 मिनट से कम हो गया। ये आंकड़े आंतरिक परीक्षण रिपोर्टों में दर्ज किए गए हैं और MQM9790-NS2F विनिर्देशों के बेसलाइन के अनुरूप हैं।सारांश और आउटलुक: अगली पीढ़ी के AI इंफ्रास्ट्रक्चर के लिए NDR इंटरकनेक्ट डिफ़ॉल्ट विकल्प के रूप में
यह मामला स्पष्ट रूप से प्रदर्शित करता है कि बड़े पैमाने पर RDMA/HPC/AI क्लस्टर के लिए, MQM9790-NS2F InfiniBand स्विच समाधान को अपनाने से नेटवर्क भीड़ प्रभावी ढंग से समाप्त हो जाती है, GPU उपयोगिता बढ़ती है, और संचालन सरल होता है। दस-हज़ार-GPU क्लस्टर की योजना बनाने वाले आर्किटेक्ट्स के लिए, MQM9790-NS2F डेटाशीट बिजली, पोर्ट घनत्व और फ़ीचर सेट का मूल्यांकन करने के लिए एक आवश्यक संदर्भ है। मॉडल अब वॉल्यूम उत्पादन में है; MQM9790-NS2F मूल्य या MQM9790-NS2F बिक्री के लिए पूछताछ के लिए, कृपया अधिकृत NVIDIA भागीदारों से संपर्क करें। जैसे-जैसे भविष्य के वर्कलोड 800Gb/s और उससे आगे की मांग को बढ़ाते हैं, NDR स्विचिंग प्लेटफ़ॉर्म कंप्यूट क्षमता को अनलॉक करने में एक महत्वपूर्ण भूमिका निभाता रहेगा।