मेलानॉक्स (NVIDIA) MQM9790-NS2F इनफिनीबैंड स्विच इन एक्शन | आरडीएमए/एचपीसी/एआई के लिए कम-विलंबता इंटरकनेक्ट अनुकूलन
May 28, 2026
जैसे-जैसे बड़े पैमाने पर एआई प्रशिक्षण क्लस्टर और उच्च-प्रदर्शन कंप्यूटिंग (एचपीसी) केंद्र नेटवर्क बैंडविड्थ और विलंबता आवश्यकताओं को अभूतपूर्व स्तर तक बढ़ा रहे हैं, पारंपरिक ईथरनेट समाधान आरडीएमए वर्कलोड के तहत भीड़ नियंत्रण और अप्रत्याशित पूंछ विलंबता के साथ तेजी से संघर्ष कर रहे हैं। एक अग्रणी राष्ट्रीय सुपरकंप्यूटिंग केंद्र को हाल ही में अपने अगली पीढ़ी के जीपीयू क्लस्टर को अपग्रेड करते समय इसी चुनौती का सामना करना पड़ा। कई इंटरकनेक्ट विकल्पों का मूल्यांकन करने के बाद, टीम ने इसका चयन कियामेलानॉक्स (NVIDIA) MQM9790-NS2Fकोर फैब्रिक स्विच के रूप में - एक निर्णय जिसने मूल रूप से उनके क्लस्टर के प्रदर्शन प्रोफ़ाइल को बदल दिया।
पृष्ठभूमि और चुनौती: स्केलेबिलिटी वॉल
सुपरकंप्यूटिंग सेंटर का मौजूदा HDR InfiniBand फैब्रिक संतृप्ति के करीब काम कर रहा था। समानांतर एआई प्रशिक्षण कार्य चलाने वाले 2,000 से अधिक जीपीयू के साथ, ऑल-रिड्यूस और ऑल-टू-ऑल जैसे सामूहिक संचार संचालन महत्वपूर्ण टेल लेटेंसी स्पाइक्स का अनुभव कर रहे थे। नेटवर्क प्राथमिक बाधा बन गया था, जिससे GPU निष्क्रिय समय का कारण बना, जिससे कम्प्यूटेशनल संसाधन और ऊर्जा दोनों बर्बाद हो गए। इंजीनियरों का अनुमान है कि बड़े पैमाने पर वितरित प्रशिक्षण रन के दौरान लगभग 30% कंप्यूट चक्र संचार ओवरहेड में खो गए थे।
टीम को एक ऐसे स्विच की आवश्यकता थी जो परिणाम देने में सक्षम होप्रति पोर्ट 400 जीबी/एस, मूल आरडीएमए समर्थन, और इन-नेटवर्क कंप्यूटिंग त्वरण - सभी मौजूदा एचडीआर बुनियादी ढांचे के साथ पिछड़े संगतता को बनाए रखते हुए। की समीक्षा करने के बादMQM9790-NS2F डेटाशीटऔरMQM9790-NS2F विशिष्टताएँ, उन्होंने यह निर्धारित किया किMQM9790-NS2F इनफिनीबैंड स्विचघनत्व, प्रदर्शन और सुविधा सेट का आदर्श संतुलन प्रदान किया गया।
समाधान एवं परिनियोजन: 64-पोर्ट एनडीआर फैब्रिक अपग्रेड
केंद्र ने चार की तैनाती कीMQM9790-NS2F 400Gb/s NDR 64-पोर्ट OSFPस्पाइन-लीफ टोपोलॉजी में स्विच, 64 कंप्यूट नोड्स में 2,048 जीपीयू को आपस में जोड़ता है। प्रत्येक नोड एक एकल OSFP-टू-4x100Gb/s स्प्लिटर केबल के माध्यम से जुड़ता है, जो केबल प्रबंधन घनत्व को अनुकूलित करते हुए प्रति सर्वर 400Gb/s कुल बैंडविड्थ प्रदान करता है।
| परिनियोजन पैरामीटर | विन्यास |
|---|---|
| मॉडल स्विच करें | NVIDIA मेलानॉक्स MQM9790-NS2F(4 इकाइयाँ) |
| पोर्ट कॉन्फ़िगरेशन | 64x ओएसएफपी, 400 जीबी/एस एनडीआर प्रति पोर्ट |
| कुल जीपीयू | 2,048 (एनवीडिया एच100) |
| इन-नेटवर्क सुविधाएँ | SHARPv3, अनुकूली रूटिंग, भीड़भाड़ नियंत्रण |
तैनाती की कुंजी पूर्णता सुनिश्चित करना थाMQM9790-NS2F संगतमौजूदा एचडीआर एंडपॉइंट एडेप्टर के साथ संचालन। स्विच की स्वचालित गति बातचीत और लिंक-लेयर अनुवाद ने चरणबद्ध माइग्रेशन रणनीति की अनुमति दी - विरासत नोड्स एचडीआर गति पर काम करते हैं जबकि नए एनडीआर-सक्षम सर्वर पूर्ण 400 जीबी / एस बैंडविड्थ का लाभ उठाते हैं। केंद्र ने SHARPv3 इन-नेटवर्क एकत्रीकरण का भी उपयोग किया, जिससे आमतौर पर एलएलएम प्रशिक्षण में पाए जाने वाले बड़े संदेश आकारों के लिए 65% से अधिक ट्रैफ़िक कम हो गया।
समान उन्नयन का मूल्यांकन करने वालों के लिए,MQM9790-NS2F कीमतपूछताछ औरबिक्री के लिए MQM9790-NS2Fउद्यम और अनुसंधान ग्राहकों के बीच उपलब्धता में उल्लेखनीय वृद्धि हुई है। स्विच के स्वामित्व की प्रतिस्पर्धी कुल लागत - 64-पोर्ट घनत्व के कारण कम स्विच संख्या को ध्यान में रखते हुए - इसे नए निर्माण और ताज़ा परियोजनाओं दोनों के लिए एक आकर्षक विकल्प बनाती है।
परिणाम और लाभ: मापने योग्य प्रदर्शन लाभ
- सभी-विलंबता कम करें (1GB संदेश):48µs से घटाकर 19µs (60% सुधार)
- प्रभावी GPU उपयोग:बड़े पैमाने पर प्रशिक्षण के दौरान 71% से बढ़कर 93% हो गया
- कार्य पूरा होने का समय (GPT-3 175B समतुल्य):41% की कमी
- नेटवर्क-प्रेरित टेल विलंबता (99वां प्रतिशतक):210µs से घटाकर 35µs से कम करें
एक के रूप मेंMQM9790-NS2F InfiniBand स्विच समाधान, परिनियोजन ने दर्शाया कि 400Gb/s NDR फ़ैब्रिक अपने सैद्धांतिक वादों को पूरा कर सकते हैं। कंजेशन नियंत्रण एल्गोरिदम और अनुकूली रूटिंग के संयोजन ने "इनकास्ट" पतन पैटर्न को समाप्त कर दिया, जिसने सभी-से-सभी संचार चरणों के दौरान पिछले एचडीआर फैब्रिक को प्रभावित किया था।
सारांश और आउटलुक: एक्सास्केल एआई के लिए एक फाउंडेशन
के साथ सुपरकंप्यूटिंग केंद्र की सफलताएमक्यूएम9790-एनएस2एफएक्सास्केल एआई क्षमताओं की दिशा में अपने रोडमैप को तेज कर दिया है। वे अब दूसरे चरण की योजना बना रहे हैं जो अतिरिक्त उपयोग करके GPU संख्या को दोगुना कर 4,096 कर देगाMQM9790-NS2F 400Gb/s NDR 64-पोर्ट OSFPत्रि-स्तरीय फैट-ट्री टोपोलॉजी में स्विच। स्विच की टेलीमेट्री और आउट-ऑफ-बैंड प्रबंधन सुविधाओं ने नेटवर्क टीम के लिए परिचालन ओवरहेड को कम करते हुए, पूर्वानुमानित भीड़ से बचने में भी सक्षम बनाया है।
अगली पीढ़ी के कपड़ों का मूल्यांकन करने वाले नेटवर्क आर्किटेक्ट और आईटी प्रबंधकों के लिएNVIDIA मेलानॉक्स MQM9790-NS2Fएक परिपक्व, उत्पादन-सिद्ध समाधान का प्रतिनिधित्व करता है। चाहे आप एक नया एआई अनुसंधान क्लस्टर बना रहे हों या मौजूदा एचपीसी सुविधा को अपग्रेड कर रहे हों, यह स्विच आधुनिक समानांतर कार्यभार के लिए आवश्यक कम-विलंबता, उच्च-बैंडविड्थ आधार प्रदान करता है।

