NVIDIA Mellanox MQM8790-HS2F इन एक्शन: RDMA/HPC/AI क्लस्टर के लिए लो-लेटेंसी इंटरकनेक्ट ऑप्टिमाइज़ेशन

April 10, 2026

पृष्ठभूमि और चुनौती: जब नेटवर्क बाधा बन जाता है

एक तेजी से बढ़ता हुआ AI अनुसंधान संगठन एक परिचित समस्या का सामना कर रहा था: उनके 200+ GPU क्लस्टर, जिसका उपयोग बड़े भाषा मॉडल प्रशिक्षण और आणविक गतिशीलता सिमुलेशन के लिए किया जाता था, अप्रत्याशित जॉब पूर्णता समय का अनुभव कर रहा था। शक्तिशाली कंप्यूट नोड्स के बावजूद, मौजूदा 100Gb/s ईथरनेट फैब्रिक में टेल लेटेंसी स्पाइक्स, इनकास्ट पैटर्न के तहत पैकेट ड्रॉप्स और पारंपरिक TCP/IP स्टैक प्रोसेसिंग के कारण उच्च CPU ओवरहेड की समस्या थी। टीम को एक ऐसे समाधान की आवश्यकता थी जो लगातार सब-माइक्रोसेकंड लेटेंसी प्रदान कर सके, GPU डायरेक्ट के लिए RDMA का पूरी तरह से समर्थन कर सके, और बिना बड़े अपग्रेड के स्केल कर सके। उपलब्ध विकल्पों का मूल्यांकन करने के बाद, उन्होंने अपने अगली पीढ़ी के क्लस्टर फैब्रिक के लिए मुख्य बिल्डिंग ब्लॉक के रूप में NVIDIA Mellanox MQM8790-HS2F को चुना।

समाधान और परिनियोजन: MQM8790-HS2F InfiniBand स्विच का एकीकरण

संगठन ने 128 कंप्यूट नोड्स (प्रत्येक NVIDIA ConnectX-6 HDR एडेप्टर से सुसज्जित) और 4 स्टोरेज नोड्स को जोड़ने वाले दो-स्तरीय फैट-ट्री टोपोलॉजी में MQM8790-HS2F InfiniBand स्विच को तैनात किया। 200Gb/s HDR पर चलने वाले अपने 40 QSFP56 पोर्ट के साथ, एक एकल ने 16Tb/s की नॉन-ब्लॉकिंग स्विचिंग क्षमता प्रदान की - जो दो पुराने ईथरनेट स्विच को बदलने के लिए पर्याप्त थी, जबकि केबलिंग जटिलता को कम किया। परिनियोजन ने MQM8790-HS2F 200Gb/s HDR 40-पोर्ट QSFP56 के RDMA और GPUDirect के लिए मूल समर्थन का लाभ उठाया, जिससे CPU हस्तक्षेप के बिना विभिन्न सर्वरों में GPUs के बीच प्रत्यक्ष मेमोरी एक्सेस सक्षम हुआ।

मुख्य कार्यान्वयन विवरणों में शामिल थे:

अनुकूली रूटिंग जो हॉट स्पॉट को समाप्त करते हुए कई रास्तों पर स्वचालित रूप से ट्रैफ़िक को संतुलित करती है।
SHARPv3 (स्केलेबल हायरार्किकल एग्रीगेशन एंड रिडक्शन प्रोटोकॉल) इन-नेटवर्क रिडक्शन के लिए, जो ऑल-रिड्यूस ऑपरेशंस को 2.5x तक तेज करता है।
स्विच स्तर पर कंजेशन कंट्रोल, जो लॉस ईथरनेट वातावरण में आम हेड-ऑफ-लाइन ब्लॉकिंग को रोकता है।

खरीद से पहले, इंजीनियरिंग टीम ने अपने मौजूदा Mellanox केबल और ट्रांससीवर के साथ संगतता की पुष्टि करने के लिए MQM8790-HS2F डेटाशीट और MQM8790-HS2F स्पेसिफिकेशन्स की समीक्षा की। MQM8790-HS2F संगत इकोसिस्टम - जिसमें HDR ऑप्टिकल और कॉपर केबल शामिल हैं - ने उन्हें अपने पिछले इंटरकनेक्ट निवेशों का 40% पुन: उपयोग करने की अनुमति दी, जिससे अपग्रेड की बाधा काफी कम हो गई।

परिणाम और लाभ: प्रदर्शन और दक्षता में मापा गया लाभ

MQM8790-HS2F-आधारित फैब्रिक पर माइग्रेट करने के बाद, संगठन ने तीन श्रेणियों में सुधार दर्ज किए:MQM8790-HS2F मूल्य औसत MPI पिंग-पोंग लेटेंसी 2.1µs (ईथरनेट RoCE) से घटकर 0.82µs हो गई, जिसमें टेल लेटेंसी लगभग समाप्त हो गई।

जॉब थ्रूपुट: संचार ओवरहेड में कमी और SHARPv3 त्वरण के कारण वितरित प्रशिक्षण जॉब्स (NCCL-आधारित) 37% तेजी से पूरी हुईं।
CPU ऑफलोड: InfiniBand पर RDMA ने नेटवर्किंग के लिए CPU उपयोग को ~15% से घटाकर 2% से कम कर दिया, जिससे कंप्यूटेशन के लिए कोर खाली हो गए।
128-GPU ऑल-टू-ऑल संचार बेंचमार्क में, MQM8790-HS2F InfiniBand स्विच समाधान

ने पिछले ईथरनेट फैब्रिक पर 1.2% हानि के साथ 112Gb/s की तुलना में शून्य पैकेट हानि के साथ प्रति पोर्ट 198Gb/s बनाए रखा। उसी टीम द्वारा चलाए गए वित्तीय सिमुलेशन के लिए, जॉब परिवर्तनशीलता को 78% तक कम कर दिया गया, जिससे सख्त SLA और अनुमानित रनटाइम संभव हुआ।सारांश और आउटलुक: एक भविष्य-प्रूफ निवेशयह वास्तविक दुनिया का परिनियोजन दर्शाता है कि

MQM8790-HS2F

केवल एक स्पेसिफिकेशन शीट हीरो से कहीं अधिक है - यह उत्पादन HPC और AI वर्कलोड के लिए मूर्त लाभ प्रदान करता है। 200Gb/s HDR थ्रूपुट, 40 उच्च-घनत्व पोर्ट और उन्नत इन-नेटवर्क कंप्यूटिंग का संयोजन जॉब पूर्णता समय और परिचालन ओवरहेड दोनों को कम करके क्लस्टर अर्थशास्त्र को बदल देता है। प्रदर्शन लाभ के मुकाबले MQM8790-HS2F मूल्य का मूल्यांकन करने वाले आईटी नेताओं के लिए, यह केस स्टडी अकेले कंप्यूट दक्षता सुधारों के आधार पर 12 महीने से कम के ROI का सुझाव देता है।जैसे-जैसे संगठन अपने GPU की संख्या को दोगुना करके 400+ नोड्स करने की योजना बना रहा है, उन्होंने पहले से ही एक नॉन-ब्लॉकिंग फैट-ट्री आर्किटेक्चर बनाए रखने के लिए अतिरिक्त MQM8790-HS2F बिक्री के लिए

इकाइयों के लिए बजट आवंटित किया है। स्विच की HDR और EDR गति को मिलाने की क्षमता पुराने एडेप्टर को धीरे-धीरे बदलने पर एक सहज माइग्रेशन पथ सुनिश्चित करती है। अगली पीढ़ी के RDMA-केंद्रित क्लस्टर डिजाइन करने वाले आर्किटेक्ट्स के लिए, NVIDIA Mellanox MQM8790-HS2F एक सिद्ध, उत्पादन-तैयार बैकबोन प्रदान करता है जो विभागीय AI अनुसंधान से लेकर एक्सस्केल सुपरकंप्यूटिंग तक स्केल करता है।