NVIDIA Mellanox MCX556A-ECAT इन एक्शन: RDMA/RoCE अल्ट्रा-लो लेटेंसी और सर्वर थ्रूपुट में सफलताएँ सक्षम करता है

April 23, 2026

के बारे में नवीनतम कंपनी की खबर NVIDIA Mellanox MCX556A-ECAT इन एक्शन: RDMA/RoCE अल्ट्रा-लो लेटेंसी और सर्वर थ्रूपुट में सफलताएँ सक्षम करता है

वितरित भंडारण, उच्च-प्रदर्शन कंप्यूटिंग (एचपीसी), और एआई प्रशिक्षण क्लस्टर में, नेटवर्क विलंबता और सीपीयू ओवरहेड ने लंबे समय से समग्र सर्वर दक्षता को बाधित किया है। एक बड़े पैमाने पर क्लाउड सेवा प्रदाता पर हाल ही में एक तैनाती दर्शाती है कि कैसे NVIDIA Mellanox MCX556A-ECAT आरडीएमए और आरओसीई तकनीकों के माध्यम से इन चुनौतियों का समाधान करता है, जिससे थ्रूपुट और विलंबता में कमी दोनों में मापने योग्य लाभ मिलता है।

पृष्ठभूमि और चुनौतियाँ

ग्राहक हजारों वर्चुअल मशीनों का समर्थन करने वाले एक मल्टी-पेटबाइट सेफ स्टोरेज क्लस्टर का संचालन करता है। अपग्रेड से पहले, मानक टीसीपी/आईपी का उपयोग करने वाले उनके 25जीबीई इंफ्रास्ट्रक्चर में उच्च सीपीयू उपयोग (स्टोरेज नोड्स पर 60% से अधिक) और पीक लोड के दौरान असंगत विलंबता से पीड़ित थे। बैकअप विंडो अक्सर आठ घंटे से अधिक हो जाती थी, और एआई प्रशिक्षण नौकरियों में आई/ओ स्टॉल का अनुभव होता था। टीम को एक ऐसे समाधान की आवश्यकता थी जो सीपीयू हस्तक्षेप को कम कर सके, विलंबता को कम कर सके, और पूर्ण इंफ्रास्ट्रक्चर ओवरहाल के बिना स्केल कर सके। MCX556A-ECAT डेटाशीट की समीक्षा करने और MCX556A-ECAT विनिर्देशों की तुलना करने के बाद, उन्होंने MCX556A-ECAT को मुख्य अपग्रेड घटक के रूप में चुना।

समाधान और तैनाती

आर्किटेक्चर MCX556A-ECAT ईथरनेट एडाप्टर कार्ड पर केंद्रित था, जो पीसीआईई 3.0/4.0 x16 का समर्थन करने वाला एक डुअल-पोर्ट 100जीबीई एडाप्टर है। एक MCX556A-ECAT कनेक्टएक्स एडाप्टर पीसीआईई नेटवर्क कार्ड के रूप में तैनात, इसने न्यूनतम स्विच परिवर्तनों के साथ मौजूदा लीफ-स्पाइन टोपोलॉजी पर आरओसीई वी2 को सक्षम किया। प्रमुख तैनाती चरणों में शामिल हैं:

  • 40 स्टोरेज नोड्स और 150 कंप्यूट नोड्स पर MCX556A-ECAT के साथ लीगेसी 25जीबीई एडाप्टर को बदलना।
  • हार्डवेयर ऑफलोड सक्षम करना: डेटा अखंडता के लिए एनवीएमई ओवर फैब्रिक्स (एनवीएमई-ओएफ), जीपीयूडायरेक्ट आरडीएमए, और टी10-डीआईएफ।
  • हानिरहित आरओसीई परिवहन के लिए प्राथमिकता फ्लो कंट्रोल (पीएफसी) और एन्हांस्ड ट्रांसमिशन सेलेक्शन (ईटीएस) को कॉन्फ़िगर करना।
  • मौजूदा मेलानॉक्स स्पेक्ट्रम स्विच और क्यूएसएफपी28 ऑप्टिक्स के साथ MCX556A-ECAT संगत स्थिति का सत्यापन।

पूरी तैनाती में दो सप्ताहांत लगे, जिसमें कंप्यूट वर्कलोड के लिए लाइव माइग्रेशन का उपयोग करके शून्य डाउनटाइम था।

परिणाम और लाभ

परिनियोजन के बाद के मापों ने प्रमुख मेट्रिक्स में नाटकीय सुधार दिखाया। निम्नलिखित तालिका पहले/बाद की तुलना का सारांश प्रस्तुत करती है:

मीट्रिक पहले (25जीबीई टीसीपी/आईपी) बाद में (MCX556A-ECAT आरओसीई के साथ) सुधार
स्टोरेज नोड सीपीयू उपयोग 62% 18% ↓ 71%
औसत विलंबता (4K रैंडम रीड) 450 µs 42 µs ↓ 90.7%
समग्र क्लस्टर थ्रूपुट 38 Gb/s 172 Gb/s ↑ 353%
बैकअप विंडो अवधि 8.5 घंटे 1.8 घंटे ↓ 79%

संख्याओं से परे, इंजीनियरिंग टीम ने बताया कि आरडीएमए ने जिटर को काफी कम कर दिया, जिससे "टेल लेटेंसी" स्पाइक्स समाप्त हो गए जो पहले एआई प्रशिक्षण चेकपॉइंट को सताते थे। एक परिपक्व MCX556A-ECAT ईथरनेट एडाप्टर कार्ड समाधान के रूप में, कार्ड ने अंतर्निहित टेलीमेट्री और कंजेशन नोटिफिकेशन के माध्यम से समस्या निवारण को भी सरल बनाया। प्रदर्शन लाभ के मुकाबले MCX556A-ECAT मूल्य का मूल्यांकन करने वाले संगठनों के लिए, ग्राहक ने केवल सीपीयू कोर बचत और तेज बैच जॉब पूर्णता से नौ महीने के भीतर आरओआई हासिल किया। यह एडाप्टर अब कई चैनल भागीदारों के माध्यम से MCX556A-ECAT बिक्री के लिए उपलब्ध है, जिससे यह स्तर का प्रदर्शन मध्य-स्तरीय उद्यमों के लिए भी सुलभ हो गया है।

सारांश और दृष्टिकोण

परिनियोजन साबित करता है कि MCX556A-ECAT अपने वादे को पूरा करता है: सब-माइक्रोसेकंड आरडीएमए विलंबता, भारी सीपीयू ऑफलोड, और रैखिक थ्रूपुट स्केलिंग। चाहे आप वितरित डेटाबेस, एचपीसी सिमुलेशन, या एनवीएमई-ओएफ स्टोरेज चला रहे हों, NVIDIA Mellanox MCX556A-ECAT एक भविष्य-प्रूफ नींव प्रदान करता है। जैसे-जैसे 100जीबीई डेटा सेंटर रीढ़ के लिए नया मानक बन रहा है, इस एडाप्टर के आसपास निर्मित समाधान लीगेसी टीसीपी/आईपी स्टैक से बेहतर प्रदर्शन करना जारी रखेंगे। विस्तृत योजना के लिए, आधिकारिक MCX556A-ECAT डेटाशीट देखें या अपने विशिष्ट वातावरण के लिए MCX556A-ECAT संगत कॉन्फ़िगरेशन को मान्य करने के लिए समाधान आर्किटेक्ट्स से परामर्श करें।