WEKA और Oracle क्लाउड इंफ्रास्ट्रक्चर ने लंबा-संदर्भ AI इंफरेंस के लिए 10x थ्रूपुट लाभ को सत्यापित किया
OCI H100 इंफ्रास्ट्रक्चर पर किए गए संयुक्त बेंचमार्कों से पता चला कि बिना GPUs जोड़े भी एक साथ उपयोग करने वाले उपयोगकर्ताओं की संख्या 10x, टोकन थ्रूपुट की 10x और टोकन सेवा देने की क्षमता की 7x अधिक थी।
कैंपबेल, कैलिफ़ोर्निया, 9 जून, 2026 /PRNewswire/ -- WEKA, AI डेटा और मेमोरी इंफ्रास्ट्रक्चर कंपनी, ने आज उत्पादन-स्तरीय बेंचमार्कों की घोषणा की है जो संगठनों द्वारा समान GPU फुटप्रिंट पर अधिक उपयोगकर्ताओं और टोकन की सेवा करके लंबा-संदर्भ AI इंफरेंस की अर्थव्यवस्था में सुधार करने के तरीके दर्शाता है। बेंचमार्कों से पता चलता है कि WEKA का NeuralMesh प्लेटफ़ॉर्म Augmented Memory Grid के साथ Oracle Cloud Infrastructure (OCI) पर 10x अधिक सहयोगी उपयोगकर्ताओं को सेवा प्रदान करता है, 10x अधिक टोकन थ्रूपुट प्रदान करता है, और इंफ्रास्ट्रक्चर ढांचे को जोड़े बिना केवल DRAM कॉन्फ़िग्रेशनों की तुलना में प्रति GPU के 7x अधिक टोकन उत्पन्न करता है। परिणामों को 100,000 टोकन संदर्भ विंडो वाले नौ-नोड OCI बेयर-मेटल H100 क्लस्टर पर सत्यापित किया गया था।
Oracle Cloud Infrastructure के सॉफ्टवेयर डेवलपमेंट के वरिष्ठ निदेशक, Pablo Selem, ने कहा, "एंटरप्राइज AI कार्यभार संदर्भ विंडो और GPU के उपयोग को नई सीमाओं तक पहुंचा रहे हैं। ये बेंचमार्क दिखाते हैं कि ग्राहकों द्वारा केवल अधिक GPUs जोड़े बिना बड़े, चुनौतीपूर्ण इंफरेंस कार्यभारों का समर्थन कर सकने के लिए OCI पर Augmented Memory Grid के साथ WEKA का NeuralMesh प्लेटफ़ार्म किस प्रकार से मेमोरी की बाधाओं को दूर करने में सहायता करता है।"
इंफरेंस के गणित को बदलने वाले तीन परिणाम
एक बेयर-मेटल H100 क्लस्टर (नौ नोड्स, 72 GPUs, 100,000-टोकन संदर्भ विंडो, हजारों सहयोगी उपयोगकर्ता) पर उत्पादन पैमाने पर सत्यापित, OCI पर Augmented Memory Grid के साथ वितरित NeuralMesh:
- 10x अधिक सहयोगी उपयोगकर्ताओं को बिना किसी अतिरिक्त इंफ्रास्ट्रक्चर के सेवा प्रदान की जा सकती है। Augmented Memory Grid के साथ NeuralMesh 5,000 से अधिक सहयोगी उपयोगकर्ताओं को हैंडल करने में सक्षम रहा, जबकि केवल-DRAM कॉन्फ़िग्रेशनों के लिए यह संख्या लगभग 600 थी। इससे सक्रिय कैश वर्किंग सेट को 8.64 TiB DRAM से बढ़ाकर 287 TiB उपयोग योग्य NVMe तक करने से कैश के भरे जाने पर उत्पन्न होने वाली विफलता की संभावना समाप्त हो जाती है। इसके अतिरिक्त, प्रत्येक GPU पर जितने अधिक उपयोगकर्ता होंगे, उतना ही अधिक समय तक निवेश प्रभावी रहेगा।
- 10x अधिक टोकन थ्रूपुट। क्लस्टर में मौजूद प्रत्येक GPU से अधिक आउटपुट। OCI पर, Augmented Memory Grid के साथ NeuralMesh ने लगभग दो मिलियन टोकन प्रति सेकंड की गति प्राप्त की, जबकि केवल DRAM आधारित बेसलाइन के लिए यह गति 200,000 से कम थी। सर्च, संक्षिप्तीकरण, कोड असिस्ट और मल्टी-टर्न एजेंटों सहित रीयल-टाइम AI विशेषताओं वाली उत्पाद टीमों के लिए, थ्रूपुट सेवा प्रदान किए जा सकने वाले उपयोगकर्ताओं की संख्या, विशेषताओं की प्रतिक्रिया करने की गति, और इंफ्रास्ट्रक्चर द्वारा राजस्व सपोर्ट की मात्रा का निर्धारण किया जाता है।
- 7x अधिक टोकनों पर कार्य किया गया। बड़े पैमाने पर उपयोग करने पर प्रति टोकन कम लागत। Augmented Memory Grid के साथ NeuralMesh ने केवल एक घंटे में 2,400-उपयोगकर्ता परीक्षण में पांच बिलियन टोकनों पर कार्य किया, जबकि केवल DRAM-आधारित बेसलाइन ने 700 मिलियन टोकनों पर कार्य किया। एजेंटिक कार्यप्रवाह चलाने वाले संगठनों के लिए, DRAM के भरने पर निरंतर पुनर्गणना के माध्यम से GPU क्षमता चुपचाप कम हो जाती है, जिससे प्रति टोकन लागत और ROI पर सीधा प्रभाव पड़ता है।
WEKA के CEO, Liran Zvibel, ने कहा, "GPUs में इंफरेंस की प्रक्रिया शेष प्रभावी मेमोरी पर निर्भर करती है। ये परिणाम प्रमाणित करते हैं कि AI टोकन अर्थशास्त्र की समस्या केवल हार्डवेयर से हल नहीं होती है; यह मौजूदा हार्डवेयर की क्षमताओं पर वास्तविक सीमा की मेमोरी वाल को दूर करके हल होती है। OCI पर चलने वाली Augmented Memory Grid के साथ NeuralMesh, ग्राहकों को बेहद किफायती तरीके से कई गुना अधिक टोकन उपलब्ध कराता है।"
संदर्भ मेमोरी इंफ्रास्ट्रक्चर के साथ AI अर्थशास्त्र में बदलाव
इंफरेंस की मांग बढ़ने के साथ-साथ AI इंफ्रास्ट्रक्चर की अक्षमताएं बढ़ती जाती हैं। प्रत्येक प्रमुख-वैल्यू (KV) कैश निष्कासन एक टैक्स है: GPU साइकलों, लेटेंसी, उपयोगकर्ता अनुभव और दिए गए प्रत्येक टोकन की लागत पर। लंबा-संदर्भ और एजेंटिक कार्यभारों के लिए, जहां इनपुट नियमित रूप से 100,000 टोकन या उससे अधिक तक होते हैं, यह टैक्स कोई मामूली त्रुटि नहीं है। यह उत्पादन AI चलाने वाले प्रत्येक संगठन के इकाई अर्थशास्त्र को सीधा प्रभावित करता है।
NeuralMesh की एक क्षमता, Augmented Memory Grid, KV कैश को स्थानीय GPU मेमोरी से अलग करते हुए इसे क्लस्टर में सुलभ उच्च-प्रदर्शन टोकन वेयरहाउस में संग्रहीत करके आर्किटेक्चरल स्तर पर समस्या का समाधान करती है। कोई भी होस्ट कैश प्रभावों को बरकरार रखते हुए किसी भी सत्र को सेवा प्रदान कर सकता है, जिससे कठोर सत्र स्टिकनेस समाप्त हो जाती है, और DRAM की तुलना में बेहतर प्रदर्शन, लोड बैलेंसिंग में सुधार और समरूपता बढ़ने पर साफ क्षैतिज स्केलिंग सक्षम होती है। इसका परिणाम AI एजेंटों के लिए स्थायी संदर्भ मेमोरी और लागत नियंत्रण है जो लंबा-संदर्भ इंफरेंस को बड़े पैमाने पर चलाने के लिए किफायती बनाता है।
प्रोडक्शन-ग्रेड प्रूफ
OCI ने 13 मई, 2026 को अपने AI और डेटा साइंस ब्लॉग पर पूरी बेंचमार्क पद्धति, सिस्टम कॉन्फ़िग्रेशन और परिणाम प्रकाशित किए थे। नौ-नोड OCI बेयर-मेटल H100 क्लस्टर पर निष्पादित बेंचमार्क, सत्यापन के पिछले चरण से आगे बढ़ते हैं, जिससे 1000x अधिक KV कैश क्षमता और 128,000 टोकन पर पहले टोकन के लिए 20x तेज समय प्रदर्शित किया गया था। इस नवीनतम चरण में उत्पादन में इंफरेंस के संपूर्ण अर्थशास्त्र का परीक्षण किया जाता है: उच्च भार के तहत मांग में अचानक वृद्धि होने पर समरूपता घनत्व, निरंतर थ्रूपुट, कैश की स्थिरता और सेवा स्तर उद्देश्य (SLO) की स्थिरता।
Oracle Marketplace पर उपलब्ध
WEKA ग्राहकों के लिए Augmented Memory Grid के साथ NeuralMesh आम तौर पर पर OCI के विशिष्ट क्लाउड लॉन्च पार्टनर के साथ Oracle Marketplace पर उपलब्ध है। OCI पर लंबा-संदर्भ इंफरेंस चलाने वाले संगठन आज ही एक सत्यापित, उत्पादन-के-लिए-तैयार आर्किटेक्चर परिनियोजित कर सकते हैं। OCI और WEKA Augmented Memory Grid बेंचमार्क के बारे में अधिक जानकारी के लिए, OCI ब्लॉग पढ़ें: https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid।
WEKA का परिचय
WEKA एक AI डेटा और मेमोरी इंफ्रास्ट्रक्चर कंपनी है जो एजेंटिक AI के अर्थशास्त्र को बदल रही है। इसका NeuralMesh™ प्लेटफ़ार्म उच्च-प्रदर्शन डेटा स्टोरेज को विस्तारित GPU मेमोरी के साथ एकीकृत करता है, जिससे उद्यमों, AI क्लाउड प्रदाताओं और AI डेवलपर्स को प्रशिक्षण, इंफरेंस और एजेंटिक कार्यभारों के लिए एक सिंगल आधार मिलता है। Augmented Memory Grid के साथ, NeuralMesh GPU मेमोरी क्षमता को 1000x तक बढ़ाता है, पहले टोकन के समय को 20x तक तेज करता है, और समान GPU फुटप्रिंट से सहयोगी उपयोगकर्ताओं को 10x अधिक क्षमता प्रदान करता है, जो उत्पादन बेंचमार्कों में प्रमाणित हो चुका है। Fortune 50 में से 30% कंपनियों का विश्वसनीय, WEKA संगठनों को AI को तेजी से बढ़ाने, GPU उपयोग को अनुकूलित करने और दिए गए प्रत्येक टोकन की लागत को कम करने में सक्षम बनाता है। www.weka.io पर अधिक जानकारी प्राप्त करें या हमसे LinkedIn और X पर जुड़ें।
WEKA और W लोगो WekaIO, Inc. के पंजीकृत ट्रेडमार्क हैं। यहां दिए गए अन्य ट्रेड नाम उनके संबंधित स्वामियों के ट्रेडमार्क हो सकते हैं।
Share this article