WEKA durchbricht die KI-Speicherbarriere mit Augmented Memory Grid auf NeuralMesh
Bahnbrechende Speichererweiterungstechnologie, validiert auf Oracle Cloud Infrastructure, demokratisiert die Inferenz und bietet NeuralMesh-Kunden 1000-mal mehr Speicher und eine 20-mal schnellere Zeit bis zum ersten Token
ST. LOUIS und CAMPBELL, Kalifornien, 19. November 2025 /PRNewswire/ -- Von SC25: WEKA, das KI-Speicherunternehmen, gab heute die kommerzielle Verfügbarkeit von Augmented Memory Grid™ auf NeuralMesh™ bekannt, einer revolutionären Speichererweiterungstechnologie, die den grundlegenden Engpass beseitigt, der die KI-Innovation bremst: GPU-Speicher. Augmented Memory Grid wurde auf Oracle Cloud Infrastructure (OCI) und anderen führenden KI-Cloud-Plattformen validiert und erweitert die GPU-Speicherkapazität um das 1000-fache, von Gigabyte auf Petabyte, während die Zeit bis zum ersten Token um das bis zu 20-fache reduziert wird. Dieser Durchbruch ermöglicht es KI-Entwicklern, langwierige Kontextüberlegungen und agentenbasierte KI-Workflows zu optimieren und so die Effizienz von Inferenz-Workloads, deren Skalierung bisher eine Herausforderung darstellte, erheblich zu verbessern.
Von der Innovation zur Produktion: Lösung für die KI-Speicherbarriere
Seit seiner Einführung auf der NVIDIA GTC 2025 wurde Augmented Memory Grid in führenden Produktions-KI-Cloud-Umgebungen, beginnend mit OCI, gehärtet, getestet und validiert. Die Ergebnisse haben bestätigt, was erste Tests bereits gezeigt hatten Da sich KI-Systeme zu längeren, komplexeren Interaktionen entwickeln – von Codierungs-Copiloten über Forschungsassistenten bis hin zu Schlussfolgerungsagenten – ist der Speicher zu einem kritischen Engpass geworden, der die Inferenzleistung und Wirtschaftlichkeit einschränkt.
„Wir bringen eine bewährte Lösung auf den Markt, die mit Oracle Cloud Infrastructure und anderen führenden KI-Infrastrukturplattformen validiert wurde", sagte Liran Zvibel, Mitbegründer und CEO von WEKA. „Bei der Skalierung agentenbasierter KI geht es nicht nur um reine Rechenleistung, sondern darum, die Speicherbarriere mit intelligenten Datenpfaden zu überwinden. Mit Augmented Memory Grid können Kunden mehr Token pro GPU ausführen, mehr gleichzeitige Benutzer unterstützen und völlig neue Servicemodelle für Workloads mit langem Kontext erschließen. Die Bare-Metal-Infrastruktur von OCI mit leistungsstarken RDMA-Netzwerk- und GPUDirect-Speicherfunktionen macht sie zu einer einzigartigen Plattform für die Beschleunigung von Inferenz in großem Maßstab."
Heutige Inferenzsysteme stehen vor einer grundlegenden Einschränkung: GPU-Speicher mit hoher Bandbreite (HBM) ist außerordentlich schnell, aber in seiner Kapazität begrenzt, während System-DRAM mehr Speicherplatz, aber weitaus weniger Bandbreite bietet. Sobald beide Ebenen gefüllt sind, werden Key-Value-Cache-Einträge (KV-Cache) entfernt und GPUs müssen bereits verarbeitete Tokens neu berechnen, was Zyklen, Strom und Zeit verschwendet.
Das Augmented Memory Grid von WEKA durchbricht die GPU-Speicherbarriere, indem es eine Hochgeschwindigkeitsbrücke zwischen dem GPU-Speicher (in der Regel HBM) und dem Flash-basierten Speicher schafft. Es streamt kontinuierlich Key-Value-Cache-Daten zwischen dem GPU-Speicher und dem Token-Warehouse von WEKA und nutzt dabei RDMA und NVIDIA Magnum IO GPUDirect Storage, um Speichergeschwindigkeiten zu erreichen. Dadurch können große Sprach- und agentenbasierte KI-Modelle auf weitaus mehr Kontext zugreifen, ohne zuvor berechnete KV-Cache-Daten oder zuvor generierte Tokens neu berechnen zu müssen, was die Effizienz und Skalierbarkeit erheblich verbessert.
OCI-getestete Leistung und Ökosystemintegration
Unabhängige Tests, einschließlich der Validierung auf OCI, haben Folgendes bestätigt:
- 1000-mal mehr KV-Cache-Kapazität bei Beibehaltung einer nahezu speicherähnlichen Leistung.
- 20-mal schnellere Zeit bis zum ersten Token bei der Verarbeitung von 128.000 Token im Vergleich zur Neuberechnung der Vorfüllphase.
- 7,5 Mio. Lese-IOPs und 1,0 Mio. Schreib-IOPs in einem Cluster mit acht Knoten.
Für KI-Cloud-Anbieter, Modellanbieter und KI-Entwickler in Unternehmen verändern diese Leistungssteigerungen die Wirtschaftlichkeit der Inferenz grundlegend. Durch die Eliminierung redundanter Vorabfüllvorgänge und die Aufrechterhaltung hoher Cache-Trefferquoten können Unternehmen die Mandantendichte maximieren, Leerlaufzyklen der GPU reduzieren und den ROI pro Kilowattstunde drastisch verbessern. Modellanbieter können nun profitabel Modelle mit langem Kontext bereitstellen, die Kosten für Eingabetoken senken und völlig neue Geschäftsmodelle rund um persistente, zustandsbehaftete KI-Sitzungen ermöglichen.
Die Umstellung auf kommerzielle Verfügbarkeit spiegelt die enge Zusammenarbeit mit führenden Partnern im Bereich KI-Infrastruktur wider, darunter NVIDIA und Oracle. Die Lösung ist eng mit NVIDIA GPUDirect Storage, NVIDIA Dynamo und NVIDIA NIXL integriert, wobei WEKA ein spezielles Plugin für die NVIDIA Inference Transfer Library (NIXL) als Open Source zur Verfügung gestellt hat. Die Bare-Metal-GPU-Rechenleistung von OCI mit RDMA-Netzwerk und NVIDIA GPUDirect Storage-Funktionen bietet die leistungsstarke Grundlage, die WEKA benötigt, um ein Augmented Memory Grid ohne Leistungseinbußen in cloudbasierten KI-Bereitstellungen bereitzustellen.
„Die Wirtschaftlichkeit groß angelegter Inferenzprozesse ist für Unternehmen ein wichtiger Faktor", so Nathan Thomas, Vice President, Multicloud, Oracle Cloud Infrastructure. „Das Augmented Memory Grid von WEKA stellt sich dieser Herausforderung direkt. „Die 20-fache Verbesserung der Zeit bis zum ersten Token, die wir in gemeinsamen Tests auf OCI beobachtet haben, ist nicht nur eine Leistungskennzahl, sondern verändert grundlegend die Kostenstruktur für die Ausführung von KI-Workloads. Für unsere Kunden wird dadurch die Bereitstellung der nächsten Generation von KI einfacher und kostengünstiger."
Kommerzielle Verfügbarkeit
Augmented Memory Grid ist jetzt als Funktion für NeuralMesh-Bereitstellungen und auf dem Oracle Cloud Marketplace enthalten. Die Unterstützung für weitere Cloud-Plattformen wird in Kürze folgen.
Organisationen, die sich für den Einsatz von Augmented Memory Grid interessieren, sollten die Weka-Seite Augmented Memory Grid besuchen, um mehr über die Lösung und die Qualifizierungskriterien zu erfahren.
Informationen zu WEKA
WEKA verändert mit NeuralMesh™, seinem intelligenten, adaptiven Mesh-Speichersystem, die Art und Weise, wie Unternehmen KI-Workflows aufbauen, ausführen und skalieren. Im Gegensatz zu herkömmlichen Dateninfrastrukturen, die mit steigender Arbeitslast langsamer und anfälliger werden, wird NeuralMesh mit zunehmender Skalierung schneller, leistungsfähiger und effizienter. Es passt sich dynamisch an KI-Umgebungen an und bietet so eine flexible Grundlage für Unternehmens-KI und agentenbasierte KI-Innovationen. NeuralMesh genießt das Vertrauen von 30 % der Fortune-50-Unternehmen und unterstützt führende Unternehmen, KI-Cloud-Anbieter und KI-Entwickler dabei, GPUs zu optimieren, KI schneller zu skalieren und Innovationskosten zu senken. Erfahren Sie mehr auf www.weka.io oder verbinden Sie sich mit uns bei LinkedIn und X.
WEKA und das W-Logo sind eingetragene Marken von WekaIO, Inc. Andere hier genannte Markennamen können Marken der jeweiligen Eigentümer sein.
Foto - https://mma.prnewswire.com/media/2825138/PR_WEKA_Augmented_Memory_Grid.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg
Artikel teilen