WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Middle East - English

USA - English

APAC - English

Deutschland - Deutsch

India - English

Nouvelles fournies par

18 nov, 2025, 23:22 GMT

La technologie révolutionnaire d'extension de la mémoire, validée sur l'Oracle Cloud Infrastructure, démocratise l'inférence, offrant 1 000 fois plus de mémoire et 20 fois plus de temps pour obtenir le premier jeton pour les clients de NeuralMesh

SAINT-LOUIS, et CAMPBELL, Calif., 19 novembre 2025 /PRNewswire/ -- De SC25 : WEKA, la société de stockage d'IA, a annoncé aujourd'hui la disponibilité commerciale de Augmented Memory Grid™ sur NeuralMesh™, une technologie révolutionnaire d'extension de la mémoire qui résout le goulot d'étranglement fondamental qui freine l'innovation en matière d'IA : la mémoire GPU. Validée sur l'Oracle Cloud Infrastructure (OCI) et d'autres plateformes cloud d'IA de premier plan, Augmented Memory Grid multiplie par 1 000 la capacité de mémoire GPU, qui passe de gigaoctets à pétaoctets, tout en réduisant jusqu'à 20 fois le temps nécessaire pour obtenir le premier jeton. Cette avancée permet aux concepteurs d'IA de rationaliser le raisonnement en contexte long et les flux de travail d'IA agentique, en améliorant considérablement l'efficacité des charges de travail d'inférence qui étaient jusqu'à présent difficiles à mettre à l'échelle.

WEKA's breakthrough Augmented Memory Grid is now available on NeuralMesh.

De l'innovation à la production : résoudre le mur de mémoire de l'IA
Depuis sa présentation lors de la conférence NVIDIA GTC 2025, la technologie Augmented Memory Grid a été renforcée, testée et validée dans les principaux environnements de production d'IA dans le cloud, à commencer par l'OCI. Ces résultats confirment ce que les tests initiaux avaient suggéré : au fur et à mesure que les systèmes d'IA évoluent vers des interactions plus longues et plus complexes, des copilotes de codage aux assistants de recherche et aux agents de raisonnement, la mémoire est devenue le goulot d'étranglement critique qui limite les performances et l'économie de l'inférence.

« Nous mettons sur le marché une solution éprouvée et validée avec l'Oracle Cloud Infrastructure et d'autres plateformes d'infrastructure d'IA de premier plan », a déclaré Liran Zvibel, cofondateur et PDG de WEKA. « La mise à l'échelle de l'IA agentique n'est pas seulement une question de calcul brut, il s'agit de résoudre le mur de la mémoire avec des chemins d'accès intelligents aux données. Augmented Memory Grid permet aux clients d'exécuter plus de jetons par GPU, de prendre en charge plus d'utilisateurs simultanés et de débloquer des modèles de service entièrement nouveaux pour les charges de travail en contexte long. L'infrastructure bare-metal d'OCI, avec son réseau RDMA haute performance et ses capacités de stockage GPUDirect, en fait une plateforme unique pour l'accélération de l'inférence à grande échelle.

Les systèmes d'inférence actuels sont confrontés à une contrainte fondamentale : la mémoire à grande largeur de bande (HBM) du GPU est extraordinairement rapide, mais sa capacité est limitée, tandis que la DRAM du système offre plus d'espace, mais beaucoup moins de largeur de bande. Une fois les deux niveaux remplis, les entrées du cache de valeurs clés (KV cache) sont expulsées et les GPU sont obligés de recalculer les jetons qu'ils ont déjà traités, ce qui gaspille des cycles, de l'énergie et du temps.

La technologie Augmented Memory Grid de WEKA franchit le mur de la mémoire GPU en créant un pont à grande vitesse entre la mémoire GPU (typiquement HBM) et le stockage flash. Elle diffuse en continu des données de cache de valeurs clés entre la mémoire du GPU et l'entrepôt de jetons de WEKA, en utilisant RDMA et NVIDIA Magnum IO GPUDirect Storage pour atteindre des vitesses de mémoire. Cela permet aux grands modèles de langage et d'IA d'accéder à beaucoup plus de contexte sans avoir à recalculer le cache KV précédemment calculé ou les tokens précédemment générés, améliorant ainsi considérablement l'efficacité et l'évolutivité.

Performances et intégration à l'écosystème testées par l'OCI
Des tests indépendants, y compris la validation sur l'OCI, ont confirmé l'amélioration des performances et de l'intégration à l'écosystème de l'OCI :

Capacité de cache KV multipliée par 1 000 tout en maintenant des performances proches de celles de la mémoire.
Temps 20 fois plus rapide pour le premier jeton lors du traitement de 128 000 jetons, par rapport à un nouveau calcul de la phase de pré-remplissage.
7,5 millions d'IOP de lecture et 1,0 million d'IOP d'écriture dans un cluster à huit nœuds.

Pour les fournisseurs de cloud d'IA, les fournisseurs de modèles et les créateurs d'IA d'entreprise, ces gains de performance modifient fondamentalement l'économie de l'inférence. En éliminant les opérations redondantes de pré-remplissage et en maintenant des taux élevés d'accès au cache, les entreprises peuvent maximiser la densité des locataires, réduire les cycles de GPU inactifs et améliorer considérablement le retour sur investissement par kilowattheure. Les fournisseurs de modèles peuvent désormais servir de manière rentable des modèles à contexte long, ce qui réduit les coûts des jetons d'entrée et permet de créer des modèles commerciaux entièrement nouveaux autour de sessions d'IA persistantes et avec état.

Le passage à la disponibilité commerciale est le fruit d'une collaboration étroite avec les principaux collaborateurs de l'infrastructure de l'IA, notamment NVIDIA et Oracle. La solution s'intègre étroitement avec NVIDIA GPUDirect Storage, NVIDIA Dynamo et NVIDIA NIXL, WEKA ayant ouvert un plugin dédié à la bibliothèque de transfert d'inférence de NVIDIA (NIXL). Le calcul GPU bare-metal d'OCI avec le réseau RDMA et les capacités de stockage NVIDIA GPUDirect fournit la base de haute performance dont WEKA a besoin pour fournir une Augmented Memory Grid sans compromis de performance dans les déploiements d'IA basés sur le cloud.

« L'économie de l'inférence à grande échelle est une considération majeure pour les entreprises », a déclaré Nathan Thomas, vice-président, multicloud, Oracle Cloud Infrastructure. « Augmented Memory Grid de WEKA relève directement ce défi. « L'amélioration de 20 fois du temps d'accès au premier token que nous avons observée lors de tests conjoints sur l'OCI n'est pas seulement une mesure de performance, elle modifie fondamentalement la structure des coûts d'exécution des charges de travail d'intelligence artificielle. Pour nos clients, cela permet de déployer la prochaine génération d'IA plus facilement et à moindre coût ».

Disponibilité commerciale
Augmented Memory Grid est désormais incluse en tant que fonctionnalité pour les déploiements NeuralMesh et sur l'Oracle Cloud Marketplace, avec une prise en charge prochaine d'autres plateformes cloud.

Nous invitons les entreprises intéressées par le déploiement d'Augmented Memory Grid à consulter la page Augmented Memory Grid de WEKA pour en savoir plus sur la solution et les critères de qualification.

À propos de WEKA
WEKA transforme la façon dont les organisations construisent, exécutent et mettent à l'échelle les flux de travail d'IA grâce à NeuralMesh™, son système de stockage maillé intelligent et adaptatif. Contrairement aux infrastructures de données traditionnelles, qui deviennent plus lentes et plus fragiles à mesure que les charges de travail augmentent, NeuralMesh devient plus rapide, plus solide et plus efficace à mesure qu'il évolue, s'adaptant dynamiquement aux environnements d'IA pour fournir une base flexible à l'IA d'entreprise et à l'innovation en matière d'IA agentique. Reconnu par 30 % des entreprises du classement Fortune 50, NeuralMesh aide les grandes entreprises, les fournisseurs de cloud d'IA et les concepteurs d'IA à optimiser les GPU, à accélérer la mise à l'échelle de l'IA et à réduire les coûts d'innovation. Pour en savoir plus, consultez le site www.weka.io ou retrouvez-nous sur LinkedIn ou sur X.

WEKA et le logo W sont des marques déposées de WekaIO, Inc. Les autres noms commerciaux figurant dans le présent document peuvent être des marques déposées de leurs propriétaires respectifs.

Photo - https://mma.prnewswire.com/media/2825138/PR_WEKA_Augmented_Memory_Grid.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Middle East - English

USA - English

APAC - English

Deutschland - Deutsch

India - English

Nouvelles fournies par

WEKA annonce une nouvelle architecture NeuralMesh conçue pour NVIDIA BlueField-4

Le DCAI élargit son offre d'infrastructure d'IA avec les services de stockage intégré de WEKA

Contactez Nous

Sites mondiaux

Autres communiqués de la compagnie

WEKA annonce une nouvelle architecture NeuralMesh conçue pour NVIDIA BlueField-4

Le DCAI élargit son offre d'infrastructure d'IA avec les services de stockage intégré de WEKA

Explorer