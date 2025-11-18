La technologie révolutionnaire d'extension de la mémoire, validée sur l'Oracle Cloud Infrastructure, démocratise l'inférence, offrant 1 000 fois plus de mémoire et 20 fois plus de temps pour obtenir le premier jeton pour les clients de NeuralMesh

SAINT-LOUIS, et CAMPBELL, Calif., 19 novembre 2025 /PRNewswire/ -- De SC25 : WEKA , la société de stockage d'IA, a annoncé aujourd'hui la disponibilité commerciale de Augmented Memory Grid™ sur NeuralMesh ™, une technologie révolutionnaire d'extension de la mémoire qui résout le goulot d'étranglement fondamental qui freine l'innovation en matière d'IA : la mémoire GPU. Validée sur l' Oracle Cloud Infrastructure (OCI) et d'autres plateformes cloud d'IA de premier plan, Augmented Memory Grid multiplie par 1 000 la capacité de mémoire GPU, qui passe de gigaoctets à pétaoctets, tout en réduisant jusqu'à 20 fois le temps nécessaire pour obtenir le premier jeton. Cette avancée permet aux concepteurs d'IA de rationaliser le raisonnement en contexte long et les flux de travail d'IA agentique, en améliorant considérablement l'efficacité des charges de travail d'inférence qui étaient jusqu'à présent difficiles à mettre à l'échelle.

De l'innovation à la production : résoudre le mur de mémoire de l'IA

Depuis sa présentation lors de la conférence NVIDIA GTC 2025, la technologie Augmented Memory Grid a été renforcée, testée et validée dans les principaux environnements de production d'IA dans le cloud, à commencer par l'OCI. Ces résultats confirment ce que les tests initiaux avaient suggéré : au fur et à mesure que les systèmes d'IA évoluent vers des interactions plus longues et plus complexes, des copilotes de codage aux assistants de recherche et aux agents de raisonnement, la mémoire est devenue le goulot d'étranglement critique qui limite les performances et l'économie de l'inférence.

« Nous mettons sur le marché une solution éprouvée et validée avec l'Oracle Cloud Infrastructure et d'autres plateformes d'infrastructure d'IA de premier plan », a déclaré Liran Zvibel, cofondateur et PDG de WEKA. « La mise à l'échelle de l'IA agentique n'est pas seulement une question de calcul brut, il s'agit de résoudre le mur de la mémoire avec des chemins d'accès intelligents aux données. Augmented Memory Grid permet aux clients d'exécuter plus de jetons par GPU, de prendre en charge plus d'utilisateurs simultanés et de débloquer des modèles de service entièrement nouveaux pour les charges de travail en contexte long. L'infrastructure bare-metal d'OCI, avec son réseau RDMA haute performance et ses capacités de stockage GPUDirect, en fait une plateforme unique pour l'accélération de l'inférence à grande échelle.

Les systèmes d'inférence actuels sont confrontés à une contrainte fondamentale : la mémoire à grande largeur de bande (HBM) du GPU est extraordinairement rapide, mais sa capacité est limitée, tandis que la DRAM du système offre plus d'espace, mais beaucoup moins de largeur de bande. Une fois les deux niveaux remplis, les entrées du cache de valeurs clés (KV cache) sont expulsées et les GPU sont obligés de recalculer les jetons qu'ils ont déjà traités, ce qui gaspille des cycles, de l'énergie et du temps.

La technologie Augmented Memory Grid de WEKA franchit le mur de la mémoire GPU en créant un pont à grande vitesse entre la mémoire GPU (typiquement HBM) et le stockage flash. Elle diffuse en continu des données de cache de valeurs clés entre la mémoire du GPU et l'entrepôt de jetons de WEKA, en utilisant RDMA et NVIDIA Magnum IO GPUDirect Storage pour atteindre des vitesses de mémoire. Cela permet aux grands modèles de langage et d'IA d'accéder à beaucoup plus de contexte sans avoir à recalculer le cache KV précédemment calculé ou les tokens précédemment générés, améliorant ainsi considérablement l'efficacité et l'évolutivité.

Performances et intégration à l'écosystème testées par l'OCI

Des tests indépendants, y compris la validation sur l'OCI, ont confirmé l'amélioration des performances et de l'intégration à l'écosystème de l'OCI :

Capacité de cache KV multipliée par 1 000 tout en maintenant des performances proches de celles de la mémoire.

tout en maintenant des performances proches de celles de la mémoire. Temps 20 fois plus rapide pour le premier jeton lors du traitement de 128 000 jetons, par rapport à un nouveau calcul de la phase de pré-remplissage.

lors du traitement de 128 000 jetons, par rapport à un nouveau calcul de la phase de pré-remplissage. 7,5 millions d'IOP de lecture et 1,0 million d'IOP d'écriture dans un cluster à huit nœuds.

Pour les fournisseurs de cloud d'IA, les fournisseurs de modèles et les créateurs d'IA d'entreprise, ces gains de performance modifient fondamentalement l'économie de l'inférence. En éliminant les opérations redondantes de pré-remplissage et en maintenant des taux élevés d'accès au cache, les entreprises peuvent maximiser la densité des locataires, réduire les cycles de GPU inactifs et améliorer considérablement le retour sur investissement par kilowattheure. Les fournisseurs de modèles peuvent désormais servir de manière rentable des modèles à contexte long, ce qui réduit les coûts des jetons d'entrée et permet de créer des modèles commerciaux entièrement nouveaux autour de sessions d'IA persistantes et avec état.

Le passage à la disponibilité commerciale est le fruit d'une collaboration étroite avec les principaux collaborateurs de l'infrastructure de l'IA, notamment NVIDIA et Oracle. La solution s'intègre étroitement avec NVIDIA GPUDirect Storage, NVIDIA Dynamo et NVIDIA NIXL , WEKA ayant ouvert un plugin dédié à la bibliothèque de transfert d'inférence de NVIDIA (NIXL). Le calcul GPU bare-metal d'OCI avec le réseau RDMA et les capacités de stockage NVIDIA GPUDirect fournit la base de haute performance dont WEKA a besoin pour fournir une Augmented Memory Grid sans compromis de performance dans les déploiements d'IA basés sur le cloud.

« L'économie de l'inférence à grande échelle est une considération majeure pour les entreprises », a déclaré Nathan Thomas, vice-président, multicloud, Oracle Cloud Infrastructure. « Augmented Memory Grid de WEKA relève directement ce défi. « L'amélioration de 20 fois du temps d'accès au premier token que nous avons observée lors de tests conjoints sur l'OCI n'est pas seulement une mesure de performance, elle modifie fondamentalement la structure des coûts d'exécution des charges de travail d'intelligence artificielle. Pour nos clients, cela permet de déployer la prochaine génération d'IA plus facilement et à moindre coût ».

Disponibilité commerciale

Augmented Memory Grid est désormais incluse en tant que fonctionnalité pour les déploiements NeuralMesh et sur l'Oracle Cloud Marketplace, avec une prise en charge prochaine d'autres plateformes cloud.

Nous invitons les entreprises intéressées par le déploiement d'Augmented Memory Grid à consulter la page Augmented Memory Grid de WEKA pour en savoir plus sur la solution et les critères de qualification.

