WEKA et Oracle Cloud Infrastructure valident des gains de débit multipliés par 10 pour l'inférence d'IA à contexte long
Des benchmarks conjoints sur l'infrastructure H100 d'OCI ont montré qu'il y avait 10 fois plus d'utilisateurs simultanés, un débit de jetons 10 fois supérieur et 7 fois plus de jetons servis sans ajout de GPU
CAMPBELL, Californie, 9 juin 2026 /PRNewswire/ -- WEKA, la société d'infrastructure de données et de mémoire pour l'IA, a annoncé aujourd'hui des benchmarks à l'échelle de la production qui montrent comment les entreprises peuvent améliorer l'économie de l'inférence d'IA à long contexte en servant davantage d'utilisateurs et de jetons sur la même empreinte GPU. Les benchmarks montrent que la plateforme NeuralMesh de WEKA avec Augmented Memory Grid ( (grille de mémoire augmentée) sur Oracle Cloud Infrastructure (OCI) prend en charge10 fois plus d'utilisateurs simultanés, fournit un débit de jetons 10 fois supérieur, et produit 7 fois plus de jetons par GPU que les configurations à base de DRAM uniquement sans ajouter d'infrastructure. Les résultats ont été validés sur un cluster de neuf nœuds bare metal H100 sur OCI avec des fenêtres contextuelles de 100 000 jetons.
« Les charges de travail d'IA d'entreprise poussent les fenêtres contextuelles et l'utilisation des GPU toujours plus loin dans leurs limites », déclare Pablo Selem, directeur principal, développement logiciel, Oracle Cloud Infrastructure. « Ces benchmarks montrent comment la plateforme NeuralMesh de WEKA avec Augmented Memory Grid sur OCI permet d'éliminer les goulots d'étranglement de la mémoire afin que les clients puissent supporter des charges de travail d'inférence plus importantes et plus exigeantes sans simplement ajouter des GPU supplémentaires. »
Trois résultats qui redéfinit l'équation de l'inférence
Validé à l'échelle de production sur un cluster H100 nu (neuf nœuds, 72 GPU, 100 000 fenêtres contextuelles de jetons, des milliers d'utilisateurs simultanés), NeuralMesh avec Augmented Memory Grid sur OCI a généré les résultats suivants :
- 10 fois plus d'utilisateurs simultanés pris en charge, sans ajout d'infrastructure. NeuralMesh avec Augmented Memory Grid a dépassé les 5 000 utilisateurs simultanés, contre environ 600 pour les configurations à base de DRAM uniquement. Cela permet d'éviter le risque de défaillance soudaine qui se produit lorsque le cache est saturé en étendant le jeu de travail du cache actif de 8,64 TiB de DRAM à 287 TiB de NVMe utilisable. En outre, un plus grand nombre d'utilisateurs par GPU signifie que le même investissement est plus rentable.
- Débit de jetons 10 fois plus élevé. Plus de rendement de chaque GPU dans le cluster. Sur OCI, NeuralMesh avec la grille à mémoire augmentée a atteint environ deux millions de jetons par seconde, contre moins de 200 000 pour la référence utilisant uniquement de la DRAM. Pour les équipes produit qui utilisent des fonctions d'IA en temps réel, notamment la recherche, le résumé, l'assistance au code et les agents multi-tours, le débit détermine le plafond du nombre d'utilisateurs pouvant être pris en charge, la vitesse de réponse des fonctions et le montant des revenus que l'infrastructure peut supporter.
- 7 fois plus de jetons servis. Réduction du coût par jeton à grande échelle. NeuralMesh avec Augmented Memory Grid a servi cinq milliards de jetons, contre 700 millions pour la référence utilisant uniquement de la DRAM, au cours d'un seul test d'une heure et de 2 400 utilisateurs. Pour les entreprises qui gèrent des flux de travail agentiques, la saturation de la DRAM épuise progressivement les capacités du GPU par des recalculs constants, ce qui a un impact direct sur le coût par jeton et le retour sur investissement.
« L'inférence est limitée par la quantité de mémoire effective disponible pour les GPU », déclare Liran Zvibel, PDG de WEKA. « Ces résultats prouvent que l'économie des jetons IA n'est pas résolue uniquement par le matériel ; elle l'est en éliminant le mur de mémoire qui a constitué jusqu'à présent la véritable limite des capacités du matériel existant. NeuralMesh avec Augmented Memory Grid fonctionnant sur OCI apporte des ordres de grandeur de jetons supplémentaires aux clients d'une manière extrêmement rentable. »
Transformer l'économie de l'IA grâce à l'infrastructure de mémoire contextuelle
Alors que la demande d'inférence augmente, les inefficacités de l'infrastructure de l'IA s'aggravent. Chaque éviction de la mémoire cache clé-valeur (KV) est une taxe : sur les cycles du GPU, la latence, l'expérience utilisateur et le coût de chaque jeton servi. Pour les charges de travail agentiques et à contexte long, où les entrées atteignent couramment 100 000 jetons ou plus, cette taxe n'est pas une erreur d'arrondi. Il s'agit d'une atteinte directe à l'économie unitaire de toute entreprise gérant la production d'IA.
Augmented Memory Grid, une fonctionnalité de NeuralMesh, résout le problème au niveau architectural en découplant le cache KV de la mémoire locale du GPU et en le stockant dans un entrepôt de jetons haute performance accessible dans tout le cluster. N'importe quel hôte peut servir n'importe quelle session avec des occurrences de cache intactes, supprimant ainsi la persistance rigide des sessions tout en offrant des performances supérieures à celles de la DRAM, en améliorant l'équilibrage de la charge et en permettant une évolution horizontale nette au fur et à mesure de l'augmentation de la simultanéité. Il en résulte une mémoire contextuelle persistante pour les agents d'IA et un levier de coût qui rend l'inférence de contextes longs économique à grande échelle.
Preuve de niveau production
Le 13 mai 2026, OCI a publié l'intégralité de la méthodologie, de la configuration du système et des résultats sur son blog AI & Data Science. Les benchmarks, exécutés sur un cluster de neuf nœuds bare metal H100 sur OCI, vont au-delà de la phase de validation précédente, qui a démontré une capacité de cache KV 1 000 fois supérieure et un temps d'obtention du premier jeton jusqu'à 20 fois plus rapide à 128 000 jetons. Cette dernière phase teste l'économie complète de l'inférence dans la production : la densité de concurrence, le débit soutenu, la persistance du cache et la stabilité de l'objectif de niveau de service (SLO) lorsque la demande augmente sous l'effet d'une charge élevée.
Disponible sur Oracle Marketplace
NeuralMesh avec Augmented Memory Grid est généralement disponible pour les clients de WEKA et sur Oracle Marketplace, avec OCI comme partenaire exclusif de lancement de WEKA. Les entreprises qui utilisent l'inférence à contexte long sur OCI peuvent déployer dès aujourd'hui une architecture validée et prête pour la production. Pour en savoir plus sur le benchmark OCI et Augmented Memory Grid de WEKA, consultez le blog d'OCI : https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid.
À propos de WEKA
WEKA est la société d'infrastructure de données et de mémoire pour l'IA qui transforme l'économie de l'IA agentique. Sa plateforme NeuralMesh™ unifie le stockage de données haute performance avec la mémoire GPU étendue, offrant aux entreprises, aux fournisseurs de cloud d'IA et aux constructeurs d'IA une base unique pour la formation, l'inférence et les charges de travail agentiques. Augmented Memory Grid permet à NeuralMesh de multiplier par 1 000 la capacité de mémoire du GPU, d'accélérer jusqu'à 20 fois le temps nécessaire pour obtenir le premier jeton et de multiplier par 10 le nombre d'utilisateurs simultanés à partir de la même empreinte GPU, comme l'ont prouvé les tests de production. Reconnu par 30 % des entreprises du classement Fortune 50, WEKA permet aux organisations de développer l'IA plus rapidement, d'optimiser l'utilisation des GPU et de réduire le coût de chaque jeton servi. Pour en savoir plus, consultez le site www.weka.io ou retrouvez-nous sur LinkedIn ou sur X.
WEKA et le logo W sont des marques déposées de WekaIO, Inc. Les autres noms commerciaux figurant dans le présent document peuvent être des marques déposées de leurs propriétaires respectifs.
Partager cet article