WEKA optimise la production de jetons avec un coût inférieur par jeton sur NVIDIA BlueField-4 STX

Nouvelles fournies par

17 mars, 2026, 22:40 GMT

L'intégration de NeuralMesh et de la grille de mémoire augmentée avec NVIDIA STX multiplie la production de jetons par 6,5 dans la même empreinte de GPU, réduisant ainsi le coût de l'inférence pour les organisations fonctionnant avec l'IA

SAN JOSE, Californie et CAMPBELL, Californie, 17 mars 2026 /PRNewswire/ -- En direct de la conférence GTC 2026 : WEKA, société spécialisée dans les systèmes de stockage et de mémoire pour l'IA, annonce l'intégration de son logiciel NeuralMesh™ avec l'architecture de référence NVIDIA STX. La technologie révolutionnaire d'extension de la mémoire de WEKA Augmented Memory Grid™ (grille de mémoire augmentée) fonctionnant sur NeuralMesh prend en charge NVIDIA STX pour apporter un stockage de mémoire contextuelle à haut débit aux usines d'IA agentique, rendant le raisonnement à long contexte transparent à travers les sessions, les outils et les tâches. S'appuyant sur NVIDIA Vera Rubin NVL72, NVIDIA BlueField-4, et NVIDIA Spectrum-X Ethernet, la solution NeuralMesh basée sur NVIDIA STX procure une augmentation estimée de 4 à 10 fois plus de jetons par seconde pour la mémoire contextuelle tout en prenant en charge au moins 320 Go de débit de lecture et 150 Go de débit d'écriture par seconde pour les charges de travail d'IA, soit plus du double du débit des plates-formes de stockage d'IA conventionnelles.

WEKA and NVIDIA unlock cost-efficient AI inference at scale

Résolution du problème du coût de l'inférence avec l'infrastructure de cache KV partagée
La mise à l'échelle des systèmes agentiques, en particulier pour les applications de génie logiciel, révèle une réalité incontournable : la dimension économique de l'IA d'aujourd'hui est décidée au niveau de l'infrastructure de la mémoire. Chaque flotte d'inférence à grande échelle se heurte au mur de la mémoire : la mémoire limitée à grande largeur de bande (HBM) du GPU est rapidement épuisée, le cache clé-valeur (KV) est évincé, le contexte est perdu et le système est contraint de répéter le travail qu'il a déjà effectué. Cette inefficacité architecturale fait grimper en flèche les coûts d'inférence. La réponse est une infrastructure de cache KV partagée qui maintient le contexte en direct entre les agents, les utilisateurs et les sessions. Cette infrastructure élimine les calculs redondants, soutient le débit des jetons et maintient des performances prévisibles. Sans infrastructure de cache KV partagée, chaque augmentation du nombre d'utilisateurs et d'agents simultanés devient un handicap - les coûts augmentent, les expériences se dégradent et la flotte d'inférence devient plus difficile à exploiter au fur et à mesure qu'elle s'agrandit. Avec STX pour la mémoire contextuelle, NVIDIA présente un plan pour résoudre ces goulets d'étranglement au niveau de l'inférence.

Mémoire contextuelle Stockage : la base des usines d'IA agentique
Avec les solutions WEKA co-conçues basées sur l'architecture NVIDIA STX, les nuages d'IA, les entreprises et les créateurs de modèles d'IA peuvent déployer la base d'infrastructure dont ils ont besoin pour faire fonctionner les GPU à une productivité optimale, soutenir la production de jetons à haut volume et rendre l'inférence à grande échelle plus efficace en termes d'énergie et de coûts.

Les principaux innovateurs en matière d'IA et fournisseurs de cloud, tels que Firmus, transforment déjà leur économie d'inférence avec une grille de mémoire augmentée sur NeuralMesh.

« Dans le monde réel, l'IA ne fonctionne pas dans un laboratoire - elle est soumise à des contraintes d'alimentation, à des limites de refroidissement et à une demande de charge de travail incessante. Firmus est conçu exactement pour cela. Associé à l'infrastructure d'IA de NVIDIA, la grille de mémoire augmentée de WEKA fournit jusqu'à 6,5 fois plus de jetons par seconde et un TTFT 4 fois plus rapide à l'échelle, ce qui prouve qu'il est possible d'obtenir plus de performances à partir de la même empreinte GPU. Avec NeuralMesh et la grille de mémoire augmentée intégrés dans notre fabrique d'IA et notre architecture de référence NVIDIA STX, nous sommes en mesure de fournir le réseau de mémoire contextuelle le plus rapide pour une inférence prévisible et efficace à grande échelle », a déclaré Daniel Kearney, directeur de la technologie chez Firmus.

NeuralMesh et NVIDIA STX : conçus pour l'IA agentique
NeuralMesh est le système de stockage intelligent et adaptatif de WEKA, basé sur plus de 170 brevets. Il s'exécute sur l'architecture de référence STX complète, fournissant le stockage de nouvelle génération dont les organisations ont besoin pour standardiser les services de données d'IA haute performance et accélérer les résultats de l'IA agentique. La grille de mémoire augmentée de WEKA est une couche d'extension de la mémoire spécialement conçue pour regrouper et conserver le cache KV en dehors de la mémoire du GPU, ce qui permet de maintenir les sessions à contexte long stables et la concurrence élevée à mesure que les charges de travail d'inférence augmentent. Dévoilée pour la première fois au cours de la GTC 2025 et disponible aujourd'hui pour les clients de NeuralMesh, la grille de mémoire augmentée a été validée avec Supermicro sur le CPU NVIDIA Grace et les DPU BlueField-3 pour fournir de nombreux avantages qui améliorent l'économie de l'IA, notamment :

Des expériences plus rapides pour les utilisateurs : la grille de mémoire augmentée sur NeuralMesh permet d'améliorer jusqu'à 4 à 20 fois le temps d'accès au premier jet, ce qui permet aux agents et aux applications d'IA de rester réactifs dans des conditions de charge réelles.
Plus de recettes avec le même matériel : servez 6,5 fois plus de jetons par GPU - sans ajouter d'infrastructure.
Des performances durables à grande échelle : la grille de mémoire augmentée maintient des taux d'accès élevés au cache KV, même lorsque les sessions, les agents et les fenêtres contextuelles augmentent, évitant ainsi l'effondrement des performances qui affecte les architectures uniquement basées sur DRAM.
Efficacité GPU-Native : l'intégration de BlueField-4 décharge le CPU du chemin des données de stockage, ce qui permet aux GPU d'être pleinement productifs et d'éliminer les goulets d'étranglement des E/S.

« Avec les progrès des grands modèles de langage, nous assistons à une adoption sans précédent des cas d'utilisation de l'IA agentique pour le génie logiciel, où la productivité augmente de 100 à 1000 fois. Alors que les assistants de codage font des appels répétés contre des bases de code et des invites largement inchangées, la grille de mémoire augmentée de WEKA réutilise le contexte mis en cache au lieu de forcer un pré-remplissage redondant, même lorsque les fenêtres de contexte atteignent des longueurs incroyables. Cela permet d'améliorer considérablement les temps de réponse et d'augmenter le nombre d'utilisateurs simultanés sur la même infrastructure », a déclaré Liran Zvibel, cofondateur et directeur général de WEKA. « WEKA a identifié ce besoin de stockage de mémoire contextuelle il y a plus d'un an et a lancé la grille de mémoire augmentée à l'occasion de la conférence GTC 2025. Désormais, NVIDIA STX permet aux entreprises d'exploiter leur infrastructure de stockage et d'extension de mémoire sur l'architecture de pointe NVIDIA Vera Rubin, y compris NVIDIA BlueField-4 et NVIDIA Spectrum-X Ethernet. L'exécution la grille de mémoire augmentée sur NeuralMesh pour NVIDIA STX offre des performances et une efficacité extrêmes qui se traduisent directement par une économie de l'IA qui change la donne. »

Disponibilité

La grille de mémoire augmentée de WEKA est disponible commercialement avec NeuralMesh dès aujourd'hui.

Les organisations qui ne s'attaquent pas au mur de la mémoire aujourd'hui éprouveront plus de difficultés et paieront plus cher pour évoluer demain. À mesure que les charges de travail agentiques augmentent et que les fenêtres contextuelles s'élargissent, les architectures uniquement basées sur DRAM sont confrontées à un problème de coût de plus en plus important : chaque utilisateur ou session simultané supplémentaire augmente les frais généraux de recalcul, le temps d'inactivité du GPU et les coûts d'exploitation. Les organisations qui conçoivent dès maintenant une architecture pour le cache KV persistant auront un avantage structurel en termes de coûts et de performances par rapport à celles qui attendent.

Pour plus d'informations sur NeuralMesh, consultez le site : weka.io/NeuralMesh.
Pour plus d'informations sur la grille de mémoire augmentée, consultez le site : weka.io/augmented-memory-grid.

Les organisations peuvent en savoir plus sur weka.io/nvidia ou visiter WEKA à la GTC 2026, stand #1034.

À propos de WEKA
WEKA transforme la façon dont les organisations et les entreprises conçoivent, exécutent et développent les flux de travail d'IA avec NeuralMesh™ by WEKA®, son système de stockage maillé intelligent et adaptatif. Contrairement aux infrastructures de données traditionnelles, qui deviennent plus lentes et plus fragiles à mesure que les charges de travail augmentent, NeuralMesh devient plus rapide, plus solide et plus efficace à mesure qu'il évolue, s'adaptant dynamiquement aux environnements d'IA pour fournir une base flexible à l'IA d'entreprise et à l'innovation en matière d'IA agentique. Reconnu par 30 % des entreprises du classement Fortune 50, NeuralMesh aide les grandes entreprises, les fournisseurs de cloud d'IA et les concepteurs d'IA à optimiser les GPU, à accélérer la mise à l'échelle de l'IA et à réduire les coûts d'innovation. Pour en savoir plus, consultez le site www.weka.io ou retrouvez-nous sur LinkedIn ou sur X.

WEKA et le logo W sont des marques déposées de WekaIO, Inc. Les autres noms commerciaux figurant dans le présent document peuvent être des marques déposées de leurs propriétaires respectifs.

Photo -https://mma.prnewswire.com/media/2934399/WEKA_and_NVIDIA.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

WEKA optimise la production de jetons avec un coût inférieur par jeton sur NVIDIA BlueField-4 STX

Nouvelles fournies par

WEKA dévoile sa nouvelle génération de baies WEKApod pour redéfinir l'économie du stockage IA

WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Contactez Nous

Sites mondiaux

Autres communiqués de la compagnie

WEKA dévoile sa nouvelle génération de baies WEKApod pour redéfinir l'économie du stockage IA

WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Explorer