WEKA lance NeuralMesh Axon pour les déploiements exascale

APAC - Traditional Chinese

India - Hindi

Middle East - Arabic

Korea - 한국어

APAC - English

Middle East - English

USA - English

Nouvelles fournies par

09 juil, 2025, 04:22 GMT

Cette nouvelle solution est une architecture de fusion unique, exploitée par des pionniers de l'IA tels que Cohere, CoreWeave et NVIDIA, afin d'obtenir des gains de performances considérables et réduire les besoins en infrastructure pour les charges de travail massives de formation et d'inférence en matière d'IA.

PARIS et CAMPBELL, Californie, 9 juillet 2025 /PRNewswire/ -- SOMMET RAISE 2025 : WEKA a dévoilé NeuralMesh Axon, un système de stockage révolutionnaire qui s'appuie sur une architecture de fusion innovante conçue pour relever les défis fondamentaux liés à l'exécution d'applications et de charges de travail exascales en matière d'IA. NeuralMesh Axon fusionne de manière transparente avec les serveurs GPU et les usines d'IA pour rationaliser les déploiements, réduire les coûts et améliorer de manière significative la réactivité et les performances des charges de travail d'IA, en transformant les ressources GPU sous-utilisées en une couche d'infrastructure unifiée et hautement performante.

WEKA's NeuralMesh Axon delivers an innovative fusion architecture designed to address the fundamental challenges of running exascale AI applications and workloads.

S'appuyant sur le système de stockage NeuralMesh, récemment introduit par la société, cette nouvelle solution améliore son architecture de microservices conteneurisée avec de puissantes fonctionnalités intégrées, permettant aux pionniers de l'IA, aux fournisseurs de services de cloud d'IA et neocloud d'accélérer le développement de modèles d'IA à une échelle extrême, en particulier lorsqu'ils sont associés aux piles logicielles NVIDIA AI Enterprise pour l'entraînement de modèles avancés et l'optimisation de l'inférence. NeuralMesh Axon prend également en charge le raisonnement en temps réel, avec une amélioration significative du délai d'obtention du premier jeton et du débit global des jetons, permettant ainsi aux clients de commercialiser leurs innovations plus rapidement.

Les obstacles à l'infrastructure de l'IA s'intensifient au niveau exascale
Les performances sont déterminantes pour les charges de travail d'apprentissage et d'inférence des grands modèles de langage, en particulier lorsqu'elles sont exécutées à une échelle extrême. Les entreprises qui exécutent des charges de travail d'IA massives sur des architectures de stockage traditionnelles, dépendant d'approches à forte réplication, gaspillent la capacité NVMe, sont confrontées à des inefficacités significatives et luttent contre des performances et une allocation des ressources imprévisibles.

La raison ? Les architectures traditionnelles n'ont pas été conçues pour traiter et stocker des volumes massifs de données en temps réel. Elles créent des latences et des goulets d'étranglement dans les pipelines de données et les flux de travail d'IA qui sont susceptibles de paralyser les déploiements exascales de l'IA. Les serveurs GPU sous-utilisés et les architectures de données obsolètes transforment le matériel de première qualité en capital inutilisé, ce qui entraîne des temps d'arrêt onéreux pour les charges de travail de formation. Les charges de travail d'inférence se heurtent à des obstacles liés à la mémoire, notamment les caches de valeurs clés (KV) et les données chaudes, ce qui entraîne une réduction du débit et une augmentation de la pression sur l'infrastructure. La capacité limitée de déchargement du cache KV crée des goulets d'étranglement dans l'accès aux données et complique l'allocation des ressources pour les messages entrants, ce qui a un impact direct sur les frais d'exploitation et les délais de traitement. De nombreuses entreprises adoptent les serveurs de calcul accélérés de NVIDIA, associés au logiciel NVIDIA AI Enterprise, pour relever ces défis. Toutefois, sans l'intégration d'un système de stockage moderne, elles continuent de se heurter à des limites importantes en termes d'efficacité du pipeline et d'utilisation globale du GPU.

Conçu pour les environnements de calcul accéléré les plus vastes et les plus exigeants au monde
Pour relever ces défis, la structure de stockage haute performance et résiliente de NeuralMesh Axon fusionne directement avec les serveurs de calcul accéléré en tirant parti du NVMe local, des cœurs de processeur de réserve et de l'infrastructure réseau existante. Cette couche de calcul et de stockage unifiée et définie par logiciel offre une latence constante de l'ordre de la microseconde pour les charges de travail locales et distantes, surpassant ainsi les protocoles locaux traditionnels tels que NFS.

En outre, en tirant parti de la capacité de la grille de mémoire augmentée de WEKA, elle peut fournir des vitesses proches de la mémoire pour les charges de cache KV à grande échelle. Contrairement aux approches basées sur la réplication qui gaspillent la capacité globale et s'effondrent en cas de défaillance, la conception unique d'erasure coding de NeuralMesh Axon tolère jusqu'à quatre pertes de nœuds simultanées, maintient le plein débit pendant les reconstructions et permet une allocation prédéfinie des ressources sur les ressources NVMe, les cœurs de CPU et les ressources réseau existantes - transformant les disques isolés en un pool de stockage de type mémoire de niveau exascale et au-delà, tout en fournissant un accès cohérent à faible latence à l'ensemble des données adressables.

Les fournisseurs de services cloud et les innovateurs en IA opérant à l'échelle exascale ont besoin de solutions d'infrastructure capables de s'adapter à la croissance exponentielle de la complexité des modèles et de la taille des ensembles de données. NeuralMesh Axon est spécialement conçu pour les organisations opérant à la pointe de l'innovation en matière d'IA et qui ont besoin de performances immédiates et extrêmes plutôt que d'une mise à l'échelle progressive au fil du temps. Il s'agit notamment des fournisseurs de cloud d'IA et des néoclouds qui créent des services d'IA, des usines d'IA régionales, des principaux fournisseurs de cloud qui développent des solutions d'IA pour les entreprises clientes et des grandes entreprises qui déploient les solutions d'inférence et de formation d'IA les plus exigeantes et qui doivent faire évoluer et optimiser de manière agile leurs investissements dans l'infrastructure d'IA afin de soutenir des cycles d'innovation rapides.

Produire une performance décisive pour une innovation accélérée en IA
Les premiers utilisateurs, dont Cohere, la première société d'IA d'entreprise axée sur la sécurité, constatent déjà des résultats transformationnels.

Cohere est l'un des premiers clients de WEKA à déployer NeuralMesh Axon pour alimenter ses charges de travail de formation et d'inférence de modèles d'IA. Confrontée à des coûts d'innovation élevés, à des goulets d'étranglement dans le transfert de données et à des GPU sous-utilisés, Cohere a d'abord déployé NeuralMesh Axon dans le cloud public pour unifier sa pile d'IA et rationaliser ses opérations.

« Pour les concepteurs de modèles d'IA, la vitesse, l'optimisation du GPU et la rentabilité sont essentielles. Cela signifie que l'on utilise moins de matériel, que l'on génère plus de jetons et que l'on exécute plus de modèles, sans attendre la capacité ou la migration des données », explique Autumn Moulder, vice-présidente de l'ingénierie chez Cohere. « L'intégration du NeuralMesh Axon de WEKA dans nos serveurs GPU nous a permis d'optimiser l'utilisation et d'accélérer chaque étape de nos pipelines d'IA. Les gains de performance ont changé la donne : les déploiements d'inférences qui prenaient cinq minutes peuvent se faire en 15 secondes, avec des points de contrôle dix fois plus rapides. Notre équipe peut désormais développer et commercialiser de nouveaux modèles d'IA révolutionnaires, comme North, à une vitesse inaéglée. »

Pour améliorer la formation et aider à développer North, la plateforme sécurisée d'agents d'IA de Cohere, l'entreprise déploie NeuralMesh Axon de WEKA sur CoreWeave Cloud, créant une base solide pour soutenir le raisonnement en temps réel et offrir des expériences exceptionnelles aux clients finaux de Cohere.

« Nous entrons dans une ère où les progrès de l'IA transcendent le calcul brut seul - ils sont libérés par une conception intelligente de l'infrastructure. CoreWeave redéfinit ce qui est possible pour les pionniers de l'IA en éliminant les complexités qui limitent l'IA à grande échelle », a déclaré Peter Salanki, directeur technique et cofondateur de CoreWeave. « Avec le NeuralMesh Axon de WEKA intégré de manière transparente dans l'infrastructure cloud d'IA de CoreWeave, nous apportons la puissance de traitement directement aux données, avec des latences de l'ordre de la microseconde qui réduisent le temps d'attente des E/S et fournissent plus de 30 Go/s en lecture, 12 Go/s en écriture, et 1 million d'IOPS à un serveur GPU individuel. Cette approche révolutionnaire augmente l'utilisation du GPU et donne à Cohere la base de performance nécessaire pour briser les barrières de vitesse d'inférence et fournir des solutions d'IA avancées à ses clients. »

« Les usines d'IA définissent l'avenir de l'infrastructure d'IA développée à partir du calcul accéléré de NVIDIA et de notre écosystème de partenaires du cloud NVIDIA », a ajouté Marc Hamilton, vice-président de l'architecture et de l'ingénierie des solutions chez NVIDIA. « En optimisant l'inférence à l'échelle et en intégrant le stockage NVMe à très faible latence à proximité des GPU, les entreprises peuvent débloquer plus de bande passante et étendre la mémoire disponible sur le GPU pour n'importe quelle capacité. Les solutions de partenaires comme le NeuralMesh Axon de WEKA déployé avec CoreWeave fournissent une base critique pour l'inférence accélérée tout en permettant des services d'IA de nouvelle génération avec une performance et une rentabilité exceptionnelles. »

Les avantages de la fusion du stockage et du calcul pour l'innovation en matière d'IA
NeuralMesh Axon apporte des améliorations immédiates et mesurables aux concepteurs d'IA et aux fournisseurs de services cloud opérant à l'échelle exascale :

Mémoire étendue avec débit accéléré des jetons : fournit une intégration étroite avec la technologie WEKA Augmented Memory Grid, étendant la mémoire du GPU en l'utilisant comme un entrepôt de jetons. Cette solution a permis de multiplier par 20 le temps nécessaire à l'obtention du premier jeton dans le cadre de plusieurs déploiements chez des clients, ce qui a permis d'élargir les fenêtres contextuelles et d'améliorer considérablement l'efficacité du traitement des jetons pour les charges de travail intensives en termes d'inférence. En outre, NeuralMesh Axon permet aux clients d'ajuster dynamiquement les ressources de calcul et de stockage et prend en charge de manière transparente l'entraînement et l'inférence en flux tendu.
Énormes gains d'accélération et d'efficacité du GPU sur le site : les clients obtiennent des améliorations spectaculaires en termes de performances et d'utilisation des GPU avec NeuralMesh Axon, grâce à des charges de travail de formation de modèles d'IA dépassant 90 %, soit une amélioration de trois fois par rapport à la moyenne du secteur. NeuralMesh Axon réduit également les besoins en espace de rack, en alimentation et en refroidissement dans les centres de données sur site, ce qui permet de réduire les coûts et la complexité de l'infrastructure en tirant parti des ressources serveur existantes.
Mise à l'échelle immédiate des flux de travail massifs d'IA : pour les innovateurs en matière d'IA qui ont besoin d'une échelle extrême immédiate, plutôt que de croître au fil du temps. L'architecture de microservices conteneurisés et la conception cloud-native de NeuralMesh Axon permettent aux entreprises de faire évoluer les performances et la capacité de stockage de manière indépendante, tout en maintenant des caractéristiques de performance cohérentes dans les environnements hybrides et multicloud.
Permet aux équipes de se concentrer sur la construction de l'IA, et non sur l'infrastructure : fonctionne de manière transparente dans les environnements hybrides et cloud, en s'intégrant aux environnements Kubernetes et de conteneurs existants pour éliminer le besoin d'une infrastructure de stockage externe et réduire la complexité.

« Les défis que pose l'infrastructure de l'IA exascale sont complètement inédits. Chez WEKA, nous constatons que les entreprises sont confrontées à une faible utilisation des GPU pendant la formation et à une surcharge des GPU pendant l'inférence, alors que les coûts de l'IA s'élèvent à des millions par modèle et par agent », a expliqué Ajay Singh, responsable produit chez WEKA. « C'est pourquoi nous avons conçu NeuralMesh Axon, né de notre volonté d'optimiser chaque couche de l'infrastructure de l'IA à partir du GPU. Désormais, les organisations axées sur l'IA peuvent atteindre les performances et la rentabilité requises pour une innovation compétitive en matière d'IA lorsqu'elles fonctionnent au niveu exascale et au-delà. »

Disponibilité
NeuralMesh Axon est actuellement disponible en version limitée pour les grandes entreprises d'IA et les clients neocloud, la disponibilité générale étant prévue pour l'automne 2025. Pour plus de renseignements, veuillez consulter :

Page du produit : https://www.weka.io/product/neuralmesh-axon/
Résumé de la solution : https://www.weka.io/resources/solution-brief/weka-neuralmesh-axon-solution-brief
Blog Post : https://www.weka.io/blog/ai-ml/neuralmesh-axon-reinvents-ai-infrastructure-economics-for-the-largest-workloads/

À propos de WEKA
WEKA transforme la façon dont les organisations construisent, exécutent et mettent à l'échelle les flux de travail d'IA grâce à NeuralMesh™, son système de stockage maillé intelligent et adaptatif. Contrairement à l'infrastructure de données traditionnelle, qui devient plus fragile à mesure que les environnements d'IA se développent, NeuralMesh devient plus rapide, plus solide et plus efficace au gré de son évolution, en s'adaptant à votre environnement d'IA pour fournir une base flexible à l'entreprise et à l'innovation en matière d'IA agentique. Reconnu par 30 % des entreprises du Fortune 50 et par les plus grands néoclouds et innovateurs en IA du monde, NeuralMesh optimise l'utilisation des GPU, accélère le temps nécessaire pour obtenir le premier jeton et réduit le coût de l'innovation en matière d'IA. Pour en savoir plus, consultez le site www.weka.io, ou connectez-vous avec nous sur LinkedIn et X.

WEKA et le logo W sont des marques déposées de WekaIO, Inc. Les autres noms commerciaux figurant dans le présent document peuvent être des marques déposées de leurs propriétaires respectifs.

Photo - https://mma.prnewswire.com/media/2726225/WEKA_og_pr_wire_neuralmesh_axon.jpg
Logo - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

WEKA lance NeuralMesh Axon pour les déploiements exascale

APAC - Traditional Chinese

India - Hindi

Middle East - Arabic

Korea - 한국어

APAC - English

Middle East - English

USA - English

Nouvelles fournies par

WEKA dévoile sa nouvelle génération de baies WEKApod pour redéfinir l'économie du stockage IA

WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Contactez Nous

Sites mondiaux

Autres communiqués de la compagnie

WEKA dévoile sa nouvelle génération de baies WEKApod pour redéfinir l'économie du stockage IA

WEKA franchit la barrière de la mémoire de l'IA avec Augmented Memory Grid sur NeuralMesh

Explorer