Myrtle.ai maakt ML-inferentielatentie van microseconden mogelijk voor grotere modellen op de AMD Alveo V80 Compute Accelerator-kaart
CAMBRIDGE, Engeland, 29 juli 2025 /PRNewswire/ -- Myrtle.ai, een erkende leider in het versnellen van Machine Learning-inferentie, heeft vandaag ondersteuning vrijgegeven voor haar VOLLO® inferentieversneller op de AMD Alveo™ V80 Compute Accelerator-kaart.
VOLLO bereikt toonaangevende ML-inferentie rekenlatenties, die minder dan een microseconde kunnen bedragen, en levert tegelijkertijd uitstekende efficiëntie op gebied van doorvoer, vermogen en rackspace. Met deze nieuwe release kunnen ML-ontwikkelaars met grotere modellen voordeel halen door die op een enkele FPGA voor de laagste latentie in te zetten. Een LSTM-model van 3 lagen met 22 miljoen parameters kan bijvoorbeeld worden uitgevoerd met een p99-latentie van minder dan 10 microseconden. Zelfs grotere modellen kunnen worden geshard en over meerdere FPGA's worden uitgevoerd, waarbij nog steeds lagere latenties worden bereikt in vergelijking met oplossingen van de concurrentie.
Er is vraag naar VOLLO in een groot aantal toepassingen, waaronder financiële handel, draadloze telecommunicatie, cyberbeveiliging, netwerkbeheer en andere sectoren, waar ML-inferentie met zo gering mogelijke latentie voordelen biedt op gebied van beveiliging, veiligheid, winst, efficiëntie en kosten.
"De vraag naar VOLLO komt van beide kanten," verklaart Peter Baldwin, CEO van Myrtle.ai. "We hebben klanten die een vast latentievenster hebben en ze zijn blij dat ze nu grotere modellen kunnen uitvoeren met dezelfde latentie die ze voordien alleen met kleinere modellen konden bereiken. We hebben ook klanten die de allerlaagste latentie willen die ze voor hun specifieke model kunnen bereiken. Het vergroten van de omvang van modellen die op een enkele FPGA kunnen worden uitgevoerd, heeft beide echt geholpen."
"We zijn verheugd dat VOLLO nu wordt ondersteund op de productieklare AMD Alveo V80 compute accelerator voor geheugenintensieve workloads," zegt Girish Malipeddi, directeur voor Data Center FPGA business van AMD. "AMD-klanten kunnen nu met VOLLO ML-inferentie met een zeer lage latentie uitvoeren, terwijl zij die een compute accelerator willen aanschaffen om VOLLO uit te voeren, voor de Alveo V80 kunnen opteren, met de hoogste modelcapaciteit van alle FPGA's die tot nu toe door VOLLO worden ondersteund."
De Alveo V80-kaart is gebaseerd op de AMD Versal™ Adaptive SoC met een logische dichtheid van 2,6M LUT, 32 GB HBM en extra 32 GB DDR4 en 800G netwerkinterface. Het beschikt over FPGA fabric om de hardware aan de toepassing aan te passen, gekoppeld aan HBM2e voor grote datasets en geheugenintensieve rekenkracht.
Geïnteresseerden kunnen nu de ML-gerichte VOLLO compiler downloaden van vollo.myrtle.ai en ontdekken welke latenties met hun modellen kunnen worden bereikt op de AMD Alveo V80 compute accelerator-kaart.
Over Myrtle.ai
Myrtle.ai is een AI/ML-softwarebedrijf dat inferentieversnellers van wereldklasse levert op FPGA-gebaseerde platformen van alle toonaangevende FPGA-leveranciers. Met neurale netwerkexpertise in het hele spectrum van ML-netwerken, heeft Myrtle versnellers geleverd voor FinTech, spraakverwerking en aanbevelingen.
AMD, het AMD-logo, Alveo, Versal en combinaties daarvan zijn handelsmerken van Advanced Micro Devices, Inc.
Foto: https://mma.prnewswire.com/media/2739187/Myrtle_ai.jpg
Logo: https://mma.prnewswire.com/media/2739186/Myrtle_ai_Logo.jpg
Dit artikel delen