획기적인 메모리 확장 기술 , 오라클 클라우드 인프라스트럭처(OCI) 검증 완료… GPU 메모리 1000배 확대, 첫 토큰 생성 시간 20배 단축으로 추론 성능 대중화

세인트루이스 및 캘리포니아 캠벨, 2025년 11월 20일 /PRNewswire/ -- 세계 최대 슈퍼컴퓨팅 콘퍼런스 'SC25'에서 AI 스토리지 기업인 웨카(WEKA)가 오늘 NeuralMesh™에 탑재된 증강 메모리 그리드(Augmented Memory Grid™)의 상용화를 발표했다. 이 혁신적인 메모리 확장 기술은 AI 혁신의 발목을 잡는 근본적인 병목 현상인 GPU 메모리 문제를 해결한다. 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI)와 주요 AI 클라우드 플랫폼에서 검증된 이 기술은 GPU 메모리 용량을 기가바이트(GB)에서 페타바이트(PB) 수준으로 1000배 확장하고, 첫 토큰 생성 시간(Time-to-First-Token)을 최대 20배 단축한다. 이를 통해 장문 맥락 추론과 에이전틱 AI(agentic AI) 워크플로를 대폭 간소화하며, 기존에 확장성이 낮았던 추론 작업의 효율성을 극적으로 향상시킨다.

WEKA's breakthrough Augmented Memory Grid is now available on NeuralMesh.

혁신에서 상용화로 : AI 메모리 벽 해결

2025년 엔비디아 GTC(NVIDIA GTC)에서 처음 소개된 이후, 증강 메모리 그리드는 OCI를 시작으로 주요 AI 클라우드 환경에서 강화•테스트•검증 작업을 거쳤다. 초기 검증 결과와 마찬가지로, AI 시스템이 코딩 코파일럿부터 연구 보조, 복잡한 추론 에이전트에 이르기까지 장기•고도화된 상호작용을 수행하는 방향으로 발전하면서 메모리가 추론 성능과 경제성을 제한하는 가장 핵심적 병목으로 떠오르고 있음이 확인됐다.

리란 즈비벨(Liran Zvibel) 웨카 공동 창업자 겸 최고경영자(CEO)는 "이번에 선보이는 솔루션은 오라클 클라우드 인프라스트럭처와 주요 AI 인프라 플랫폼에서 검증된 기술"이라며 "에이전틱 AI 확장은 단순한 컴퓨팅 성능의 문제가 아니라, 지능적인 데이터 경로를 통해 메모리 장벽을 해결하는 문제다. 증강 메모리 그리드는 GPU당 처리 가능한 토큰 수를 크게 늘리고, 동시 사용자 수를 확대하며, 장문 맥락 기반 서비스 모델을 새로운 차원으로 확장할 수 있게 한다"고 설명했다. 그는 이어 "OCI의 베어메탈 인프라, 고성능 RDMA 네트워킹, GPUDirect 스토리지 기능은 대규모 추론을 가속하기 위한 독보적 플랫폼"이라고 강조했다.

현재의 추론(inference) 시스템은 근본적인 제약에 직면해 있다. GPU의 고대역폭 메모리(HBM•High-Bandwidth Memory)는 속도는 매우 빠르지만 용량이 제한적이고, 시스템 DRAM은 공간은 더 크지만 대역폭은 훨씬 낮다. 두 계층이 모두 가득 차면 키-값 캐시(KV cache) 항목이 삭제되며, GPU는 이미 처리한 토큰을 다시 계산해야 하는 상황이 발생한다. 이는 사이클, 전력, 시간을 낭비하는 결과로 이어진다.

웨카의 증강 메모리 그리드는 GPU 메모리(일반적으로 HBM)와 플래시 기반 스토리지 사이에 고속 브리지를 구축해 GPU 메모리 병목을 해결한다. 이 기술은 RDMA와 엔비디아의 Magnum IO GPUDirect Storage를 활용해 키-값 캐시 데이터를 GPU 메모리와 웨카의 토큰 웨어하우스(token warehouse) 사이에서 지속적으로 스트리밍하며 메모리급 속도를 구현한다. 이를 통해 대규모 언어 모델과 에이전틱 AI 모델은 이미 계산된 KV 캐시나 생성된 토큰을 재연산할 필요 없이 훨씬 더 많은 콘텍스트에 접근할 수 있으며, 효율성과 확장성이 크게 향상된다.

OCI 테스트 성능 및 생태계 통합

OCI를 포함한 독립적인 테스트•검증 결과는 다음과 같다:

KV 캐시 용량을 1000배 확대 하면서도 메모리에 가까운 성능을 유지

하면서도 메모리에 가까운 성능을 유지 128000개 토큰 처리 시, 프리필(prefill) 단계를 재연산하는 방식과 비교해 첫 토큰 생성 시간이 20배 단축

8노드 클러스터 기준, 읽기 750만 IOPS, 쓰기 100만 IOPS 달성

AI 클라우드 사업자, 모델 제공업체, 엔터프라이즈 AI 개발자에게 이러한 성능 향상은 추론 경제성의 근본적인 변화를 의미한다. 중복된 프리필 연산을 제거하고 높은 캐시 적중률을 유지함으로써 기업은 테넌트 밀도를 극대화하고, 유휴 GPU 사이클을 줄이며, 킬로와트시(kWh)당 투자수익률(ROI)을 크게 높일 수 있다. 모델 제공업체는 이제 장문 맥락 모델을 수익성 있게 제공할 수 있으며, 입력 토큰 비용을 대폭 절감하고 지속적이고 스테이트풀(stateful) AI 세션을 기반으로 한 새로운 비즈니스 모델도 가능해진다.

상용화 단계로의 전환은 엔비디아와 오라클을 비롯한 주요 AI 인프라 파트너들과의 긴밀한 협업을 반영한다. 이 솔루션은 NVIDIA GPUDirect Storage, NVIDIA Dynamo, NVIDIA NIXL과 밀접하게 통합되며, 웨카는 NVIDIA Inference Transfer Library(NIXL) 전용 플러그인을 오픈소스로 공개했다. OCI의 RDMA 네트워킹 기반 베어메탈 GPU 컴퓨트와 NVIDIA GPUDirect Storage 지원은 클라우드 기반 AI 배포에서 성능 저하 없이 증강 메모리 그리드를 구현하기 위한 고성능 기반을 제공한다.

네이선 토마스(Nathan Thomas) 오라클 클라우드 인프라스트럭처 멀티클라우드 부문 부사장은 "대규모 추론의 경제성은 기업들에 매우 중요한 고려 요소"라며 "웨카의 증강 메모리 그리드는 이 과제를 정면으로 다룬다. OCI 공동 테스트에서 관찰된 첫 토큰 생성 시간 20배 향상은 단순한 성능 지표가 아니라 AI 워크로드 운영의 비용 구조를 근본적으로 재편하는 변화다. 이는 고객들이 차세대 AI를 더 쉽게, 더 낮은 비용으로 배포할 수 있다는 의미"라고 말했다.

상용화

증강 메모리 그리드는 이제 NeuralMesh 배포의 기본 기능으로 포함되며, 오라클 클라우드 마켓플레이스(Oracle Cloud Marketplace)에서도 제공된다. 추가 클라우드 플랫폼 지원도 곧 도입될 예정이다.

증강 메모리 그리드 도입을 원하는 조직은 웨카의 증강 메모리 그리드 웹페이지에서 솔루션과 자격 요건을 확인할 수 있다.

WEKA 소개

웨카는 지능형 적응형 메시 스토리지 시스템인 WEKA®의 NeuralMesh™를 통해 조직이 AI 워크플로를 구축, 운영, 확장하는 방식을 혁신적으로 변화시키고 있다. 기존 데이터 인프라가 워크로드가 증가할수록 느려지고 취약해지는 것과 달리 NeuralMesh는 확장될수록 더 빠르고 강력하며 효율적으로 작동하고, AI 환경과 동적으로 연동되어 성장하며, 기업 AI 및 에이전틱 AI 혁신에 필요한 유연한 기반을 제공한다. 포춘 50대 기업 30%가 신뢰하는 NeuralMesh는 선도기업, AI 클라우드 제공업체, AI 개발자들이 GPU를 최적화하고, AI를 더 빠르게 확장하고, 혁신 비용을 절감할 수 있게 지원한다. 자세한 내용은 www.weka.io 또는 링크드인 및 X를 통해 확인할 수 있다.

WEKA 및 W 로고는 WekaIO, Inc.의 등록 상표다. 본 문서에 언급된 기타 상표명은 해당 소유자의 상표일 수 있다.

사진 - https://mma.prnewswire.com/media/2825138/PR_WEKA_Augmented_Memory_Grid.jpg

로고 - https://mma.prnewswire.com/media/1796062/WEKA_v1_Logo_new.jpg

SOURCE WEKA