이번 제출에는 MI300X, MI325X, MI355X 등 최근 3세대 GPU가 모두 포함됐다. 특히 올해 새롭게 공개된 MI355X는 288GB HBM3E 메모리와 CDNA 4 아키텍처를 기반으로 최대 5,200억 매개변수 모델을 단일 GPU에서 처리할 수 있다는 점을 강조했다.
가장 주목을 받은 성과는 FP4 정밀도 지원이다. MI355X는 Llama 2 70B 추론에서 기존 FP8 대비 2.7배 빠른 처리량을 기록하면서도 정확도를 유지했다. AMD는 이를 통해 “적은 수의 GPU로 더 큰 모델을 운영하고, 쿼리당 비용을 줄이는 것이 가능하다”고 설명했다.
구조적 프루닝(Structured Pruning) 역시 핵심 기술로 소개됐다. ROCm 라이브러리를 활용해 4,050억 매개변수 Llama 3.1 모델을 최적화한 결과, 일부 레이어를 제거해도 정확도를 유지하면서 최대 90% 성능 향상을 달성했다. 이는 초대형 모델 운영에 따른 인프라 비용 부담을 줄이는 실질적 방안으로 해석된다.
확장성 측면에서는 단일 노드부터 8노드까지 선형에 가까운 스케일링을 입증했다. MI355X 기반 4노드 FP4 클러스터는 이전 세대 MI300X FP8 대비 3.4배 높은 처리량을 기록했으며, 8노드 구성에서도 효율 저하 없이 높은 성능을 유지했다. AMD는 이를 통해 대규모 클러스터 운영에서도 예측 가능한 성능과 비용 효율성을 보장한다고 강조했다.
중간급 제품인 MI325X는 다양한 생성형 AI 워크로드에서 경쟁사 H200과 유사하거나 일부 우위 성능을 기록했다. Llama 2-70B 대화형(FP8) 시나리오에서는 H200 대비 91% 수준의 성능을 보였고, Mixtral 8x7B 오프라인 추론에서는 11% 높은 처리량을 기록했다. 이미지 생성 모델 SD-XL 역시 평균 H200 성능과 동등한 수준을 달성했다.
또한 이번 라운드에서는 AMD GPU 이종 클러스터 제출이 처음으로 이뤄졌다. 파트너사 망고부스트(MangoBoost)는 MI300X 4노드와 MI325X 2노드를 결합한 클러스터에서 94% 효율을 유지하며, 세대가 다른 GPU 간에도 안정적인 부하 분산과 확장성을 보여줬다. 이는 기존 인프라를 교체하지 않고도 업그레이드가 가능함을 입증한 사례다.
AMD는 모든 성과의 배경에 오픈 소프트웨어 플랫폼 ROCm이 있다고 설명했다. ROCm은 PyTorch, TensorFlow 등 주요 프레임워크와 긴밀히 연동되며, OEM·ODM·클라우드 파트너의 결과가 AMD 레퍼런스 대비 1~3% 차이에 불과할 정도로 일관성을 제공했다.
업계 표준으로 자리잡은 MLPerf에서 AMD는 단순히 최고 성능을 강조하기보다는 효율성과 비용 최적화, 확장성을 전면에 내세웠다. 이는 생성형 AI 상용화 과정에서 기업들이 직면한 현실적 과제를 해결하는 접근으로 풀이된다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -




























































