AMD는 10년 전만 해도 회사가 위태로운 상황이었지만, 2017년 출시한 라이젠 CPU를 통해 기사회생했습니다. 그리고 서버 부분에도 에픽 CPU를 출시해 점점 시장 점유율을 늘려 이제는 서버와 소비자 CPU 시장 모두에서 큰 성과를 거두고 있습니다. 과거 절대 이길 수 없을 것 같았던 경쟁자 인텔과 상황이 역전된 셈입니다.
하지만 아직 GPU 부분에서는 엔비디아의 아성을 넘기 힘든 게 사실입니다. 최근 엔비디아가 고성능 AI 서버 GPU에 집중하는 사이 AMD는 라데온 RX 9070 시리즈와 RX 9060 시리즈를 경쟁력 있는 가격에 출시해 시장에서 좋은 반응을 얻고 있지만, 아직 절대 성능에서 엔비디아 GPU보다 낮은 게 사실입니다. 특히 AI 서버 시장은 엔비디아가 오래전부터 AI와 서버 시장에 집중한 탓에 생태계 자체가 엔비디아 위주로 구성되어 있어 끼어들기가 만만치 않은 게 현실이기도 합니다.
그러나 AMD는 최근 열린 어드밴싱 AI 이벤트에서 엔비디아의 독주에 제동을 걸 수 있는 신제품과 플랫폼들을 함께 공개했습니다. 우선 가장 중요한 AI GPU인 인스팅트 MI350X/IM355X는 2년 전 등장한 MI 300 시리즈와 비교해서 4배의 성능을 지니고 있어 스펙상으로 보면 엔비디아 블랙웰 B200 GPU와 경쟁할 수 있는 수준입니다.
새로운 MI350X 시리즈는 TSMC의 N6 공정으로 만든 I/O 다이 위에 N3P 공정으로 만든 GPU 칩렛인 Accelerator Complex Die (XCD)을 올리고 다시 8개의 HBM3E 메모리를 연결한 복잡한 3차원 패키징 기술을 사용했습니다. 덕분에 1850억 개의 트랜지스터를 하나의 GPU에 집적했습니다. 8개의 HBM3E 메모리는 총 288GB의 용량과 8TB/s의 대역폭을 제공합니다.
MI350X와 MI355X의 차이점은 공랭식이나 수랭식이냐는 것인데, 수랭식인 MI355X가 성능이 좀 더 우수합니다. 기본 연산 능력은 FP 64기준 MI350X와 MI355X가 72TFLOPS와 78.6TFLOPS입니다. AI 연산에 중요한 FP8/FP4 기준으로는 각각 9.2PFLOPS/10.1PFLOPS, 18.45PFLOPS/20.1PFLOPS의 연산 능력을 지니고 있습니다.
AMD는 MI350X 시리즈가 일부 AI 작업에서 엔비디아의 B200, GB200 GPU보다 우수하다고 주장하고 있습니다. 다만 엔비디아는 B200보다 1.5배 성능을 지닌 B300을 올해 하반기에 출시할 계획입니다.
B300/GB300은 288GB HBM3E 메모리와 FP4 Tensor Dense/Sparse 기준으로 15/30TFLOPS의 성능을 지니고 있어 MI350X 시리즈보다 기본 성능이 우수합니다. 하지만 더 중요한 차이점은 AI 생태계가 엔비디아 위주일 뿐 아니라 여러 개의 GPU를 묶어 하나의 거대한 AI 클러스터를 구축하는 기술에서 엔비디아가 크게 앞서 있다는 것입니다.
AMD는 이점을 의식하듯 이번 이벤트에서 인스팅트 MI350X/MI355X 및 에픽 CPU와 함께 사용할 수 있는 NIC (network interface card) 시스템인 펜산도 폴라라 (Pensando Pollara) 400GbE NIC를 공개했습니다.
각각의 인스팅트 MI350X/MI355X GPU는 8개씩 묶어 하나의 플랫폼을 구성한 후 서버 랙에 들어가는데, 이때 수많은 GPU를 연결해 효율적으로 작동하게 만드는 일이 중요합니다. 펜산도 폴라라 AI NIC는 10만 개 이상의 GPU 하이퍼스케일 시스템에도 대응할 수 있습니다.
오라클 클라우드는 앞으로 AMD MI355X GPU 131,072개를 사용한 제타 스케일 AI 데이터 센터를 구축할 예정입니다. MI355X의 TDP는 1400W에 달해 처음 하이퍼 스케일 AI 데이터 센터에 도전하는 AMD가 과연 발열을 효과적으로 해소할 수 있을지 궁금해지는 대목이기도 합니다.
AMD는 내년에는 Zen 6 아키텍처 기반인 256코어 베니스 (Venice) 에픽 CPU를 출시하고 인스팅트 MI 400 시리즈 GPU도 선보일 계획입니다. 그리고 2세대 NIC인 불카노 (Vulcano, 이탈리아 도시 이름)를 같이 출시합니다. MI 400시리즈는 MI 300 시리즈 대비 10배의 성능을 목표로 하고 있습니다.
현재 AI 하드웨어 시장은 엔비디아 천하라고 해도 과언이 아닌 상태입니다. AMD가 CPU 시장에서 그랬던 것처럼 AI 하드웨어에서도 누구도 예상하지 못했던 기적 같은 성과를 거둘 수 있을지 주목됩니다.
고든 정 과학 칼럼니스트 jjy0501@naver.com
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지