메타, '라마3' 전용 AI인프라 공개...GPU만 4만9천개

연내 H100 GPU 35만 개 추가 확보 목표

컴퓨팅입력 :2024/03/17 13:07    수정: 2024/03/18 07:48

메타가 차기 대규모언어모델(LLM) '라마 3' 학습을 위한 세계 최대 규모의 컴퓨팅 인프라를 공개했다.

최근 실리콘 앵글 등 외신에 따르면 메타는 AI학습을 위한 데이터센터급의 24K GPU 클러스터 한 쌍의 세부정보를 공식 블로그를 통해 공개했다.

여러 그래픽처리장치(GPU)를 네트워크로 연결해 병렬 컴퓨팅 작업을 수행하는 시스템이다. 기계학습, 대규모 시뮬레이션 등 대규모 계산 작업을 더 빠르게 처리하기 위해 활용된다.

메타가 라마3 학습을 위한 AI인프라를 공개했다(이미지=메타의 리서치슈퍼클러스터)

메타에서 공개한 24K GPU 클러스터는 2022년 선보인 리서치슈퍼클러스터(RSC)의 후속모델이다. 이름처럼 2개의 클러스터에 각 2만4천576개의 엔비디아 텐서 코어 H100(이하 H100) GPU가 적용된 것이 특징으로 총 4만9천 개 이상의 H100 CPU를 활용할 수 있다.

이번 발표는 일반인공지능(AGI) 연구를 위해 대규모 인프라 구축 계획의 일환이다. 메타는 2024년 말까지 35만 개의 H100 GPU를 포함한 AI 인프라를 확장할 계획이다.

이를 통해 기존에 확보한 인프라를 포함해 60만 개의 H100 GPU 수준의 컴퓨팅 파워를 갖추는 것을 목표로 한다.

두 클러스터는 GPU 수가 동일하며 개방형 GPU 하드웨어 플랫폼 '그랜드 티톤(Grand Teton)'을 사용해 구축됐다.

하지만 네트워크 인프라 설계에 차이가 있다. 하나는 웻지 400 및 미니팩 2 OCP 랙 스위치와 아리스타 7800를 기반으로 자체 개발한 RDMA 오버 컨버지드 이더넷(RoCE) 솔수션을 적용했다. 두 번째 클러스터는 엔비디아의 퀀텀2 인피니밴드 패브릭 솔루션이 적용됐다.

두 클러스터의 구조를 다르게 한 이유는 향후 더 크고 확장된 클러스터 구축을 목표로 하기 때문이다. 두 클러스터에서 다양한 분야의 AI를 학습하며 어떤 구조와 설계 방식이 AI에 적합한지 데이터를 확보해 이후 적용하겠다는 비전이다.

저장장치도 해머스케이프와 협력해 자체 개발했다. 생성형 AI 훈련 작업이 점점 빨라지고 규모가 커지는 것에 대비해 고성능이면서도 수만개의 GPU에서 동시 작업하는 데이터를 감당할 수 있도록 E1.S SSD를 활용했다.

이와 함께 구글은 개방형 AI 생태계 활성화를 위해 AI 소프트웨어 프레임워크인 파이토치를 지속해서 지원할 것이라고 강조했다.

관련기사

케빈 리 등 구글 연구원은 “지난 2015년 빅서 플랫폼을 시작으로 GPU 하드웨어 플랫폼을 설계를 공개하고 있다”며 “우리는 이런 정보 공유가 업계의 문제 해결을 돕는데 도움이 될 것이라고 믿고 있다”고 이번 GPU 클러스터 관련 내용을 공개한 이유를 밝혔다.

이어서 “우리의 AI 노력은 개방형 과학과 교차 협력의 철학을 바탕으로 구축됐다”며 “개방형 생태계는 AI 개발에 투명성, 정밀성, 신뢰를 제공하고 안전과 책임을 최우선으로 하여 모든 사람이 혜택을 누릴 수 있는 혁신을 이끌어낼 것”이라고 강조했다.