中이어 日도 100페타플롭스 슈퍼컴 도전

초당 10경회 부동소수점 연산 수행 성능

일반입력 :2014/10/10 16:50    수정: 2014/10/10 16:50

일본이 세계 최초로 100페타플롭스(Pflops), 즉 초당 10경(京)회 부동소수점 연산 수행 성능을 내는 슈퍼컴퓨터(이하 '슈퍼컴') 개발에 도전한다. 후지쯔 고성능컴퓨팅(HPC) 칩을 기반으로 오는 2020년까지 내놓겠다는 것이 일본 정부의 야심찬 계획이다.

일본 고베 지역에 소재한 이화학연구소(RIKEN)는 이달초 공개 입찰 절차를 통해 K컴퓨터라 불리는 후지쯔 기술에 기반 슈퍼컴의 후속 기종, 일명 '포스트K컴퓨터'를 위한 기초 설계(basic design) 사업 파트너로 일하게 됐다고 밝혔다.

포스트K컴퓨터(post-K computer)은 기존 일본 대표 슈퍼컴인 'K컴퓨터'의 후속 기종을 뜻한다. 다시 말해 이는 일본을 대표하는 차세대 슈퍼컴으로 개발된다. 지원 사업도 국가가 주도한다.

지난 1일 HPC전문사이트 인사이드HPC는 RIKEN에 따르면 새 플래그십 컴퓨터는 현존 과학 및 사회적인 문제를 해결할 혁신적인 솔루션을 마련하는 데 활용될 것이라고 전했다.

RIKEN 측은 플래그십2020 프로젝트를 통해 오는 2020년까지 새 슈퍼컴 개발과 운영을 시작한다는 목표를 제시했다. 이를 위해 시스템 설계와 협력 개발된 애플리케이션을 기반으로 삼는 '공동 설계(co-design)' 방식으로 기초 설계를 구현할 계획이다.

RIKEN은 기존 모델인 K컴퓨터 개발에도 참여했던 연구 조직이다. K컴퓨터는 3년전 '초당 1경회 연산'이라는 속도를 달성해 당시 '세계 최고'란 명성을 얻었던 슈퍼컴이다. 4소켓 블레이드서버 2만2천32대를 서버랙 864개에 설치한 형태로 RIKEN에 구축돼 있다.

K컴퓨터는 지난 2011년 6월 공개 시점에 후지쯔 스팍64-Ⅷfx 프로세서 8만개를 연결해 8Pflops의 성능을 기록, 슈퍼컴 성능으로 세계 1위를 달성했다. RIKEN 측은 같은 해인 2011년 11월, K컴퓨터가 '10Pflops' 성능을 냈다고 밝혔다.

그와 같은 시기 후지쯔는 K컴퓨터의 기술을 활용해 상용 슈퍼컴 '프라임HPC FX10' 출시를 예고했고, 이듬해인 2012년 1월 시판에 들어갔다. 기존 8코어칩 '스팍64-Ⅷfx'보다 코어 수와 칩당 연산 속도를 2배씩 향상시킨 후속 프로세서, 16코어 '스팍64-Ⅸfx'을 탑재한 기종이었다.

스팍64-Ⅸfx는 코어당 1.85㎓ 클럭 속도로 칩당 236.5기가플롭스(Gflops) 연산속도를 구현했다. 코어당 클럭 속도가 이전 스팍64-Ⅷfx의 2㎓보다 느리지만, CPU간 병렬컴퓨팅 통신을 제어하는 기술 '토푸(Tofu)'로 칩 속도를 2배로 높였다. 이를 탑재한 프라임HPC FX10의 이론상 최고 성능은 23.2Pflops로 K컴퓨터의 2배였다.

이번 포스트K컴퓨터 개발 프로젝트에는 후지쯔가 지난 8월 '핫칩스26' 컨퍼런스에서 공개한 최신 HPC 프로세서, '스팍64-XIfx'가 사용될 것으로 보인다. 스팍64-XIfx의 칩당 초당 부동소수점 연산 수치는 칩당 최대 1.1테라플롭스(Tflops)로, 기존 K컴퓨터에 쓰였던 스팍64-Ⅸfx의 4배 이상이다.

후지쯔에 따르면 스팍64-XIfx는 메인프로세싱 코어 32개와 보조프로세싱 코어 2개가 탑재된 형태가 특징이다. 스팍64-Ⅸfx 대비 배정밀도 연산 성능 3.2배, 단정밀도 연산 성능 6.1배를 내며, 보조 코어는 운영체제(OS) 간섭 없이 메시지패싱인터페이스(MPI)의 개입을 차단하지 않도록 돕는다.

후지쯔는 스팍64-XIfx를 공개하며 '포스트-FX10(Post-FX10) 시스템'이라는 상용 슈퍼컴 로드맵도 제시했다. 이는 RIKEN 측이 포스트K컴퓨터 사업 파트너 선정 소식을 알리기 전부터 후지쯔가 K컴퓨터와 그 상용 시스템 프라임HPC FX10의 후속 시스템 개발을 준비해 왔음을 뜻한다.

포스트K컴퓨터의 상용판이라 볼 수 있는 포스트-FX10 시스템의 특징은 고밀도, 수냉식, 진화한 인터커넥트 기술로 요약된다. 섀시는 CPU를 1개씩 탑재한 노드 12개가 2U 크기 섀시에 담기며 수냉식으로 냉각된다. 랙(캐비닛)당 섀시 18개, 즉 노드 216개 들어간다. 이들은 광학기술을 응용한 '토푸2' 인터커넥트로 연결된다.

이를 묘사한 HPC전문사이트 HPC와이어는 후지쯔의 관련 자료를 인용해 포스트FX10시스템은 463개의 랙 구성만으로도 100Pflops의 최고 성능을 구현할 수 있다는 것을 의미한다며 달리 보면 새로운 장비의 12노드로 구성된 섀시당 성능은 기존 K시스템 전체 캐비닛 구성에 맞먹는다고 설명했다.

포스트FX10은 각 냉각 섀시에 높은 전력 효율과 시간당 처리량을 제공하기 위해 '마이크로 하이브리드 메모리큐브'를 넣었다. 그리고 연결 대역폭이 2.5배로 늘어난 초당 12.5GB 양방향 통신 링크를 지원하는 토푸2 인터커넥트다. 또 후지쯔는 애플리케이션 호환성을 위해 K컴퓨터, FX10와 동일한 아키텍처를 유지했다.

100Pflops 성능의 슈퍼컴을 세계 최초 개발한다는 목표는 일본에서 처음 세워진 게 아니다. 일본 정부는 그런 슈퍼컴 개발 시한을 2020년으로 제시했는데, 중국 정부의 계획은 그보다 훨씬 야심차다. 중국은 이미 오는 2015년까지 100Pflops 성능을 내는 슈퍼컴을 만들겠다고 예고했다.

중국 정부의 목표는 지난 2012년 6월 영국매체 더레지스터 보도를 통해 소개됐다. 보도는 중국 톈진의 국립 슈퍼컴퓨터 류광밍(劉光明) 센터장과의 인터뷰를 통해 2015년까지 100Pflops 성능을 내는 '톈허2' 개발 목표를 세운 게 사실임을 확인했다고 전했다. 중국의 해당 계획은 지난해 초 한층 구체화됐다.

관련기사

앞서 중국은 2010년 세계 1위 슈퍼컴 '톈허1A'도 만들었다. 톈허1A은 이론상 4.7Pflops, 벤치마크 2.57Pflops란 성능을 냈다. 엔비디아 M2050 테슬라GPU 10만352개, 인텔 프로세서 7만168개를 연결한 하이브리드 방식뿐아니라 스팍 칩 설계에 기반한 중국 자체 개발 MIPS 프로세서 '갓슨3B'가 함께 쓰여 화제였다.

개발중인 톈허2 성능은 이미 세계 최고다. 지난해 6월 인텔 제온 및 제온파이 보조프로세서 연계 형태로 54.9Pflops 성능을, '린팩' 테스트상 33.86Pflops를 기록했다. 중국 정부는 자체 개발 인터커넥트 및 소프트웨어로 100Pflops를 달성할 계획이다. 현재 톈허2가 낼 수 있는 최고 성능의 거의 2배 수준을 달성하는 셈이 된다.