인텔의 야심, AI 하드웨어 플랫폼 노린다

컴퓨팅입력 :2016/10/07 16:03

컴퓨터가 사람과 바둑을 두고, 병을 찾아 내고, 사진을 분석하는 시대다. 머신러닝, 딥러닝 등의 기술 발달에 인류가 상상했던 인공지능(AI)의 등장이 머지않아 보인다.

오늘날의 인공지능 기술은 방대한 데이터를 빠르고 값싸게 처리하는 컴퓨팅 기술에 힘입어 발전하고 있다. 빅데이터 처리 기술을 통해 그 동안 아무렇지 않게 흘려 보내던 데이터에 의미를 부여하게 됐다. 또 이를 기계를 학습시키는데 흘려보냄으로써 인공지능(AI) 개발의 새로운 페이지를 열게 됐다.

머신러닝은 데이터센터급 컴퓨팅을 필요로 하는 산업계뿐 아니라 PC의 활용 습관을 분석하는 윈도10 코타나, 실시간으로 사진을 분류하는 아이폰 등으로 확장되고 있다.

현재의 AI 산업은 단순 작업을 아주 빠르게 반복할 수 있는 컴퓨터로 이뤄진다. 컴퓨터가 뭔가 하나를 배웠다고 할 만큼 학습하려면 엄청난 양의 데이터와 반복된 학습 과정을 필요로 한다. 또한, 고성능을 내기 위해 많은 자원을 요구한다. 구글 딥마인드의 알파고 시스템은 CPU 1천202개를 사용했다. 이 정도 성능을 확보해야 실시간으로 사람과 바둑을 두는 컴퓨터를 만들 수 있다는 것이다.

인텔 제온파이 프로세서(나이츠랜딩). OPA 패브릭을 연결한 모습

머신러닝 인프라의 관건은 똑같은 양의 데이터를 얼마나 빠르게 학습하느냐, 실시간으로 결정을 내려야 할 때 얼마나 빠르게 계산을 끝내느냐와 관련된다. 특히 반복적인 병렬처리 작업을 위해 단일 컴퓨터보다 여러 대의 컴퓨터를 묶는 기술이 필요해진다. 클라우드 컴퓨팅의 효과가 거론되는 이유다.

머신러닝을 활용하려면 복잡한 시스템을 꾸려야 한다. 현재 대부분의 글로벌 클라우드 컴퓨팅 서비스는 각각의 머신러닝 서비스를 제공하고 있다. 이용자는 하드웨어에 신경쓰지 않고도, 서비스 사용결정으로 간단하게 머신러닝 시스템을 구축할 수 있다.

머신러닝은 PC나 스마트폰 안에서도 작동할 수 있다. 대부분의 경우 막대한 양을 연산하는 고성능컴퓨터(HPC)가 쓰인다. 머신러닝의 핵심은 반복, 그리고 병렬 처리다. 슈퍼컴퓨팅의 다른 이름이 바로 병렬컴퓨팅이다.

개인용 PC는 하나의 작업을 하나의 컴퓨터가 처리한다. 프로세서 코어를 4개 넣은 쿼드코어 프로세서가 대중화되면서 어느 정도 일을 쪼개서 처리하는 응용프로그램이 늘어나고 있긴 하다. 그러나 그래픽 렌더링이나 머신러닝같은 작업은 프로세서 성능 뿐 아니라 개수 그 자체가 결과물을 결정한다.

머신러닝의 경우 복잡한 처리보다도 아주 간단한 연산을 반복한다. 그러다 보니 프로그래밍할 수 있는 GPU가 머신러닝용 HPC의 중요 요소로 떠올랐다. GPU는 칩 하나에 수 백, 수 천개의 작은 프로세서 코어가 들어가기 때문에 머신러닝 분석에 유리하다. 하지만 GPU는 랙을 수 백대씩 묶는 막대한 규모의 시스템을 꾸리기 쉽지 않고, PCI 익스프레스 버스를 거쳐야 하기 때문에 연결되는 컴퓨터가 늘어날수록 효율이 떨어진다. GPU를 위한 별도의 코드를 개발해야 하기 때문에 즉각적인 대응에는 다소 번거롭기도 하다.

인텔은 이를 위해 병렬컴퓨팅 전용 프로세서를 개발해 선보였다. 인텔이 발표한 ‘제온 파이(Xeon Phi)’가 대표적이다. 이전까지 제온 파이는 GPU와 비슷한 형태의 보조 프로세서 형태였지만 코드명 나이츠랜딩으로 불리는 새 제온 파이 프로세서는 그 자체로 ‘코어(Core)’나 ‘제온’ 프로세서처럼 움직인다. 제온 파이만으로 구축한 시스템 위에 리눅스 등 OS를 그대로 띄우고를 기존 응용 프로그램들도 바로 돌릴 수 있다.

제온 파이는 칩 하나에 최대 72개 코어까지 들어가고, 각 시스템은 옴니패스 아키텍처(OPA)로 연결된다. OPA는 응답 속도가 짧고, 데이터 전송 속도도 높다. 이 때문에 시스템을 여러 대 묶어도 성능 효율이 좋다. 128개의 제온 파이 시스템을 연결했을 때 50배 이상의 성능을 유지할 수 있을 정도다.

인텔은 곧바로 다음 세대의 제온 파이 프로세서를 발표했다. 코드명 ‘나이츠 밀(Knights Mill)’로 부르는 새 프로세서는 아예 ‘인공지능 칩’이라는 메시지를 던지고 있다. 더 많은 데이터를 처리할 수 있는 프로세서가 보급되면 그만큼 더 정밀한 학습이 이뤄지고, 다른 한 편으로 머신러닝 자체가 더 많은 산업에 폭넓게 쓰일 수 있게 된다. 컴퓨팅의 중심이 개인이 아니라 클라우드와 데이터센터, 그리고 모바일로 연결되는 시대 흐름과도 맞물린다.

또 하나의 머신러닝 시스템은 바로 FPGA(Field Programmable Gate Array)다. 특정 용도에 맞춰 직접 프로그램할 수 있는 프로세서다. 범용 프로세서보다 구조는 간단하지만 특정 용도에서는 막대한 효과를 보인다. 효율성 높고 병목 현상이 적으며, 그 자체로 하나의 알고리즘 가속기 역할을 하기 때문에 프로그램의 가능성을 끌어올리는 역할을 한다.

구글도 지난 5월 개발자 행사를 통해 알파고에 전용 프로세서인 TPU(Tensorflow Processor Unit)을 적용했다고 밝힌 바 있다. 강력한 성능의 CPU가 기본에 깔리지만 효율성을 높이기 위해서는 별도의 FPGA가 필요해진다.

특히 머신러닝은 단순한 데이터 처리 작업을 반복하고, 소프트웨어 특성이 맞물려 작동하기 때문에 FPGA가 효과적으로 성능을 내는 환경으로 꼽힌다. FPGA는 사물인터넷부터 데이터센터까지 광범위하게 확산될 전망이다. 시장 확대로 특정 용도뿐 아니라 광범위하고 여러 분야에 적용할 수 있는 고급 FPGA 시장의 성장도 입에 오르내리고 있다.

관련기사

인텔은 이를 위해 지난해 알테라를 인수했다. 인텔은 단순히 알테라의 기존 사업을 유지하는 것에서 나아가 CPU와 FPGA를 하나로 접목한 SiP(system in Package)도 내놓을 계획이다.

인텔은 궁극적으로 머신러닝의 그림을 ‘복합적인 컴퓨팅 환경’으로 그린다. 머신러닝의 완성은 결국 더 많은 데이터를 학습하는 것이다. FPGA로 특정 머신러닝 데이터를 다루고, 제온 파이로 광범위한 데이터 분석을 더하면서, 제온 E5나 E7같은 고성능 프로세서로 데이터 학습 내용을 판단하거나 다시 재학습을 이끌고, 이를 다시 분석해서 시각화하고 애플리케이션을 운영하는 다각적이고 종합적인 구도다. AI의 시대를 앞두고 인텔의 야심은 AI 플랫폼으로 넓고 커졌다.