"슈퍼컴 대중화" 기치 타이달스케일 '2.0'으로 업그레이드

머신러닝 고도화하고 고가용성 기능도 탑재

컴퓨팅입력 :2018/03/16 09:25

슈퍼컴퓨터 대중화를 기치로 걸었던 타이달스케일이 2.0 버전으로 업그레이드된다. 고가용성(HA) 기능을 탑재하고, 머신러닝 기술을 더 고도화했다. 저비용으로 고성능 컴퓨팅(HPC)을 활용하게 한다는 것에 더해 기업 IT 인프라 비용도 줄인다고 회사측은 강조한다.

타이달스케일 핵심 기술은 '하이퍼커널(Hyperkernel)'이란 역 하이퍼바이저(Inverse Hypervisor) 기술이다. 기존 서버 가상화는 한 대 서버에 여러 OS를 실행하는 방식이다. 타이달스케일은 이와 반대로 CPU, 메모리, 스토리지, 네트워크 등 여러 노드의 모든 자원을 단일 커널 시스템으로 통합한다. 여러 대의 서버를 하나로 묶고 게스트 OS와 애플리케이션을 수정할 필요 없이 CPU와 메모리 자원을 필요한 만큼 사용할 수 있다.

여러 대의 서버를 하나로 묶는다는 개념은 얼핏 기존 HPC 기술과 같다고 이해될 수 있다. 수많은 서버를 거대한 단일 클러스터로 묶는다는 점은 HPC와 같다. 그러나 HPC는 한번 물리적으로 묶은 서버를 다시 쪼갤 수 없다. 타이달스케일은 소프트웨어로 묶은 것이기 때문에, 필요에 따라 자유롭게 클러스터를 재조합할 수 있다.

HPC는 매우 고가 장비지만, 타이달스케일을 활용하면 저렴한 비용으로 HPC급 시스템을 구축해 이용할 수 있다. 대규모 분석, 메모리 집약적 컴퓨팅, 컴퓨팅 집약적 워크로드 및 모델링을 저가 하드웨어들로 수행할 수 있게 된다. 수주일, 수개월, 수년씩 걸리는 HPC 시스템 구축이 단 몇분 만에 이뤄진다.

타이달스케일의 하이퍼커널은 단순히 가상화 기술만 발전시킨게 아니다. 이용자 입장에선 겉으로 하나의 워크로드가 HPC 한 대에서 수행되는 것처럼 보이지만, 내부적으로 워크로드를 수많은 코어로 분산하는 작업, ‘대규모병렬프로세싱(MPP)’이 일어난다. 이런 MPP가 HPC에선 애플리케이션 코드나 사전 튜닝으로 이뤄지는데, 타이달스케일은 코드변경이나 튜닝을 거치지 않아도 하이퍼커널 자체적으로 병렬처리를 한다. 머신러닝 기술을 통해 애플리케이션과 시스템 자원에 알맞는 병렬처리를 하도록 자원을 자동 할당한다. 이같은 MPP 설정이 마이크로초 단위로 이뤄진다.

컴퓨터 발전 역사에서 병렬 프로세싱은 제한된 자원을 최대한 활용하려는 노력이다. 엔터프라이즈 데이터웨어하우스(EDW)나 하둡 같은 병렬 처리 기술도 한정된 예산에서 대규모 데이터를 최대한 빠르게 처리하려는 목적에서 만들어졌다.

병렬 프로세싱은 여러 하드웨어가 한 작업을 나눠서 수행해 연산 속도를 빨리 내놓게 한다. 관건은 작업을 고르게 각 하드웨어에 분배하는데 있다. 자원의 고른 분배는 튜닝 작업이나 병렬처리 프로그래밍으로 사전에 이뤄진다. 이는 매우 고도의 전문지식을 요구한다. 한대의 서버에서 돌아가던 애플리케이션을 HPC에서 돌린다고 성능이 높아지지 않는다. 시스템을 튜닝하고 소프트웨어 코드를 변경해야 한다. 타이달스케일의 기술은 이같은 작업을 자동화해 MPP의 기술적 진입장벽을 허물겠다는 목표로 개발됐다.

오픈소스 R 분석 처리 시간 비교(자료: 타이달스케일)

김진용 타이달스케일코리아 기술 이사는 “R분석 예측모델을 수행할 경우 2.0 버전에서 처리 시간이 베어메탈 대비 86% 감소된다”며 “이는 머신러닝을 거치면서 더 빨라져 종전 대비 90%까지 빨라질 수 있다”고 설명했다.

타이달스케일은 인텔의 제온 CPU 제품 라인업 변화에 따라 기업의 인프라 구매 비용이 상승했다고 주장하고 있다. 메모리를 더 많이 쓰려면 전보다 더 많은 CPU를 써야 하고, 라이선스 비용도 늘어난다는 주장이다.

인텔은 작년 제온 프로세서의 라인업 가운데 E7을 단종하고 E5로 대체했다. 새로운 세대의 제온 E5는 전보다 빨라져 기존 E7을 대체할 수 있지만, 소켓당 메모리 용량이 E7의 절반이 2.5테라바이트(TB)다.

전과 동일한 규모의 애플리케이션을 새 제온 E5에서 쓴다고 할 때 같은 메모리 용량을 확보하려면 2배 많은 CPU를 써야 한다는 얘기다. 김 이사는 “8TB 메모리를 쓴다면 CPU 64개면 됐던 게 128개가 필요해진다는 것”이라며 “인메모리 데이터베이스의 라이선스가DB CPU수로 달라지는데, 12TB 용량을 128코어로 했던 걸 192코어로 하게 돼 동일 메모리양을 쓰기 위해 더 많은 라이선스를 가져야 한다”고 설명했다.

타이달스케일은 이같은 상황에서 더 매력적인 해법을 제시한다고 강조한다. CPU 여러개를 묶어 동일 메모리 용량을 쓰면서 더 적은 수의 코어를 활용할 수 있다는 것이다.

타이달스케일 인프라 다이어그램

타이달스케일 2.0 버전은 노드 장애 시에 대비하는 대체 노드를 미리 할당해둔다. 장애를 겪는 노드의 데이터를 대체 노드로 미리 이전시켜 놓음으로써 성능 저하를 막는다. 데이터의 노드 이전 순간 성능 저하를 최소화한다.

관련기사

박운영 타이달스케일코리아 지사장은 “연말이면 오토스케일링 기능이 추가돼 시스템이 알아서 서버를 늘렸다 줄였다 하게 된다. 초기에 서비스에 필요한 CPU, 메모리를 디자인하지 않아도 부하에 따라 노드를 증감시켜주게 된다”면서 "현재는 기업에서 HPC를 이용해 설계 시뮬레이션을 한다고 할 때 일정 수준의 케이스만 넣어 테스트할 수 있다. 타이달스케일을 활용하면 시뮬레이션에 더 많은 데이터 넣어 더 많은 결과를 낼 수 있다”고 말했다.

박 지사장은 “빅데이터 프로젝트를 진행하는 우리나라 기업 다수는 아직 텐서플로로 들어가기 전 단계에 있고, 스파크 스트리밍 정도만 준비된 상황”이라며 “분석을 하기 위한 경제적 부분을 해결하기 힘든데, 타이달스케일은 애플리케이션의 특성에 종속되지 않고, 큰 미션을 수행하게 하므로 새로운 기회를 줄 수 있다”고 밝혔다.