"빅데이터 대응, HPC로는 불충분"

버너 보겔스 아마존 CTO

일반입력 :2012/05/24 11:31    수정: 2012/05/24 11:36

퍼블릭클라우드 환경을 운영하는 아마존은 슈퍼컴퓨터와 같은 고성능컴퓨팅(HPC) 시스템을 일종의 '계륵'이라 본다. HPC시스템에 대규모 연산을 위한 고가의 하드웨어와 소프트웨어 기술이 투입되기에 놀려두긴 아까운데, 막상 쓰려면 그 성능이 충분치 않다는 얘기다.

버너 보겔스 아마존 최고기술책임자(CTO)는 24일 서울디지털포럼에 참석해 '데이터, 그 무한한 가능성'이란 주제를 다룬 기조연설을 통해 이같이 지적했다. 과학과 비즈니스세계가 데이터 중심적인 제4의 패러다임으로 달라지는데 적절한 툴과 클라우드컴퓨팅이라는 처리기반(파이프라인)이 요청된다는 설명이다.

HPC시스템은 쓰려면 항상 부족합니다. 안 쓰기엔 어마어마한 성능이 아깝죠. 그 어마어마한 투자비용 때문에 소수 연구기관만 쓸 수 있는데 말입니다. (아마존은) 차라리 다른 방법을 찾기로 했습니다.

아마존이 찾은 다른 방법은 클라우드 컴퓨팅을 활용하기다. 클라우드는 과학의 패러다임이 달라지면서 빅데이터 환경에 대응하기 위한 시나리오로 묘사된다. 빅데이터는 데이터를 다루고 설명하는 과학 패러다임의 변화 흐름에 따라 등장했다.

■데이터 과학 시대

보겔스 CTO는 데이터를 다루고 설명하는 과학의 패러다임이 거듭 바뀌어 4번째 양상이 떠올랐다고 본다. 첫째 패러다임은 수천년전 과학자들의 활동처럼 주변을 관찰한 결과를 바탕으로 설명하는 것이었다. 둘째는 쌓인 관찰 결과를 근거로 이론을 세우고 모델을 만들어 설명하기, 셋째는 가상의 모델을 연산해 실제 세상과 비교하는 것이었다.

네번째, 최신 패러다임은 전혀 다릅니다. 방대한 관찰 데이터를 수집, 분석해 어떤 일이 벌어지나 알아내는 거죠. 이는 과학뿐아니라 일상생활, 기업활동에도 해당되는 얘깁니다. 이 활동 기반엔 연산능력, (데이터) 저장공간을 무한대로 쓸 수 있는 클라우드가 있죠.

그는 십수년전부터 슈퍼컴퓨터를 동원해 진행됐던 인간유전자 연구활동, '게놈프로젝트'를 예로 들었다. 초기 연구자들은 단 한 사람의 유전자를 분석해 그 특징을 파악하느라 큰 돈과 시간을 투입해 13년만에 결과를 얻었지만 현재로 치면 그 몇GB 크기 정보는 큰 데이터가 아니었다. 이후 프로젝트를 마친 연구자들이 인간과 동물, 다른 동물종간 차이를 찾는 연구를 진행케 됐는데 몇년새 처리기술이 발전해 비용이 훨씬 저렴해졌고, 테라바이트(TB) 규모까지 결과 데이터가 커질 수 있었다.

지금 '1천 게놈 프로젝트'란게 있습니다. 수백TB 데이터가 발생해 단일조직이나 연구소가 감당할 수 없죠. 우리는 아마존웹서비스(AWS)라는 클라우드 사업부를 뒀는데, 여기 서비스에 결과 데이터를 올릴 수 있게 했습니다. 현재까지 쌓인 정보량이 200TB 규모인데 DVD로 치면 30만장정도죠. 한국도 서울대 게놈 메디슨 연구소가 참여중입니다. 모두 기부금을 받든 스스로 연구기금을 마련하든 해서 이 데이터를 기반으로 어디서나 1천 게놈 프로젝트에 참여할 수 있어요.

■클라우드컴퓨팅

보겔스 CTO는 이런 방대한 데이터 처리능력이 기존 HPC에 의존해온 의약산업에 더 효율적으로 쓰일 수 있다고 설명했다. 그는 클라우드의 방대한 연산성능이 세포 단백질을 분석해 암치료제나 항암제를 개발하는 프로젝트에서 수많은 암세포와 치료용 단백질에 맞는 조합을 찾기 위해 쓰인다는 사례를 들었다. 12년 반이 걸렸던 시료 2천100만개 전수분석이 이제 시간당 5천달러짜리 아마존 클라우드에서 3시간 돌리면 끝난다고 강조했다. 제약연구와 암치료제 개발 양상을 근본적으로 뒤집는 환경이 나타난 셈이라고 덧붙였다.

네번째 패러다임을 통해 과학이 데이터에 초점을 맞추고 집중하는 경향을 보입니다. 사람들은 여기에 '빅데이터'라는 선정적인 용어를 붙이기 시작했죠. 제가 이걸 정의한다면, 대규모 데이터를 수집해 그걸 분석하고 경쟁우위를 찾아내는 것이라 할 수 있어요. 선택폭이 늘어난 소비자들의 브랜드 충성도가 낮아지고 기업간 제품 경쟁이 치열해지면서 불확실성이 큰 사업환경에 중요한 요소죠.

그는 과거 벤처기업이 상대적으로 안정적인 중견 이상 기업들보다 큰 불확실성을 감수하며 활동하는 조직을 일컫는 말이었지만 이제 대기업조차 그만한 불확실성에 처하게 됐다고 지적한다. 제한된 자원을 제때 필요한 곳에 충분히 할당할 수 있어야 한다고 강조한다. HPC와 같은 대단위 투자 없이도 유연한 시스템 자원, 연산능력과 스토리지를 적절한 가격에 쓸 수 있어야 한다는 얘기다. 조명을 켜고 끌 때 전기료를 고민하지 않는 것과 같은 기업용 자원을 AWS 클라우드서비스가 제공한다고 언급하면서다.

보겔스 CTO는 '전기처럼 쓸 수 있는 클라우드'에 이어 그에 기반한 빅데이터의 대응 전략도 제시했다. 충분한 데이터를 수집하고 일련의 분석활동과 도출된 정보를 공유하는 것까지 아우르는 방법론이 필요하다고 조언했다.

■빅데이터를 다루려면

기존 비즈니스인텔리전스(BI)는 주어진 질문과 어떤 데이터를 수집할 지 이미 알고 접근하는 것이죠. 클라우드와 같은 컴퓨팅 자원이 확보되면서 빅데이터같은 분석대상에 다른 접근 방식을 취해야 합니다. 더 많은 데이터가 더 나은 결론을 제시합니다. 데이터가 '무제한으로 많다'고 여겨야 해요. 빅데이터는 분석 대상이면서 일련의 활동을 수행하는 '파이프라인'이죠.

그는 파이프라인의 첫 단계로 데이터 수집을 꼽았다. 미국에서 추진중인 해양관측 이니셔티브, NASA가 진행하는 화성탐사 우주 프로젝트 등을 제시했다. 다음은 수집한 데이터를 저장해야 하는데 그 증가속도는 단일 기업이나 조직이 저장공간을 확충하는 속도보다 빠르다고 한다.

관련기사

이에 대응하고 나면 여러 데이터를 잘 정리해 취합, 매칭하고 보정하는 것이다. 구조화되지 않은 데이터를 구조화해 분석 가능하게 만드는 것이다. 데이터과학자들에게 일반인 5만명이 게재한 의료기록 5년치를 분석해 누가 먼저 입원할지 예측하는 모델을 먼저 만들면 300만달러 상금을 주는 호주 기업 케글의 헤리티지 재단 후원프로젝트가 소개됐다.

마지막은 생성한 결과를 공유하는 방법이 관건이죠. 협력이 중요합니다. 기업들이 대외비 정보를 시각화 자료로 만들어 다룰 수도 있겠죠. 파트너가 회사에 제공하는 것일 수도 있고요. 하지만 우리는 아마존이 다루는 공개(Public) 데이터세트에 자부심이 있습니다. 유전자연구도 여기 해당되죠. 저희는 연구기관 과학자들에게 그들의 연구와 논문을 퍼블릭데이터세트로 만들라고 권장해요. 과학의미래는 논문수에 좌우되는게 아니라 데이터세트가 하나로 연결돼 시너지를 발휘해야하는 것이니까요.