[제9회 ACC]AWS "빅데이터 실타래, 클라우드로 푼다"

AWS, 클라우드 기반 빅데이터가 '기업경쟁력'

일반입력 :2013/04/17 11:08    수정: 2013/04/17 17:19

빅데이터 기술만큼 중요한 건 '질문'을 던질 수 있느냐다. 다양한 질문을 구체화하기 위해 데이터 처리와 분석을 값싸게 실험할 수 있어야 한다. 클라우드가 그 어려움을 덜어줄 것이다.

아마존웹서비스(AWS)가 클라우드 기반의 빅데이터 도입을 기업경쟁력 해법으로 제시했다. 규모가변성과 고가용성, 즉시성을 보장하면서도 저렴한 클라우드 인프라가 빅데이터 활용에 얽힌 어려움을 해소해줄 것이라고 강조했다.

AWS 비즈니스개발부문 애비쉑 신하 매니저는 17일 서울 잠실 롯데호텔 '제9회 ACC' 현장에서 클라우드에서의 빅데이터분석을 주제로 기조연설에 나서 이같이 밝혔다.

그는 엔지니어 입장에서의 빅데이터를 정의하고, 일반 데이터와 다른 빅데이터 처리시 이슈를 지적했다. 이를 해소할 AWS 클라우드 활용방안과 사례들을 자랑했다.

그에 따르면 '오늘 가진 데이터보다 내일 만들어질 데이터가 더 많아지는' 상황이다. 1분마다 새로운 아이폰 앱이 1만3천개 다운로드되고 유튜브에 비디오가 600개 올라간다. 사람들이 트위터를 쓰거나, 웹서핑을 하거나, 물건을 온라인에서 사거나, 이미지와 비디오를 올리거나, 게임을 할 때 외에도 기계가 센서정보수집, 방범체계나 교통신호 운영환경기록 등으로 만들어내기도 한다.

신하 매니저는 빅데이터는 조직이 경쟁력을 높이기 위해 혁신하는 방법으로 활용된다며 금융계에선 상품모델링을 잘 하기 위해, 제조업에선 공정현황과 성과를 파악하기 위해, 또 데이터를 통해 사람의 의사결정을 대신하기 위해, 비즈니스인텔리전스(BI)를 위해서도 도입한다고 말했다.

■데이터 처리와 빅데이터 처리의 차이점

이어 '데이터 용량, 그 생성속도, 다양한 형태'로 알려진 일반적인 빅데이터의 속성을 제시하며 엔지니어 입장에서 정의한 빅데이터 문제는 '데이터세트가 너무 크고 복잡해서 이를 혁신적인 방법으로 저장, 공유, 분석해야 하는' 경우라고 설명했다.

신하 매니저가 제시하는 일반적인 데이터처리단계(파이프라인)은 5단계다. 데이터를 생성, 수집, 저장, 분석 및 처리, 협업 및 공유다. 빅데이터환경의 데이터처리 역시 같은 과정을 밟아야 하지만, 이 때 조직이 겪는 어려움은 전혀 다른 새로운 문제다.

신하 매니저는 데이터 자체는 (사람과 기계가 알아서 마구 만들어내기 때문에) 지금도 엄청난 규모로 생성되고 있어 생성단계의 어려움을 논할 게 없다면서 그런데 이후 과정은 기존 방식대로 할 경우 스토리지와 컴퓨팅 자원이 불충분하거나 하둡같은 기술로 분석까지 수행할만한 역량을 확보하는데 돈이 너무 많이 들어 적절히 대응하기 어렵다고 지적했다.

그에 따르면 빅데이터 프로젝트를 수행시 조직에게 명확한 '질문'이 갖춰져야 한다. 이 경우 가설을 세우고 검증하는 데 초점을 맞췄던 일반 데이터처리 방식과 달리 수많은 가설을 던지는 과정의 비용이 더 문제가 된다. 비용문제가 중시되는 이유다.

신하 매니저는 더 많은 실험을 거쳐야 더 많은 혁신이 가능하고 그만큼 경쟁력도 따라온다며 빅데이터는 더 많은 실험을 값싸게 할 수 있어야 하고 AWS는 그런 가격장벽을 낮추는 역할이라고 주장했다.

그에 따르면 분석작업에 동원할 서버 1천대를 아마존EC2에서 단추 1번 누르는 걸로 뚝딱 만들어낼 수있다. 실제 서버를 사서 설치하는 것보다 비싸지도 않다고 한다. 선투자뿐아니라 향후 몇달간 약정 사용체제 없이 특정시기에 쓴만큼만 값을 치르면 된다는 설명이다.

신하 매니저는 비용 문제를 풀면 다음 관건은 다른사람보다 얼마나 분석을 더 잘하느냐라며 앞서 데이터파이프라인에 언급한 5단계중 나머지 단계를 다른 조직이 해결한 사례를 전했다.

■AWS 클라우드 기반 빅데이터 도입사례

AWS는 아마존심플스토리지서비스(S3)를 통해 생성된 데이터를 쉽게 저장하는 방안을 제시했다. GB당 0.095달러로 99.999999999% 가용성을 보장한다. 이는 엄청난 데이터량을 감당케 해주는 저렴한 방식으로 묘사됐다.

또 클라우드기반 NoSQL '다이나모DB'도 소개했다. 이는 전통적인 시스템 운영과 확장 방식으로는 즉시 처리하기 어려운 데이터 생성속도에 대응할 수 있는 기술로 제시됐다. 초당 데이터 기록 50만건을 지원하는 식이다.

기술관련 전문지식이 없는 미국해양연구소 오션업제베이토리이니셔티브(OOI)는 AWS에 해양관측정보를 모두 저장한다. 주문형비디오(VOD)플랫폼을 갖춘 한 영국방송국은 데이터웨어하우스(DW)를 통해 고객세분화를 시도했는데 기대혜택은 거의 없었지만 분석에 필요한 비용이 1TB당 2만5천~3만달러로 예측됐다. AWS로는 1TB당 1천200달러로 가능했다.

2천500만명 회원을 두고 1일 500억번의 이벤트와 3천만건의 재생을 서비스하는 비디오스트리밍업체 넷플릭스도 아마존을 쓴다. 넷플릭스는 데이터를 모아놓고 분석해 사용자들에게 감상할 콘텐츠를 추천하는 시스템을 운영한다. 전체 트래픽 75%를 추천시스템이 책임지고 있다.

관련기사

음악을 매개로 사람들이 공유하는 음악과 TV방송콘테츠를 찾아주는 앱 '샤잠'에 탑재된 광고플랫폼도 아마존 기반이다. 지난해 미국 슈퍼볼시즌 광고중 TV에 나오고 있는 광고를 샤잠 앱에서 포착해 하면 도요타, 베스트바이같은 광고주가 해당 고객에게 경품을 지급하는 방식의 즉각적인 연계서비스가 이뤄졌다.

오픈소스 분산프레임워크 하둡도 언급됐다. 클라우드기반 하둡서비스 '엘라스틱맵리듀스'를 제공한다고 AWS는 밝혔다. 5분만에 20개 노드를 설치, 구동할 수 있다는 것이다. 이와 더불어 기업들이 전통적인 DW처럼 활용할 수 있는 '레드시프트'도 소개됐다.