DW어플라이언스, 하둡 도전장 받아라

일반입력 :2013/04/09 08:25    수정: 2013/05/11 00:27

빅데이터 시장에서 기성 데이터웨어하우스(DW) 솔루션이 하둡과 맞붙을 때의 핵심은 투자수익(ROI)이다. 각 시스템의 확장성, 유연성, 규모 가변성은 공급업체와 사용자 역량에 달렸지만 같은 수준에 이르기 위한 비용 측면에서는 차이가 크다.

아직 하둡과 맵리듀스로 구성된 시스템은 기존 DW가 제공하는 모든 이점을 대신해주지 않는다. 특히 수직계열화된 산업별 활용사례와 전문성에 대응하기엔 커뮤니티 중심의 오픈소스 기술이란 한계가 뚜렷하다. 이를 뒷받침하려면 하둡 전문업체들이 영역별 고객사례를 활발히 쌓아야 한다.

다만 빅데이터 처리기술로 양쪽을 놓고 고민 중인 조직이라면 하둡의 어떤 특성에 주목할 수 있다. 데이터 처리 성능이 한계를 보일 때, 하둡 환경엔 맵리듀스를 돌릴만한 저렴한 범용 하드웨어(HW) 증설로 대응할 수 있다. 반면 DW어플라이언스의 대용량병렬처리(MPP) 방식은 고가 장비를 계속 사들여야 하는 구조에 갇히게 만든다.

인프라 관점에서 하둡 분산처리환경의 이점은 값싼 HW만으로 성능향상을 도모할 수 있다는 점이다. 거꾸로 말하면 MPP방식으로 성능을 확장하는 DW어플라이언스도 '충분히 저렴하게 공급된다'면 그보다 나은 안정성과 구축 편의성으로 경쟁력을 높일 수 있다는 얘기다.

하둡 핵심 내용은 하둡분산파일시스템(HDFS)과 맵리듀스로 이뤄졌다. 맵리듀스는 대용량데이터를 일괄 처리시 연산자원을 구성하는 클러스터의 일반 HW 각각에 데이터를 나눠주고 이를 다시 한 데 모아서 최종 결과를 내놓는다.

업계는 이와 별개로 MPP를 빅데이터 처리기법으로 취급하기도 한다. MPP는 맵리듀스와 공통점이 많다. 맵리듀스처럼 MPP도 처리할 데이터를 각 연산노드가 나눠 받는다. 이 노드들은 할당된 데이터를 병렬 처리하고 각 노드수준에서 그 산출물을 내놓으면 이를 취합해 최종 결과를 만든다.

■하둡+맵리듀스 vs. DW+MPP 관전포인트

그런데 MPP와 맵리듀스는 여러가지 이유로 다른 사용 시나리오를 보인다. MPP는 고성능 DW어플라이언스에 도입되곤 한다. 각 제품들이 처음부터 그런 특성을 지원해온 건 아니다. 하지만 앞서 몇년간 일련의 기업인수합병을 통해 DW업체들이 MPP 지원 흐름을 형성시켰다.

명단을 꼽아 보면 테라데이타와 파엑셀같은 DW어플라이언스 전문업체뿐아니라, 네티자를 인수한 IBM과 버티카를 인수한 HP 그리고 그린플럼을 인수한 EMC와 데이탈레그로를 인수한 마이크로소프트(MS) 등을 찾아볼 수 있다.

MPP 방식은 일반적으로 고가의 특수 HW를 요구한다. CPU, 스토리지, 네트워크 성능을 최적화해야 하기 때문이다. 반면 맵리듀스와 하둡으로 구성된 환경에서는 범용 디스크 스토리지와 범용 서버 HW를 쓴다.

한정된 자원으로 데이터를 다루기 위해 비싼 특수 시스템 대신 구하기 쉬운 HW와 공짜 소프트웨어(SW)로 인프라를 구성한다는 접근법 자체가 하둡 기술의 특성을 대변한다. 이는 앞서 구축한 인프라의 클러스터 환경이 데이터 처리시 요구되는 용량에 맞춰 쉽게 늘어날 수 있다는 뜻도 된다.

MPP기반의 DW어플라이언스는 해당 HW가 처리할 수 있는 용량과 성능의 한계를 갖고 있는데, 그 순간에 도달한 사용자측이 이를 최상의 성능으로 확장시키려면 같은 업체의 HW와 SW 제품을 다시 구입해야 한다. 이는 상대적으로 고비용일 수밖에 없는 구조에 종속되는 셈이다.

■'하둡에서 SQL(SQL on Hadoop)' 활용 주목

단순히 HW 관점을 벗어나 보면 맵리듀스와 MPP에 대해 정반대 얘기도 성립한다. 맵리듀스를 다루려면 별도 프로그래밍 언어를 익혀야 하지만 그 기본 제어를 위한 구조는 자바코드로 짜인다. MPP 지원 DW장비는 일반 데이터베이스(DB)처럼 SQL로 접근된다. 대부분의 경우 훨씬 더 쉽다.

이에 하둡을 SQL로 접근하는 기술도 만만찮은 변수로 떠오른다. 데이터 플랫폼을 다루는 엔지니어 입장에서 맵리듀스를 따로 익히는 것도 부담이 되기 때문이다. 아파치 하둡 프로젝트와 함께 소개된 하이브(Hive)가 대표적이다. 맵리듀스 환경에 SQL방식의 추상화 계층을 제공하는 기술이다.

약 1년전, 미국 지디넷 블로거 앤드류 브러스트 씨는 그럼에도 하둡은 근본적으로 명령형 코드르 통해 제어되는 방식이라 MPP 어플라이언스가 선언형 쿼리를 통해 조회 가능한 점과 대비된다며 대다수 사례에서 SQL은 맵리듀스 작업보다 생산적이고 쉬운데다 SQL를 숙달한 DB전문가는 하둡전문가보다 찾기 쉽고 데려오는 비용도 적다고 지적했다. 현재도 유효한 지적이다.

그런데 SQL과 MPP 방식의 분석시스템이 여전히 부담스러운 이유는 앞서 지적했듯 일반 HW를 기반으로 구성할 수 없기 때문이다. 맵리듀스를 DW어플라이언스 환경에서 쓸 이유가 없는 이유다. 어떤 측면에선 MPP와 맵리듀스 모두 빅데이터 플랫폼을 구성할만한 요소기술이라 볼 수 있겠지만, 양쪽은 상이한 커뮤니티와 저변을 갖고 있는 제품이다.

관련기사

다만 브러스트 씨는 MPP와 하둡 맵리듀스는 하나로 통합될 운명이라고 내다봤다. 호튼웍스가 테라데이타나 MS와 협력하고 오라클이 클라우데라와 협력하는 모습이 이를 짐작케 한다는 지적이다.

이게 실현될 경우 맵리듀스보다는 SQL 방식을 통해 하둡과 DW 환경을 함께 조회하는 접근이 일반화될 전망이다. 일부 솔루션 업체들이 하둡 커넥터 형태를 넘어선 방식의 기술을 내놓고 있다. 오픈소스 진영에서도 하이브 이후 유사한 움직임이 강화되고 있다. 하둡 전문업체 클라우데라의 '임팔라', 국내 학생이 주도하고 국내업체 그루터도 참여중인 아파치 인큐베이션 프로젝트 '타조'가 관심을 모으고 있다.