하둡과 스파크는 경쟁 관계인가

최근 빅데이터 진영의 최고 인기 기술은 ‘아파치 스파크’다. 스파크가 하둡의 자리를 위협한다는 얘기도 간혹 들려온다. 하둡 대신 스파크를 쓴다며 호들갑 떠는 인사도 있는 듯하다. UC버클리대학교 AMP랩에서 만들어진 이 인메모리 기반 오픈소스 데이터 처리엔진은 빠른 속도를 앞세워 급속도로 확산되고 있다. 스파크는 700명 이상의 컨트리뷰터를 확보했으며, 지난 6월 열린 스파크서밋 행사는 대성황을 이뤘다.

스파크를 하둡 대체재라고 말하는 일부 예찬론자의 논리는 속도와 편의성을 근거로 한다.

하둡이 디스크 기반 기술이기 떄문에 물리적인 속도한계를 갖고 있으며, 까다로운 프로그래밍 모델 떄문에 익히기 어렵다는 주장이다. 스파크가 하둡보다 더 빠르고 배우기 쉽다며 하둡 대체재라고 설명한다. 이 주장은 반만 맞고, 반은 틀렸다.

하둡은 기본적으로 2개의 필수 요소를 갖고 있다. 하둡분산파일시스템(HDFS)과 맵리듀스(MapReduce)다.

스파크가 가장 많이 활용되는 기반 인프라는 하둡이다. 더 정확하게는 HDFS다. 스파크는 데이터처리 영역인 맵리듀스를 대신해 HDFS의 데이터를 연산한다.

맵리듀스 프레임워크는 ‘맵(map)’과 ‘리듀스(reduce)’란 두 함수를 합친 말이다. 분산된 데이터를 종류별로 모으는 맵 단계와, 원하는 데이터를 뽑아내는 리듀스 단계를 순차적으로 실행한다. 이 과정을 셔플이라 하는데, 맵리듀스 프레임워크는 셔플로 생성된 정보를 디스크에 파일 형태로 저장한다.

스파크는 셔플 데이터를 메모리에 상존시켜 읽고 쓰는 속도를 높인다.

스파크가 기반 파일시스템으로 반드시 HDFS를 써야 하는 건 아니다. 분산파일시스템이면 뭐든 사용가능하다. 아마존웹서비스 S3나 오픈스택 스위프트는 물론 여러 NoSQL을 써도 된다. 다만, 현존하는 분산파일시스템 가운데 HDFS의 확장성을 뛰어넘는 기술은 없다. 스파크 사용자들이 하둡을 기반으로 삼는 이유는 이 때문이다.

결국, 스파크가 하둡을 대체한다는 말은 하둡 플랫폼 속 맵리듀스를 대체한다로 고쳐야 한다.

오늘날의 하둡은 특정 요소라기보다 데이터 플랫폼을 뜻한다. 하둡이란 플랫폼 상에 피그, 주키퍼, 하이브, 플럼 등 수많은 오픈소스 기술이 올라간다. 하둡 2.0의 리소스 매니저 ’얀(YARN)’과 함께 맵리듀스는 HDFS를 활용하는 여러 처리 엔진 중 하나로 지위를 낮췄다. 이게 스파크가 급부상할 수 있었던 주요한 계기다.

2009년 처음 만들어진 스파크는 하둡에 의지하지 않고 독자적으로 발전한 기술이다. 머신러닝이나 마이크로배치 스트리밍 프로세싱, 그래프 컴퓨팅, SQL 같은 영역에서 활용되기 쉽도록 설계됐다. 장애에 버티는 능력(fault tolerance)도 맵리듀스보다 낫다.

스파크의 문제는 처리 용량이다. 메모리 용량이 스파크로 처리할 수 있는 데이터 총량을 결정한다. 여전히 디스크보다 메모리의 가격이 비싸므로 수십수백억건을 넘어가는 데이터를 스파크로 분석하는 건 쉽지 않다.

더불어, 높은 동시성(concurrency)과 높은 보안성도 아직 완벽하게 확보되지 않았다.

AMP랩의 스파크 창안자들은 데이터브릭스란 스타트업을 창업했다. 그리고 IBM이 개발자 3천500명을 투입하기로 한 상황이다. 확장성, 동시성, 보안성 등을 엔터프라이즈 현업에서 사용할 수준으로 끌어올리겠다는 게 목표다.

스파크의 확장성을 높이고 운영 부담을 줄이는 방안으로 올해 정식서비스로 나온 게 ‘데이터브릭스(회사명과 동일)’다.

아마존웹서비스(AWS) EC2와 S3를 기반으로 사전 정의된 스파크 클러스터를 이용할 수 있다. API를 활용해 머신러닝, R, 서드파티 애플리케이션 등과 연동가능하다.

스파크1.4 버전의 경우 스트리밍 같은 장기 지속성 프로세스를 위한 케르베로스 토큰 자동 갱신 기능을 갖고 있다. R을 쓸 수 있게 됐고, 시각적 디버깅과 유틸리티 모니터링 등 관리 기능도 추가됐다.

이같은 움직임은 스파크가 이제 막 엔터프라이즈 시장 진입을 위한 밑간 작업에 들어갔다는 인상을 준다.

반면, 하둡은 엔터프라이즈 인프라의 요구조건을 하나씩 돌파하고 있다. 하둡 인프라 운영에 대한 어려움은 얀 아키텍처 도입 이후 많이 해소됐다. 하둡 생태계는 이제 속도를 높이는 것과 별개로 보안성과 안정성, 관리 편의성 등의 측면으로 강화되고 있다. 엔터프라이즈 통합 데이터 플랫폼을 위한 요구조건들이다.