NHN "하둡, 크게 안 써"…왜?

일반입력 :2011/08/05 11:00    수정: 2011/08/05 11:08

NHN이 분산처리기술 '하둡'과 관련된 사업이나 연구개발을 진행할 계획이 없음을 분명히 했다. 회사는 몇년째 일부 서비스 로그, 검색 데이터 분석에 하둡을 써왔지만, 핵심인 검색 인프라 전반의 대규모 데이터를 다루는 역할은 자체 개발한 분산처리 기술에 맡긴 것으로 풀이된다.

NHN 가상화플랫폼개발랩의 김태웅 랩장은 지난 4일 자사가 데이터 분석과 가공을 전문으로 하는 검색 서비스 같은 경우 대규모 데이터를 다루는 자체 분산처리 방법을 갖춘 것으로 안다면서도 그 내용은 자세히 모르지만 NHN이 하둡을 광범위하게 쓰는 것은 아니다고 잘라 말했다.

이어 하둡은 지난 2007년부터 로그 데이터와 검색 서비스용 데이터를 분석할 때 소규모로 쓰였고 새로 진행중인 연구개발 프로젝트나 사업화할 계획은 없다며 하둡 메일링리스트에 초기버전 버그를 제보했으나 기능이 안정화된 이후 특별히 (오픈소스 프로젝트에 공헌한) 활동은 없는 걸로 안다고 덧붙였다.

다만 NHN이 하둡을 자체 분산형 데이터 운영환경 한켠에 쓰기 위해 기울인 노력은 있었다.

원래 NHN 순수 인프라만으로는 하둡 '맵리듀스' 분석 기능을 쓸 수 없다. 그와 짝이 되는 '하둡 파일 시스템(HDFS)'이 필요하기 때문이다. 그런데 NHN은 독자적인 분산파일시스템 '소유자 기반 파일시스템(OwFS)'을 운영한다. 하둡 분석을 곧바로 돌릴 수 없었단 얘기다.

김 랩장은 OwFS에서 하둡 분석을 수행하려면 이에 저장된 데이터를 복사해 HDFS로 옮겨야 했다며 이 불편함을 개선하기 위해 지난해 'OwFS용 맵리듀스 프레임워크(MFO)'를 만들었다고 밝혔다.

MFO는 OwFS에서 하둡 맵리듀스를 실행할 수 있게 해준다. HDFS에 데이터를 옮기는 과정 없이 NHN 자체 환경에서 곧바로 분석 작업을 수행할 수 있다는 설명이다.

NHN이 자체 분석 기술을 놔두고 굳이 하둡을 적용한 배경은 석연찮다. 데이터 분석 전문가가 아닌 개발자도 쉽게 쓸 수 있는 프로그래밍 방법으로 일부 부서에서 하둡 맵리듀스를 썼다는 게 김 랩장 설명이다.

관련기사

한편 회사는 이전까지 외부에 공개한 적이 없다는 자체 분산처리 기술에 대해 극도로 말을 아끼는 입장이다.

회사 관계자는 이와 관련한 질문에 기술의 동작 원리와 세부 사양뿐 아니라 명칭과 담당 사업부, 책임자 신상 정보도 언급하기 어렵다며 향후 적절한 시기 전까지는 이를 유지할 방침이라고 말했다.