NHN, 오픈소스 '하둡' 쓰는 이유는

일반입력 :2011/08/02 11:41    수정: 2011/08/02 11:44

NHN은 자사 웹서비스와 인프라 기술 대부분을 직접 만들었는데 유독 분산 처리 용도로 오픈소스 '하둡'을 써온 배경이 눈길을 끈다.

NHN 가상화플랫폼개발랩의 김태웅 랩장은 지난 1일 오픈소스로 개발돼온 하둡은 상당한 수준으로 안정화된 기술이라며 오프라인에 대량 데이터를 분석하는 용도로 활용 가치가 높다고 평했다.

포털 네이버를 운영하는 NHN은 오픈소스 분산 처리 기술 하둡을 다른 국내 기업에 비해 앞서 도입한 회사로도 평가된다. 지난 2007년 검색과 로그 분석을 위한 기술로 하둡을 적용해 왔다는 설명이다. 하둡 오픈소스 프로젝트는 지난 2006년 알려졌고, 안정화 시점을 고려시 기술 도입이 빨랐던 것은 사실이라는 얘기다.

김 랩장은 하둡이 제공하는 분산처리와 데이터 저장 기능을 이용해 로그와 검색 서비스를 위한 데이터를 분석하는 용도로 쓰고 있다며 하둡은 맵리듀스 방식의 데이터 분석방법이 적합한 영역에 활용 가치가 크다고 본다고 말했다.

맵리듀스는 컴퓨터 여러대를 묶어 만든 분산컴퓨팅 환경에서 거대한 데이터 덩어리를 다룰 때 쓰는 프레임워크의 일종이다.

또는 분산 환경에서 데이터를 처리하는 '맵(map)'과 '리듀스(reduce)' 단계 자체를 가리키기도 한다. 맵 단계에서 분산시스템의 주컴퓨터는 입력받은 작업을 쪼개 단말에 나눠 주고, 이를 받은 작업 컴퓨터들은 결과를 주컴퓨터에 되돌려 보낸다. 주컴퓨터는 이후 리듀스 단계에서 이 쪼개진 결과값들을 받아 모아낸다.

관련기사

또다른 인터넷 기업 야후도 자사 검색과 광고 콘텐츠 연결, 사용자 참여 기반 콘텐츠 그리드와 예측 분석 시스템에 하둡을 적용한 사례가 알려진 바 있다. 데이터웨어하우스(DW) 어플라이언스 전문업체 테라데이타와 글로벌 IT기업 IBM, EMC 등이 기업들을 위한 고성능 분석 솔루션에 하둡을 투입하고 있다.

그러나 NHN측은 하둡에 기반해 추가로 진행중인 연구개발 프로젝트가 없다고 밝혔다. 하둡 기능이 안정화된 이후 NHN이 하둡을 활용해온 기간중 소스코드 기여 등 눈에 띄는 활동은 하지 않았다고 한다.