링크드인, 인맥 통계분석 하둡기술 공개

일반입력 :2012/01/13 11:10    수정: 2012/01/13 11:39

기업용 인맥 관리 서비스로 유명한 링크드인이 '하둡' 기반 데이터처리 기술을 오픈소스로 공개했다. 이를 사용시 분산 환경에 보관된 자료들을 통계적 기법으로 다룰 때 하둡 개발자와 소프트웨어(SW) 업체들이 들이는 노력을 줄일 수 있어 업계 관심을 모은다.

한 미국 외신은 12일(현지시각) 링크드인이 분산처리기술 하둡과 이를 위한 쿼리언어 '피그'에 기반한 함수 라이브러리 '데이터푸'를 공개했다며 링크드인 선임SW엔지니어 매튜 헤이스가 이달초 게재한 공식 소개문을 인용 보도했다.

회사는 링크드인 사이트 가운데 '지인을 찾아보세요(People You May Know)'나 '업무능력(skills)' 같은 기능을 제공하기 위해 하둡과 피그를 활용해왔다. 피그는 대규모 데이터세트를 분석키위해 설계된 관계형 대수 쿼리언어 인터페이스다. 야후 랩이 하둡 하위 프로젝트로 이를 개발했으며 소셜네트워크서비스(SNS) 트위터에도 쓰인다.

링크드인은 피그가 제공하는 '사용자 정의 함수(UDF)'를 바탕으로 다양한 응용 함수를 만들어 사이트가 제공하는 기능을 발전시켰다. UDF는 피그가 자체 제공하지 않는 동작 방식을 자바, 파이썬, 자바스크립트 언어로 직접 짜넣을 수 있는 자체 함수 정의 기능이다.

헤이스는 피그는 십수개 연산자로 구성된 단순한 고급 프로그래밍 언어로 맵리듀스(MR) 쓰기 작업을 쉽게 해준다며 피그 스크립트에 자바, 파이썬, 자바스크립트로 만든 사용자 코드를 통합시킬 수 있는 UDF 기능을 지원해 더 개선된 작업을 수행할 수 있다고 설명했다.

이어 우리는 링크드인 서비스에 수많은 UDF를 개발해 넣어왔고 이제 잘 정리된 UDF들을 일반적 용도로 쓸 수 있게 단일화한 '데이터푸' 라이브러리를 오픈소스인 아파치 2.0 라이선스로 공개하기로 했다고 밝혔다.

그의 설명에 따르면 데이터푸는 일반적인 통계 처리 작업, 페이지랭크, 세트 오퍼레이션, 백 오퍼레이션, 테스트용 스위트를 포함한다. 사용자는 이를 활용해 ▲수많은 독립적인 그래프에 링크 분석 기법인 '페이지랭크'를 실행 ▲페이지 관계를 처리하는 '인터섹트'와 '유니온' 등 작업 설정을 수행 ▲세계상의 2개 지점간 간격에 삼각함수의 일종인 하버사인(haversine) 연산을 적용 ▲입력한 데이터에 설정된 조건이 맞지 않을 경우 스크립트 실행을 중단시키는 '어서션'을 지정 ▲튜플을 첨부하거나 튜플 덩어리인 백(bag)을 연결하거나 정렬되지 않은 데이터쌍을 생성하는 등 작업을 할 수 있다.

해당 프로젝트는 피그 0.9 버전으로 테스트됐다. 웹기반 오픈소스 협업 네트워크 '기트허브(github)'에 올라갔다.

회사가 자사 기술을 오픈소스화한 것은 처음이 아니다. 자체 개발한 클라우드용 문서검색기술 '인덱스탱크'도 지난해말 개방했다.

관련기사

인덱스탱크 검색 엔진은 재작년 10월 링크드인이 인수한 동명의 벤처업체가 만든 것이다. 한 외신은 웹사이트 방문자가 검색할 수 있도록 콘텐츠에 기반한 색인 정보를 만들어내는 역할을 한다는 점에서 '구글 맞춤검색'과 닮은꼴이라고 묘사했다. 그러나 인덱스탱크가 구글 검색 알고리즘에 의존하지 않기 때문에, 이를 적용한 웹사이트 관계자는 검색결과 우선순위를 직접 관리할 수 있다는 게 개발사측 주장이다.

인덱스탱크는 일반 텍스트, PDF, 오피스 문서 등을 찾아줄 수 있다. 자바, 파이썬, 닷넷, 루비, PHP를 통해 접근할 수 있는 API를 제공한다. 아마존 웹서비스(AWS) 기반으로 돌아가며 클라우드 서비스형인프라(IaaS) 위에서 색인 엔진을 무한대로 호스팅할 수 있는 프레임워크 '네뷸라이저'를 포함한다.