호튼웍스 "얀 기반 애플리케이션 급증 추세"

일반입력 :2014/07/03 17:43    수정: 2014/07/15 14:48

“작년 10월 얀을 처음 소개했을 때 애플리케이션은 두개뿐이었다. 6개월이 지난 현재 수많은 얀 기반의 애플리케이션이 빠르게 개발되고 있다.”

제프 마크햄 호튼웍스 AP 기술이사는 3일 서울 잠실 롯데호텔에서 열린 ‘제11회 어드밴스드컴퓨트컨퍼런스’ 오후세션에서 이같이 밝혔다.

작년 10월 하둡2.0 버전의 등장과 함께 하둡 에코시스템은 근본적인 변화를 맞았다. 하둡분산파일시스템(HDFS)와 맵리듀스란 저장/처리 요소를 갖는 간단한 아키텍처였던 하둡이 얀(YARN)이란 리소스 매니저를 갖게 된 것이다.

얀은 HDFS 상단에 존재하는 요소로 데이터 플랫폼의 자원을 관리하고 애플리케이션에 자원을 할당, 배포하는 운영체제에 해당한다. 기존 맵리듀스 내부에 존재했던 리소스관리 요소를 빼내 별도로 만들고, 맵리듀스는 데이터 프로세싱을 위한 일종의 애플리케이션으로 바꿨다.

제프 마크햄 이사는 “맵리듀스는 배치 프로세싱을 목적으로 개발됐기 때문에 인터랙티브, 온라인, 스트리밍 등의 잡을 처리하는 비표준적이고 좋지 않은 아키텍처를 나오게 했다”며 “얀을 통해 클러스터 리소스를 잘 관리하게 하게 됨으로써 실시간처리나 롱리브드 같은 앱이 다양하게 나올 수 있게 됐다.

현재 얀 아키텍처를 지원하는 애플리케이션은 꾸준히 늘고 있다. 작년 10월엔 맵리듀스에 비해 인터랙티브 환경에 최적화시킨 테즈(Tez)와 맵리듀스2 뿐이었다. 지금은 MS에서 공헌하는 리프(REEF, Retainable evaluation execution framework), 스파크, 스톰 , HBASE, JBOSS 등이 얀 기반의 애플리케이션으로 등장했다.

그는 “얀은 CPU, 메모리, 네트워크IO, 디스크 등 리소스를 매니저가 관리하고 처리한다”며 “태스크트래커를 대신하는 노드매니저가 데이터노드터럼 각 서버에 들어가 리소스 리포트를 리소스매니저에 보내준다”고 구조를 설명했다.

얀은 리소스 매니저와 노드매니저와 함께 애플리케이션 마스터(AM)란 게 존재한다. 애플리케이션 단위를 관리하기 위한 요소로 복수의 컨테이너를 사용해 스케줄링과 태스크 실행 등을 관리한다.

그는 이어 피그, 하이브, 케스케이딩 등에서 맵리듀스에서 사용할 수 있는 테즈 엔진을 소개했다. 테즈는 복잡한 맵리듀스 작업을 간소화해 빠른 처리를 구현한다.

마크햄 이사는 “얀 개발팀은 테즈팀이 1년이란 시간동안 빠르게 개발할 수 있게 도와줬다”며 “얀이 있었기에 테즈 같은 복잡한 앱을 단시간에 개발할 수 있었는데, 그 이전의 맵리듀스는 만드는데 더 오랜 시간이 걸렸었다”고 말했다.

관련기사

그는 이어 리프를 소개했다. 얀을 여러 리소스 매니저 중 일부로 두는 이 기술은 컨테이너 간 소통을 관리하는 하둡 애플리케이션 서버로 비유된다. 또한 롱리브드 애플리케이션을 관리하기 위한 슬라이더도 소개했다. 리소스 장애, 로그, 업그레이드, 메트릭스, 알러트 같은 기능을 제공한다.

그는 “현재 SAS는 자신들의 분석툴을 모두 얀에서 돌아가도록 하고 있다”며 “개발자 여러분께서 얀에 기반해 다양한 애플리케이션을 개발할 수 있으며, 이미 개발된 얀 기반 애플리케이션도 당장 써보시길 바란다”고 강조했다.