빅데이터 DW엔진 아파치 타조 0.10 공개

일반입력 :2015/03/26 11:17    수정: 2015/03/26 11:37

오픈소스 빅데이터 분석 엔진 ‘아파치 타조(Apache Tajo)’ 0.10 버전이 공개됐다. 아파치소프트웨어재단(ASF)은 타조를 엔터프라이즈 지원 준비를 마친 수준이라고 부연했다.

한국의 빅데이터플랫폼 전문업체 그루터와 아파치 타조 개발팀은 클라우드 지원과 사용자 편의성을 강화한 0.10 버전을 공개한다고 26일 밝혔다.

아파치 타조는 대용량 데이터 웨어하우스(DW) 엔진으로, 하둡파일시스템(HDFS)에 저장된 데이터세트를 분석하기 위해 맵리듀스(MapReduce) 프레임워크를 사용하지 않아도 된다. 엔터프라이즈 고객이 널리 사용하는 표준 SQL을 사용해 하둡 및 NoSQL에 저장된 데이터를 분석할 수 있다.

타조는 국내 기업인 그루터가 개발을 주도하고 있으며 구글, NASA, 마이크로소프트, 호튼웍스 등의 글로벌 기업과 다음카카오, 라인 등의 개발자들이 개발에 참여하고 있다.

0.10 버전은 버그 수정 등을 포함한 160개 항목에 대한 해결책을 적용했고, 새로운 기능을 추가, 발전시켰다. 다양한 데이터 포맷과 저장소를 지원하고, 기존 데이터 분석 도구와 쉽게 연결할 수 있도록 기능을 강화했다.

특히, 표준 데이터베이스 연결 도구인 JDBC 드라이버가 크게 개선됐다. 개선된 JDBC 드라이버는 더 작은 용량의 파일 하나로 새롭게 디자인돼 각종 비즈니스인텔리전스(BI) 도구, 오픈소스 통계 분석 소프트웨어인 R, SQL 도구 등 분석도구와 더욱 쉽게 연결할 수 있다.

펜타호(Pentaho), 스팟파이어(Spotfire) 등 기존 BI 도구를 직접 타조에 연결해 대용량 데이터를 분산 처리하고, 그 결과를 바로 불러와 고급 분석과 시각화에 사용할 수 있다. 데이터 분석가의 활용 편의성이 더 높아진 것이다.

하둡(HDFS)은 물론, 인기있는 NoSQL 데이터베이스인 H베이스 를 표준 SQL로 분석할 수 있는 기능이 추가됐다.

클라우드 지원도 강화됐다. 아마존웹서비스(AWS) S3 저장소에 대한 처리 속도가 빨라졌고, 간단한 명령으로 타조를 바로 실행할 수 있는 스크립트도 제공해, AWS 환경에서 더욱 쉽게 하둡 및 S3 에 저장된 데이터를 분석할 수 있게 됐다.

웹 데이터 전송에 널리 쓰이는 JSON 형식의 데이터를 별도의 변환 작업 없이 바로 SQL로 분석할 수 있는 기능이 추가됐다.

권영길 그루터 대표는 아파치 타조는 기존 상용 DW를 보완하거나 대체하는 빅데이터 DW 시스템으로 여러 기업에서 이미 활용되고 있다”며 “전통적인 기업 내 IT 환경 외에도 AWS, 오픈스택과 같은 클라우드 환경에서도 빅데이터를 빠르게 분석할 수 있다”라고 밝혔다.

관련기사

그는 “기업은 타조의 도입으로 비용 대비 효과 뿐 아니라 대용량 데이터 처리에 장애물이었던 속도 문제를 해결함으로써 속도 문제 때문에 하둡 도입을 주저하던 기업들에게 실질적인 도움을 줘 빅데이터 분석 활성화에 큰 도움이 될 것이라고 덧붙였다.

타조는 아파치 타조 프로젝트 사이트(http://tajo.apache.org/)에서 다운로드할 수 있다.