한국EMC "하둡 품는 '데이터 호수' 확보하라"

컴퓨팅입력 :2015/08/27 13:10

한국EMC가 기업에서 필요로하는 다양한 데이터 형식을 모두 다룰 수 있는 데이터레이크 인프라 확보의 중요성을 강조했다. 장기적인 시각에서 데이터를 활용하고 비즈니스를 예측할 수 있는 분석 수행에 필수적이라는 이유에서다.

이상우 한국EMC 이사는 지디넷코리아가 27일 서울 잠실 롯데호텔에서 개최한 제12회 어드밴스드컴퓨팅컨퍼런스(ACC)에서 '스케일 아웃 데이터 레이크 파운데이션'이란 주제로 기조연설을 진행했다.

데이터레이크는 파일 공유, HPC, 백업 및 아카이브, 애널리틱스, 모바일, 클라우드애플리케이션 등에서 다루는 다양한 형태의 데이터를 모두 제공할 수 있는 추상화 계층을 가리킨다. 단일 파일을 여러 프로토콜로 접근할 수 있고 통합된 단일 데이터풀, 비정형 및 반정형 데이터, 다중 액세스포인트 및 접근방법, 거대 규모가변성, 엔터프라이즈를 위한 데이터거버넌스와 보호, 데이터마이그레이션 면역 등 특성을 갖춰야 이 정의에 들어맞는다.

이 이사는 "데이터 형태와 상관없이 모든 종류의 데이터를 수용하고 관리할 수 있는 환경"이라며 "데이터베이스는 특정한 유형의 데이터만 수용할 수 있는 '양식장'이라면 데이터레이크는 다양한 유형이 공존할 수 있는 생태계"라고 묘사했다.

이상우 한국EMC 이사

데이터레이크가 필요한 이유는 뭘까. 데이터 중복과 인프라 관리 및 확장의 부담을 덜고, 데이터 수집 및 분석 능력과 데이터과학 관점을 활용한 차세대 분석기법을 활용하며 빠른 변화에 대응한 기업 운영을 실현하기 위해서라는 게 이 이사의 설명이다.

한국EMC는 스토리지 관점에서 기존 데이터 관리 환경을 데이터레이크로 발전시키는 단계를 제시했다. 과거 각 부서, 업무별로 고립된 서버와 스토리지 구성 환경에선 확장성과 활용도가 제한되고 관리가 복잡하며 부서간 데이터 분석을 할 수 없었다. 스토리지 통합, 서버 가상화와 엔터프라이즈 데이터웨어하우스 도입을 통해 확장성, 데이터 보호 및 관리 복잡성 완화, 스토리지 활용도 개선, 부서간 데이터 분석 문제는 해결됐다.

그런데 데이터를 다루는 애플리케이션, 기기, 네트워크 스토리지(NAS) 인프라가 기존 고립된 인프라를 재현하면서 스토리지 통합 이전의 문제들이 다시 불거졌다. 다시 확장성, 데이터 보호, 스토리지 활용, 고립, 관리 복잡성, 부서간 데이터 분석 문제를 해결해야 할 상황이 됐다. 여러 애플리케이션과 기기간 발생하는 비정형데이터를 통합 수용하기 위해 하둡을 도입하고 NAS 계층도 통합한다 하더라도 추가 발생하는 데이터 이전 문제, 낮은 CPU 활용도, 프로텍션 오버헤드를 해결하기 어려워진다.

이 이사는 하둡스토리지 계층에 베어메탈 가상화를 도입하고 NAS 계층과 통합해 데이터 이전, 낮은 CPU 활용도, 프로텍션 오버헤드 문제를 해결한 데이터레이크 구축이 가능하다고 설명했다.

한국EMC는 이런 데이터레이크 구현을 위한 근본적인 데이터스토리지 인프라로 '데이터레이크파운데이션'을 제시했다. 이는 효율적인 스토리지, 거대 규모가변성, 운영상의 유연성 확대, 편리한 빅데이터분석, 광범위한 데이터보호 및 보안 특성을 지원한다. 이를 위한 EMC 스케일아웃 NAS로 '아이실론' 장비가 소개됐다.

아이실론은 144노드 구성으로 50페타바이트(PB) 단일볼륨 및 파일시스템 증설이 가능하다. 파일이나 오브젝트나 피보탈, 클라우데라, 호튼웍스의 하둡 프로토콜을 지원한다. 데이터관리 기능으로 가시성과 분석, 자동계층화, 저장공간효율화, 씬프로비저닝을 지원하고 데이터보호 기능으로 D2D백업, DR복제, 논리적 백업, 원본 위변조 방지, 커넥션 로드밸런싱을 지원한다.

서버의 내장스토리지를 이용해 CPU와 스토리지를 함께 증설해야 하는 전통적인 하둡 HDFS인프라의 단점을 없애 준다는 얘기다.

한국EMC에 따르면 아이실론은 분석에 앞서 데이터를 반드시 하둡클러스터로 복제해야 하는 하둡 환경에서, 다수의 복제 생성에 따른 비효율적 스토리지 사용 및 시간 지연과, 저장소에 들어간 데이터의 원본인 주 스토리지의 내용이 바뀔 경우 데이터 정합성을 유지하기 어려운 문제도 해결해 준다.

아이실론은 하둡환경을 가상화환경에서 유휴자원으로 구성하고 분석 전 단계에 데이터복제를 필요로하지 않으며 파일 프로토콜과 HDFS프로토콜로 같은 데이터에 동시 접근해 이런 장점을 구현했다는 설명이다.

관련기사

이밖에도 아이실론은 서버내장스토리지를 쓰는 HDFS에선 지원이 안 되는 리플리케이션과 재해복구 기능을지원하고 버전관리와 미션크리티컬 상황 대응을 할 수 있어 업무 연속성 향상이 실현된다고 이 이사는 강조했다.

한국EMC는 서버내장스토리지 기반의 하둡과 아이실론 인프라에서 4PB 규모 하둡 인프라 구성시 비용을 맞비교한 사례를 제시해, 38개 서버랙에서 구성했던 하둡 인프라 대비 아이실론은 10개 랙으로 적은 인프라를 65% 저렴한 비용으로 구성 가능했다고 주장했다.