[제8회 ACC]SAS "하둡 첫걸음, 잘 떼려면 이렇게"

일반입력 :2012/09/12 17:33    수정: 2012/09/12 17:37

빅데이터와 함께 하둡이 주목받고 있다. 다만 그 '고성능 저비용' 기술 이면엔 불편한 진실도 있다. 하둡을 다루기 위한 현실적 대안과 빅데이터 분석 전략, SAS가 국내외 기업들과 함께한 프로젝트가 늘고 있다. 이건 단발성 유행이 아니라 중장기 빅데이터 분석 인프라를 설계하고 현업에 분석조직을 키워야 하는 상황이다.

SAS코리아 구방본 부장은 12일 서울 잠실 롯데호텔 '제8회 ACC' 현장에서 '빅데이터 활용 극대화를 위한 하둡 기반의 분석 전략 및 제언'을 발표하며 이같이 말했다. 거대화하는 데이터처리플랫폼을 비싸게 확장하는 대신 저렴한 분산 인프라로 효율이 높은 병렬처리 시스템을 구축하려는 시도가 하둡의 탄생 배경이다.

그가 지적한 '하둡의 불편한 진실'은 기존 데이터처리 기술에 비해 유치원생 나이에 빗댈 정도로 역사가 짧다는 점, 그때문에 여느 오픈소스 기술들과 마찬가지로 현업에서 손쉽게 다룰 수 있는 형태로 정제되지 않아 전문가가 필요하단 점, 그 복잡한 내용을 소화한 엔지니어들은 몸값이 비싸거나 찾기 어렵다는 점, 현업 분석가가 실제 활용 가능한 기술인지는 의문부호가 달린다는 점 등이다. 덕분에 하둡을 활용한 기업들은 소수에 그친 상황이고 수많은 일반 기업들은 건드려보지도 못하고 있다.

구 부장은 빅데이터 대응방안 하면 쉽게 '하둡'을 떠올리지만 실제로는 우리가 쉽게 쓰기 어려운 게 사실이라고 지적했다.

현실적 대안은 그저 더 시간을 보내며 지켜보거나, 전문업체나 인력을 찾아 솔루션을 구매하는 것, 또는 국내서 몇몇 기업에 의해 개발되고 있는 하둡 플랫폼 서비스를 활용하는 것, 아니면 데이터 저장용도의 저렴한 기술로 하둡을 채택하고 이를 위한 분석 솔루션은 기존 상용 솔루션을 구축하는 것 등으로 요약된다.

SAS는 분석솔루션 업체로서 나중에 제시한 대안들을 돕는 솔루션을 제시한다. 하둡기반의 빅데이터 분석 플랫폼을 통해 웹 등 외부데이터를 수집하고 하둡기반의 저장소 '빅데이터팜'을 둔다. 이를 정제해 분석하거나 빅데이터 그대로 분석하기 위한 하이퍼포먼스애널리틱스(HPA)를 제공하고 시각화 솔루션도 지원하는 것이다.

우선 구 부장은 하둡의 역할 가운데 거대한 데이터를 저장하고 그에 접근케하는 기능을 위해 'SAS 액세스투하둡'을 소개했다. SAS 언어와 하둡 쿼리를 혼용해 쓸 수 있게 만든 것이다. 하둡 데이터를 가져와 SAS 기술로 가공하고 다시 하둡에 저장도 가능한 구조다.

미국 통신사 스프린트는 주당 19페타바이트에 달하는 데이터를 하둡으로 수집 저장하고 SAS로 다룬다. 실제 가동중인것은 아니지만 SAS코리아도 우리나라 하둡솔루션 업체인 그루터와대상 인프라의 웹로그와 네트워크정보를 하둡으로 저장 분석하기 위해 협력중이다.

또 구 부장은 SAS HPA 고객사례로 기존 데이터분석 성능을 수십배 향상시킨 금융권의 UOB, 공공의 IRS, 통신사 텔스타, 백화점 메이시즈, 마케팅사 카탈리나 등을 제시했다.

구 부장은 카탈리나는 과거 샘플링한 고객데이터로 진행해온 마케팅방식을 전수조사로 바꿔 개인화된 재구매 유도 전략을 수행할 수 있었다며 4시간 반 걸렸던 마케팅 캠페인 분석작업을 90초로 줄이고 10% 수준이던 종이쿠폰 회수율을 25%로 배이상 높였다고 강조했다.

회사는 그리고 성능 측면의 효과를 자체 벤치마크 테스트 결과로 뒷받침했다. 인메모리분석으로 데이터 10억건을 로지스틱 회귀분석해 보니 그린플럼 기반의 일반 처리시 소요시간이 20시간에 달했는데, HPA기반으로는 50초만에 끝났다. DW어플라이언스 24유닛짜리 32개노드를 병렬가동한 것과 맞먹는다는 설명이다.

이밖에 SAS는 HPA 사용 시나리오에서 현업 사용자에게 알맞은 시각화 솔루션 'SAS 비주얼애널리틱스'와 비정형텍스트분석, 자연어처리기법의 가치를 강조했다. 해당 솔루션은 텍스트 의미를 분석해 LG CNS가 상용화한 '스마트SMA'를 통해 실제 가동중이다.

구 부장은 가치 있는 외부데이터를 찾고 이를 활용할 비즈니스목표를 세워야 한다며 그걸 위해 데이터를 수집, 저장, 통합할 방법을 기업 사정에 맞게 결정하라고 조언했다.

관련기사

한편 LG CNS는 SAS 기반 사례발표를 들고나와 구축한 스마트SMA 서비스를 활용해 홍보, 마케팅, 세일즈 등 분야 실무에 활용하고 있는 방안을 소개했다.

LG CNS 이진형 총괄은 당장 기존 정형데이터와 의미파악까지 가능한 비정형텍스트분석을 합쳐 부분적으로 활용중이지만 향후 소셜네트워크분석이나 다른 분야까지 확장해 나갈 계획이라며 DW나 고객관계관리(CRM) 보유 데이터와 연관 분석에 활용할 수 있는 수준을 넘어 글로벌 시장 진출을 준비중이라고 언급했다.