MS가 말하는 데이터과학자의 '세 얼굴'

일반입력 :2013/02/19 08:15    수정: 2013/02/19 09:13

최근 데이터과학자가 향후 IT업계 최대 유망직종으로 떠올랐다. 주요 조사분석업체들을 통해 수십만명에 달하는 전문인력 수요가 생길 거란 전망이다. 아직 구체적인 역할과 업무방식 개념이 통용되진 않는다. 빅데이터를 겨냥한 기술, 제품, 서비스를 만드는 IT업체들의 마케팅메시지와 업계 전문가들의 진단이 혼재된 상태다.

하버드비즈니스리뷰는 지난해 10월 데이터과학자를 '21세기 가장 주목되는 직업'으로 선정했고 컨설팅업체 맥킨지는 오는 2019년까지 미국서만 데이터과학자 14만~19만명이 필요할 거라고 지난 2011년 내다봤다.

이렇게 유망하다는 데이터과학자가 대체 무슨 일을 하는 사람일까. 마이크로소프트(MS)연구소 소속 전문가, 겐지 다케다 MS리서치커넥션스 EMEA팀 솔루션아키텍트 겸 테크니컬매니저가 그 나름대로의 정의와 세분화된 업무내용을 소개해 눈길을 끈다.

지난달 31일 다케다는 사람들은 데이터 속에서 헤엄치며 수많은 가정(hypotheses)을 찾아다닐 것이라며 이들에게 데이터과학자는 수영장을 지어주고 안전요원이 돼주는 사람들이라고 비유했다.

■엔지니어, 애널리스트, 스튜어드

다케다에 따르면 데이터과학자는 '1인 다역'이다. 그 내용은 데이터를 다루는 점은 같지만 그 방식과 관점이 서로 다른 업무를 포함한다. 이를테면 데이터엔지니어, 데이터애널리스트, 데이터스튜어드, 3가지다.

데이터엔지니어는 데이터의 하위수준 관점에서 운영을 맡는다. 데이터를 다루고 주변으로 움직이는 코드를 작성하는 사람들로 묘사된다. 이들은 기계학습분야에 배경지식이 필요할 수 있다. 대기업에서는 이 일을 맡기기 위해 내부 담당팀을 두거나 외주 전문가를 고용하기도 한다.

데이터애널리스트는 통계학자로 알려진 사람들을 가리킨다. 프로그래밍을 배웠거나 엑셀을 다루는 실력이 발군이다. 어느쪽이든 이들은 하위수준 데이터에 기반한 모델을 작성할 줄 안다. 이들은 실무와 관련된 숫자를 다룰 뿐, 추상적인 개념을 가리키는 데이터에는 관심이 없다. 알맞은 질문을 던져 데이터를 얻어낼 줄 안다는 게 가장 중요한 점이다. 모든 회사가 이들을 많이 확보하게 될 것이다.

데이터스튜어드는 데이터 관리와 유지를 염두에 둔 사람들이다. 정보전문가, 기록보관담당자, 사서, 준법감시인을 가리킨다. 다케다는 이를 핵심적인 역할로 규정한다. 데이터가 값지다면 누군가 그걸 관리하고, 드러내고, 보살피고, 계속 사용할 수 있도록 만들어야 하기 때문이다.

3가지 개념은 완전히 다르지만 아직 업계서는 혼용되는 모습이다. 이같은 현상은 지난 1990년대 인터넷 붐이 일었을 당시 웹마스터라는 표현이 통용되던 모습에 견줄 만하다.

■20년쯤 전 '웹마스터'가 그랬다

다케다는 데이터란 언제나 IT의 심장부였지만 최근 몇년새 그게 폭증해 버렸다며 단순히 크기뿐아니라 비정형데이터의 여러 형식과 그 통합과 처리에 부담을 주는 속도도 함께 늘었다고 지적했다. 이에 많은 기업들이 당분간 데이터과학자의 역할을 과거 웹마스터처럼 혼동하는 시기가 이어질 것이라고 진단한다.

인터넷 초창기에 웹마스터는, MS쪽의 표현을 빌리자면 '흑마술의 대제사장'이었다. 초창기 업계는 각각의 업무 영역이 상이한 전문성을 띤 것이라 인식하지 않았다. 수많은 기업들이 사업을 위해 웹사이트를 필요로 했고, 웹마스터는 소프트웨어 설치, 웹사이트 구축, 홍보문구 구상과 마케팅을 도맡았다. 현재는 각 업무를 해당 분야 전문가가 따로 맡는다.

관련기사

다케다는 웹마스터의 일은 웹을 다루는 팀으로 옮아가면서 차별화된 역할에 따라 역할이 세분화됐다며 데이터과학자들에게도 같은 일이 일어날 것이라 예상한다고 말했다.

빅데이터를 다루려하는 조직들은 저마다 데이터를 모으고, 정렬하고, 저장하고, 가공하고, 정제하고, 분석하고, 탐구하고, 시각화하고, 공유하고, 의미를 발굴할 필요성을 느낀다. 이를 돕는 사람들이 바로 '데이터 과학자'지만, 그 업무를 어떤 단계와 과정으로 전문화해야 할지 아는 사람은 드물다. 다만 데이터를 '제품'이나 '통찰'로 바꾸거나 저급한 정보에 값진 시나리오를 덧붙일 수 있는 역할이 우선시되는 상황이다.