머신러닝은 툴이다

[연말기획③]머신러닝을 어떻게 볼 것인가

컴퓨팅입력 :2015/12/23 11:03    수정: 2015/12/23 11:10

김우용, 임민철, 임유경 기자

머신러닝은 툴이다. 시중에 나온 연장 중 가장 좋다. 다만, 잘 쓰게 되기까지 사용설명서를 잘 살피고, 꾸준히 연습해야 하기에 쓰기 까다롭다. 사람마다 최신 연장을 안 쓰고 전통을 고수할 수도 있지만, 남들 다 쓰는 와중에 안쓰면 손해다. 머신러닝은 지금 대중화를 향한 임계점에 근접해 있다.

구글은 전세계서 머신러닝을 가장 잘 쓰는 회사다. 구글은 머신러닝을 서비스 곳곳에 녹여내고 있다. 구글, 페이스북, 네이버 등 대형 인터넷 서비스회사의 머신러닝 활용 목적은 서비스 품질을 높이고, 나아가 편의성을 극대화해 더 많은 사용자를 확보하는 것이다.

작년과 다른 올해의 흐름은 머신러닝을 잘 활용하는 소규모 스타트업의 등장이다. 한국에도 머신러닝을 잘 쓰는 스타트업이 여럿 생겨났다. 이들은 머신러닝을 잘 활용함으로써 남들보다 앞서나가려 한다.

대형 인터넷 서비스 회사의 머신러닝 활용이 서비스 개선에 초점을 맞춘다면, 스타트업은 머신러닝을 활용한 특화 서비스를 만드는데 에너지를 쏟는다.

------------------------------------------------------------

[글 싣는 순서]

①머신러닝, 이러다 미신러닝 될라

②머신러닝, 못 한다고 전해라

③머신러닝은 툴이다

------------------------------------------------------------

언론사에 뉴스추천 서비스를 제공하는 데이블, 모바일용 자동 문자답변 서비스 제공하는 플런티, 의료영상 중 엑스레이 판독 보조에 초점을 맞춘 루닛 등이 대표적이다.

각 스타트업은 명확히 하려는 목표를 세우고, 그 목표를 달성하는 가장 유용한 연장으로 머신러닝을 택했다.

데이블은 머신러닝을 활용한 뉴스추천 서비스를 운영하고 있다

데이블은 언론사용 뉴스추천 플랫폼과 쇼핑몰 상품추천 플랫폼 등을 사업 모델로 삼았다. 언론사 웹사이트를 방문한 독자가 어떤 기사를 클릭했는지를 통해 읽고 싶어할 기사를 추천한다. 쇼핑몰 상품 추천도 같은 맥락이다.

이채현 데이블 대표는 "우리는 추천 품목을 보여주는 알고리즘을 구성하는 데 머신러닝을 쓰기로 했을 뿐, 전공자처럼 깊이 알고리즘을 개발하진 않는다"며 "서비스에서 원하는 결과물이 어떤 것인가에 대한 요구사항이 있었고, 그에 요긴한 알고리즘을 머신러닝 쪽에서 선택해 (학계의) 연구 성과를 가져와 쓰는 것"이라고 말했다.

데이블은 머신러닝 알고리즘을 세세하게 다룰 전문가를 고용하지 않았다. 뼈대인 알고리즘을 가져다 데이블 서비스에 맞도록 조율하는 정도다. 회사 소속 엔지니어들은 데이터 분석에 경험을 갖고 있었고, 머신러닝이란 지식을 공개된 자료를 통해 필요한 만큼 습득했다. 어떤 알고리즘을 택하고, 어떤 시스템 인프라를 구성할 것인가는 철저하게 사업적 조건에 따라 결정했다.

데이블의 관심은 멋진 머신러닝 시스템을 만드는 게 아니다. 데이블은 월사용자 4천만명 분량의 데이터를 한정된 인프라 자원에서 효율적이고 적절하게 처리하는가를 더 중요하게 생각한다. 알고리즘을 건드리기엔 다른 해야할 일이 너무 많다. 원하는 결과가 나오면 충분할 뿐, 스스로 연구원이 될 필요는 없다는 관점이다. 주어진 조건에서 목표를 달성할 수 있는 가장 효과적인 도구가 머신러닝이었던 것이다.

플런티는 머신러닝 기술을 적용해 문자 메시지에 자동으로 적절한 답변을 추천해주는 서비스를 운영하고 있다.

플런티는 하루에도 수많은 문자 알림에 시달리고 반복적으로 짤막한 답문을 입력해야 하는 사용자의 수고를 덜어주는 서비스를 만들고 있다.

인터넷에 공개된 5억건의 전세계인의 일상 대화를 수집하고, 이를 머신러닝으로 시스템에 학습시켰다. 플런티 앱은 설치한 단말기에 온 문자 내용을 분석해 '적절한 답변'을 자동 생성, 제안한다.

플런티 앱은 현재 단문 메시지와 주요 메신저 앱의 자동 답문 정도만 구현됐다. 더 발전하면 '뭐 먹을까' 같은 문구에 약속장소 주변의 맛집을 추천하는 식의 제3의 제안 기능도 제공하게 된다.

플런티는 데이블에 비해 머신러닝 알고리즘 내부에 수정을 가하는 편이다. 학계의 성과를 가져다 쓰는 건 데이블과 같지만, 조립 과정에서 더 많이 다듬는다. 어느 쪽이 낫고 못하다기보다 제공하려는 서비스 유형에 따른 차이 때문이다.

김강학 플런티 대표는 "데이터가 깔끔하고 풀려는 문제가 명확하다면 그 해결을 위해 적절한 모델을 찾을 수도 있겠지만 우리의 문제는 좀 다른 것 같다"며 "우리가 기존 수단을 써서 다른 사람들이 많이 다뤄보지 않은 문제를 풀고자할 땐 커스터마이징이 많이 필요한데, (외부에서 가져온 수단이 원하는 수준을 낼 만큼) 커스터마이징이 안 될 수도 있기 때문에 자체 개발하는 게 나은 경우도 있다"고 설명했다.

플런티의 구성원은 통계학, 소셜미디어 분석 등을 전공했고, 이전 회사에서 머신러닝을 활용한 서비스 개발에 참여했다. 알고리즘의 내부를 건드릴 수 있는 건 그 덕분이다.

루닛은 이미지 인식 기술을 통해 의료 영상 진단 서비스를 개발하고 있다.

영상인식기술 개발업체 루닛도 머신러닝을 중요한 도구로 써서 비즈니스를 하려는 스타트업 중 하나다. 앞선 데이블이나 플런티보다 더 머신러닝에 깊이 있게 접근하지만, ‘머신러닝은 도구’라는 시각은 동일하다.

루닛은 의학 전문가의 일을 돕는 수단으로 머신러닝을 동원한다. 의료 엑스레이 이미지에서 몸 속의 이상징후를 찾아내는 데 머신러닝 기술을 쓴다. 의사는 매일 수백장의 엑스레이 사진을 검토해야 한다. 매일 살펴보는 수백장 중 이상 증상을 담은 사진은 극히 일부다. 이 작업을 이상징후만 잘 찾아내도록 훈련시킨 컴퓨터에게 맡기면, 의사는 치료에 더 많은 시간을 할애할 수 있다.

루닛의 김효은 수석엔지니어는 “의사들의 기본 업무량도 많고, 그 와중에 봐야 하는 사진도 적지 않다”며 “예를 들어 건강한 사람의 엑스레이 사진과 좀 다른, 놔두면 좀 위험해질 수 있으니 추가로 조직검사 같은 걸 해 봐야겠다 싶은, 그런 사진을 기계가 찾아 알려 주게끔 한다는 것”이라고 설명했다.

김 수석은 "알고리즘을 활용하는 입장에서 구현하는 것도 물론 어려운 일이지만 구현만으로 (비즈니스 성립이) 안 된다"며 "각자 생각하는 비즈니스 영역에 어떻게 적용하느냐가 중요한 이슈”라고 강조했다.

구글 '텐서플로(TensorFlow)'나 삼성전자 '벨레스(Veles)'같은 오픈소스 툴의 공개로 머신러닝에 대한 타분야 현업 개발자 또는 아마추어 프로그래머들의 접근 문턱은 크게 낮춰졌다. 특히 구글 같은 기업체에서 공유하는 오픈소스 머신러닝 기술은 상세한 문서를 제공해 ‘맨땅에 헤딩’하는 수고를 줄여준다.

다만 툴을 갖추는 건 최소한의 기초 단계일 뿐이다. 구글, 페이스북, 네이버 등이 하듯 머신러닝을 본격 활용하려면 문제를 해결하고자 하는 영역에 대한 '전문지식(domain knowledge)'도 함께 필요하다.

머신러닝 관련 페이스북그룹 운영자 이동윤 씨는 "기초적인 진입 장벽은 많이 낮아졌지만, 다음 단계는 기존 문제와 툴을 자기 비즈니스에 맞춰 데이터를 변형해 활용하는 것으로 머신러닝 기법에 종속적인 전문지식이 필요하다"며 "툴은 머신러닝의 특정 기법에도 종속적인 특징이 있어, 어떤 머신러닝 기법을 지원하는 툴을 쓰느냐에 따라 문제 해결 관점이 좌우되기도 한다"고 설명했다.

이런 가운데 ‘머신러닝 기술 사업’은 유망할까. 미국과 영국 등지의 스타트업 가운데 머신러닝 기술 개발에 매달리는 회사도 더러 있다. 그중 몇몇이 구글, 애플 같은 공룡에게 높은 가격에 인수됐다.

대부분의 스타트업은 머신러닝 자체를 연구하기보다, 머신러닝을 활용한 새로운 비즈니스를 꿈꾼다. 머신러닝 자체를 만들기보다 머신러닝을 얼마나 잘 활용하느냐가 성공을 가를 것이란 예측이 가능하다.

구글이나 MS 같은 기업이 내놓은 머신러닝 기술은 실제 그들의 서비스에서 사용되면서 검증된 것이다. 탄탄한 바탕을 고생을 줄이면서 바로 활용할 수 있다는 건 많은 이점을 준다.

루닛의 김효은 수석 엔지니어는 “구글에서 공개한 기술은 일반인도 관심갖고 공부하면 쉽게 쓸 수 있게 하는 것”이라며 “과거엔 전문가만 할 수 있었던 것이었고, 학계에서 벽을 조금씩 낮춰주던 것을 대기업이 완성도 높여 풀어주니까 장벽을 더 낮춰준다”고 설명했다.

같은 회사의 황상흠 수석엔지니어는 “텐서플로 이전에도 머신러닝 관련 툴이 여러 개였고. 진입장벽이 낮아져 있었다”며 “이미 공개된 데이터가 많으니, API 이용해서 쉽게 어느정도 레벨을 구현할 수 있고, 개인화 서비스나 독보적인 앱 개발을 목표로 하는 회사 입장에서 시간을 줄일 수 있어 좋은 기회라 본다”고 말했다.

머신러닝은 누군가 독점하는 플랫폼이 아니다. 능력만 된다면 누구나 쓸 수 있다. 플랫폼이 아니니 종속될 걱정도 없다. 그냥 거인의 어깨에 올라타면 된다.

끝.

------------------------------------------------------------

[글 싣는 순서]

①머신러닝, 이러다 미신러닝 될라

②머신러닝, 못 한다고 전해라

관련기사

③머신러닝은 툴이다

------------------------------------------------------------

김우용, 임민철, 임유경 기자yong2@zdnet.co.kr