[기고] 제3의 AI 물결에 올라타야 할 때

민선 애피어 최고 AI 과학자

인공지능(AI) 기술의 발전이 아주 흥미로운 지점에 접어들면서 제3의 AI 물결이 밀려들고 있다. 기계가 여러 응용 분야에서 인간의 능력을 뛰어넘으며 다양한 사업 기회를 창출하고 있는 것이다.

기업이 이 기회를 놓치지 않고 최대한 활용하려면 사업 운영 방식을 재점검하고 모든 업무의 중심에 AI를 전진배치해야 한다.

■ 이미 일어난 물결: AI가 바꾸는 사업 방식

제1의 AI 물결은 통계 기반 시스템으로 시작됐다. 가장 잘 알려진 초기 AI 사용 방법은 구글 같은 대형 인터넷 기업이 사용한 정보 검색 알고리즘일 것이다. 페이지랭크 검색 엔진을 생각해 보면 된다.

제2의 물결은 로지스틱 회귀, 서포트 벡터 머신 등 머신 러닝 기술에서 비롯됐다. 이런 기술은 뱅킹과 디지털 마케팅 도구 등 온갖 사업에서 사용된다.

제3의 물결은 이른바 지각 AI(perception AI)에서 그 사용이 명확하게 드러나는 딥러닝이다. 이 기술은 시각, 청각, 촉각 등 인간의 지각 시스템과 관련이 있다. 음성 인식과 이미지 인식을 생각해 보라. 이런 기술 덕분에 스마트 스피커는 우리의 말을 알아듣고, 이메일 프로그램은 우리가 다음에 쓰려는 글을 예측하며, 휴대폰은 얼굴 인식으로 잠금을 해제한다. 디지털 마케팅 및 광고 도구에서는 고객 행동을 예측하는 데 사용되며, 그밖에도 다양한 사용 사례가 존재한다.

최근 5년 새 발생한 제3의 물결은 이들 분야에서 인간의 역량을 한참 뛰어넘었다.

이런 기술이 실제 제품에 얼마나 잘 적용돼 있는지는 경우에 따라 다르다. 예를 들어 스마트 스피커는 마이크에 대고 크게 말하는 등의 완벽한 조건 하에서는 음성을 아주 잘 인식하지만, 같은 방에서 여러 사람이 말하는 경우가 일반적인 실생활에서는 그만한 인식률을 보여주지 못한다. 얼굴 인식도 마찬가지다. 휴대폰을 똑바로 쳐다보는 경우 인식이 잘 되겠지만 공공 장소의 감시 카메라처럼 뚜렷하지 않은 군중의 얼굴을 마주하는 경우는 인식 정확도가 떨어지게 된다.

사물 인식도 그렇다. 첨단 운전 지원 시스템을 갖춘 자동차는 이제 다른 자동차나 보행자를 훌륭하게 식별한다. 그러나 그 정확도는 날씨 조건에 따라 달라진다. 비가 오거나, 너무 어둡거나 밝은 경우 정확도가 떨어질 수 있다.

컵, TV 리모컨, 의자 등 집 안에 일상적으로 널려 있는 사물은 인식하기가 더 어렵다. 우리가 집안일을 돕는 로봇을 두고 있지 않은 이유다. 적어도 아직은 그렇다.

■ 고품질 데이터의 중요성

딥러닝 시스템은 데이터를 통해 향상된다. 고품질 데이터를 많이 주입할수록 시스템의 성능도 좋아진다. 단순한 공식이다. 데이터가 많으면 성능이 높아진다. 그러나 이 데이터는 최대한 고품질이어야 한다.

고품질 데이터를 얻으려면 훈련 데이터를 최대한 실제 사용과 가깝게 만들어야 한다. 데이터를 획득하는 가장 좋은 방법은 제품을 고객에게 사용하게 하고 고객의 동의 하에 일상적인 제품 사용 데이터를 수집하는 것이다. 그러면 사람들이 제품을 사용하는 바로 그 환경에서 훈련 데이터를 얻을 수 있다.

테슬라가 아주 좋은 예다. 테슬라 전기차를 이용하는 고객 기반은 아주 두터우면서 충성도가 높기 때문에 테슬라는 막대한 데이터를 수집해서 딥러닝 모델을 다시 훈련하는 데 사용할 수 있다. 그런 다음 OTA(over-the-air) 방식을 통해 이 정보로 차량 내 소프트웨어를 끊임없이 업데이트한다. 더 많은 데이터를 수집할수록 모델의 정확도가 높아지고 고객에게 보다 뛰어난 서비스를 제공할 수 있게 된다. 이런 식으로 테슬라는 딥러닝을 활용함으로써 지속적으로 더 안전한 주행 환경을 만들고, 제품을 개선하고, 고객 기반을 늘려 나가는 선순환의 고리를 만들어냈다.

물론 그 반대 역시 참이다. 제품을 적게 판매할수록 수집하는 데이터도 적어지고 모델 정확도의 향상도 느려진다. 이에 따라 제품의 매력도 줄어든다. 닭이 먼저냐 달걀이 먼저냐와 같은 문제다. 사람들이 로봇을 많이 구매하지 않기 때문에 소비자용 로봇은 전기차처럼 빠르게 성장하지 못하고 있다. 수집된 데이터는 대체로 실제 사용이 아니라 가상의 활용에서 비롯된 것들이다. 초기 고객 기반이 없으면 충분한 양의 실제 데이터를 얻을 수 없다. 이 경우 딥러닝은 제품 또는 서비스 개선에 도움이 되지 않을 우려가 있다.

지난 5년 동안 많은 응용 분야에서 딥 러닝을 활용하려는 시도가 있었지만 상당수가 실패했다. 이 닭과 달걀의 문제를 해결하지 못했기 때문이다. AI만으로는 부족하다. 고객을 사로잡으려면 AI에 부가되는 요소가 있어야 한다. 그렇지만 궁극적으로 장기적 이득을 가져다주는 것은 AI다. 제대로 활용만 한다면 제품의 품질이 향상되고 고객 기반이 성장한다. 이를 반복하여 업계에서 독점적인 지위를 확보할 수 있다.

■ 채택을 막는 장벽과 딥 러닝으로 이를 극복하는 방법

제3의 AI 물결에는 몇 가지 장애물이 있다.

첫 번째 장벽은 데이터 수집 비용이다. 과거 데이터는 인간이 적절한 입력과 출력을 부여하는 등의 '지도' 과정을 거쳐야 했다. 예를 들어 자동차 조기 경고 시스템을 만든다고 하면 자동차가 무엇인지, 보행자가 무엇인지, 자전거는 또 무엇인지, 정지 신호는 무엇인지 등을 표시, 즉 라벨링을 해야 했다. 이런 라벨링 작업에는 많은 비용이 든다. 적용하려는 시장 규모가 라벨링 비용을 충당할 정도로 크지 않은 경우 비용 측면에서 딥러닝의 효율이 떨어지게 된다.

좋은 소식은 딥 러닝이 발전해서 이제 '비지도' 학습이 가능해졌다는 것이다. 이제 데이터를 수집하기만 하면 라벨링 작업은 생략해도 된다. 기계가 스스로 파악하기 때문이다. 비지도 학습으로 지도 학습과 동일한 성과를 낼 수 있다면 고객 기반이 충분하고 원 데이터를 확보한다는 전제 하에 AI를 활용해서 성과를 한층 더 끌어올릴 수 있다. 동일한 성과를 내면서도 막대한 라벨링 작업 예산이 절약되기 때문에 수익성은 훨씬 좋아진다. 또한 진입 장벽이 낮아지기 때문에 갈수록 많은 응용 분야에서 딥러닝을 활용할 수 있다.

수집이 까다롭고 큰 비용을 초래하는 특정 데이터 유형이 있다. 의료 및 헬스케어 부문에서 의학적 스캔으로 획득한 CT/MRI 이미지 등이 그렇다. 이 때는 '전이학습(transfer learning)'이란 기법이 도움이 된다. 엑스레이 등 보다 획득이 쉬운 다른 데이터 유형으로부터 지식을 이전해 원하는 데이터 부문에 적용하는 방식이다. 이를 통해 비용 문제를 해소할 수 있다.

인적 관련 요소는 어떨까? AI 인재 부족도 채택에 장애가 될 수 있지만 머지않아 이 문제는 해소될 것으로 보인다. AI는 인기 기술이기 때문에 기존 AI 기술을 적용하는 부문에서 전문가가 부족하지는 않을 것이다. 실제 문제는 경영진과 더 큰 관련이 있다.