IBM 인공지능 왓슨의 8번째 언어는 한국어

중국어·독일어보다 먼저 배워

컴퓨팅입력 :2016/05/09 18:07    수정: 2016/05/09 18:20

송주영 기자

IBM 인공지능 왓슨이 내년 초부터는 한국어를 구사하게 됐다. 한국어는 왓슨이 습득할 전 세계 언어 중 8번째다. 왓슨의 한국어 습득은 독일어, 중국어보다 빠르다. 왓슨은 현재 영어, 프랑스어, 이탈리아어, 스페인어, 브라질어, 일본어, 아랍어 등 7개 언어를 지원하고 있다.

9일 SK주식회사 C&C와 한국IBM은 공동으로 보도자료를 내고 IBM 왓슨 코그너티브 서비스 분야에서 협력할 계획이라고 밝혔다. SK주식회사 C&C는 왓슨 인공지능 기술 지원과 마케팅 등에서 IBM과 협력하며 국내 인공지능 생태계 조성에 나설 계획이다.

양사 로드맵에 따르면 왓슨 국내 서비스를 위한 API 한국어 지원 서비스 개발 작업이 올해 시작된다. 내년 초부터 왓슨 한국어 서비스가 본격화될 예정이다.

왓슨 영어 문장 구문을 한글 토큰화로 구현하는 과정을 설명하는 모습

양사는 이번 제휴를 통해 태블릿, 스마트폰, 스마트 기기뿐 만 아니라 로봇 등 다양한 형태로 코그너티브 컴퓨팅 기술을 확대할 방침이다.

왓슨이 SK주식회사 C&C와 협력해 한국어 서비스를 하게 된 것은 우리나라 인공지능 산업에도 의미가 있다. 산업군별 인공지능 노하우를 오랜 기간 학습한 왓슨이 국내에도 적용될 가능성이 열렸기 때문이다.

왓슨 인공지능 기술은 의료분야 암진단, 유통 상품추천, 금융분야 재무정보 요약까지 전 세계적으로 다양한 업종에서 활용돼왔다. IT 선도기업들이 다양한 인공지능 컴퓨팅 기술을 선보였지만 왓슨처럼 산업군별로 업무 지식을 다양하게 학습해온 컴퓨터는 많지 않다.

국내에서도 인공지능 기술에 대한 관심으로 왓슨을 활용한 해외 서비스를 벤치마킹하려는 움직임이 있었지만 한국어가 지원되지 않아 적용하는데 걸림돌로 지적돼 왔다. 한 기업 IT부서 관계자는 “우리나라는 언어 때문에 인공지능 기술 적용이 힘든 국가”라고 말하기도 했다.

왓슨이 한국어를 배운 곳은 일본 도쿄 IBM 연구소다. IBM 연구진은 지난 5년여에 걸쳐 왓슨의 한국어 이해능력을 높일 수 있도록 연구개발을 해왔다.

IBM 왓슨이 제퍼디쇼에 참가해 퀴즈를 푸는 모습

왓슨에게 한국어를 가르친 IBM 연구소 에이브 이티체리아 연구원은 “한국어는 세상에서 컴퓨터가 배우가 가장 어려운 언어”라고 설명했다. 한국어는 복잡한 문장구조, 구문, 동사 활용으로 영어가 모국어인 사람들에게 가장 배우기 어려운 언어로 꼽힌다.

특히 한국어는 다른 언어와 마찬가지로 사람들의 일상대화를 완전히 이해해야만 의사소통이 가능한 독특한 관용구들을 많이 보유하고 있다.

왓슨이 언어를 배우려면 일단 글로 된 언어를 가져와서 의미 있는 단어로 세분화하는 ‘토큰화’ 과정을 거치게 된다. 이후 컴퓨터가 단어들을 쉽게 이해할 수 있도록 이 언어가 실제로 어떻게 쓰이는지 예문을 통해 배우게 된다.

유아들이 단어를 배우는 것처럼 문맥을 통해 단어를 이해하고 꾸준한 학습을 통해 언어 능력을 향상시키는 과정을 거친다.

IBM의 왓슨 비즈니스 글로벌 데이비드 케니 총괄 사장은 “왓슨은 코그너티브 컴퓨팅 분야의 선두주자로 방대한 규모의 데이터를 학습하고, 뜻을 이해하고, 특정 주제에 대해 추론하며, 인간과 자연스럽게 소통한다”며 “이번 전략적 제휴로 더 많은 한국 기업과 개발자들이 코그너티브 서비스를 활용할 수 있게 됐다”고 말했다

관련기사

IBM은 왓슨 한국어 API도 제공할 계획이다. IBM은 지난 2011년 왓슨이 미국 퀴즈쇼 제퍼디쇼에서 우승할 당시 단 한 개의 API를 제공했다. 연초 API 개수는 32개로 늘었다. IBM은 올해 상반기까지 제공하는 왓슨 API 수를 50개로 늘릴 계획이다.

IBM은 왓슨 학습을 위해 구축한 데이터베이스도 함께 제공한다. 한국IBM 소프트웨어사업부 하기정 전무는 지난달 CIO 조찬포럼에서 “고객들의 특정 정보를 사용할 수는 없지만 데이터를 함께 제공하는 왓슨 서비스가 있다”며 “질병, 날씨정보 등 산업군에서 통상적으로 사용하는 정보는 재사용이 가능할 것”이라고 말했다.