네이버, 음성합성 시간 1/10 이상 단축

"구글 '듀플렉스' 같은 서비스 우선순위 낮아"

인터넷입력 :2018/07/04 15:37    수정: 2018/07/04 15:57

얼마 전 구글이 인간과 거의 똑같은 목소리로 미장원이나 식당을 예약하는 인공지능(AI) 비서 소프트웨어 ‘듀플렉스’를 공개해 뜨거운 관심을 모았다.

전화를 받은 상대방이 전혀 눈치 채기 힘들 만큼 AI가 사람의 목소리를 흉내냈기 때문이다. 이에 AI 로봇이 인간을 속여 다른 사람과 이야기 하는 범죄로 악용될 소지가 있다는 지적이 제기되기도 했다. 우려가 커지자 국회에서는 대화형정보처리 시스템 서비스를 제공하는 경우 이를 명확하게 표시하도록 하는 정보통신망법 개정안이 발의됐다.

국내에서 음성인식, 음성합성, 언어처리 기술을 가장 활발히 연구개발하고 있는 네이버는 “구글의 듀플렉스와 같은 서비스를 만들 수 있지만 우선순위가 높지 않다”고 밝혀 이목을 끌었다. 특히 음성합성에 필요한 음성 데이터 분량을 기존 수십 시간에서 4시간까지 줄였다고 알려, 세계 수준의 음성합성 기술에 대한 자신감을 보였다.

■ 검색 포털 DB 활용해 음성 서비스 강화

왼쪽부터 강인호, 한익상, 김재민 리더.

네이버는 4일 강남 D2스타트업팩토리에서 ‘네이버 AI 스마트 스피커에 적용된 음성인식 음성합성 언어처리 기술’이란 주제로 기자 대상 기술 포럼을 열었다. 이 자리에서 네이버 한익상 리더는 음성인식 기술을, 김재민 리더는 음성합성 기술을, 강인호 리더는 언어(자연어)처리 기술을 자세히 소개했다.

이 날 강연에 따르면 네이버는 딥러닝 기술을 이용해 AI 스피커가 사용자들의 목소리를 잘 인식하고, 맥락에 맞는 답변을 하도록 데이터를 모으고 이를 학습시키고 있다. 사용자의 악센트나 음소 조합, 잡음 환경, 마이크 등 다양한 변수들을 고려해 어떤 상황에서도 품질 높은 서비스가 제공되도록 노력하고 있다.

또 네이버는 화자인식 서비스를 올 하반기 출시할 계획이다. 화자의 음성을 듣고 누가 말했는지를 구분해 이에 맞는 결과값을 제공해주는 서비스가 곧 이뤄질 예정이다. 화자에 따라 해당되는 라인의 메시지를 읽어준다든지, 취향에 맞는 음악 추천 서비스들이 가능해진다.

나아가 네이버는 검색 포털 사업자로서 경쟁력을 가진 만큼, 보다 강력한 음성 서비스를 제공한다는 방침이다. 맥락을 파악해 사용자 의도를 잘 파악하고, 최근 사람들이 즐겨찾는 트렌드를 고려해 여기에 딱 맞는 결과값을 제공한다는 그림이다. 예를 들어 사용자가 “시그널 틀어줘”라고 말하면 게임·음악·드라마 등 가운데 사용자가 찾고자 하는 결과를 우선 노출시키는 것이 가능하다는 설명이다. 특히 2천500만건의 지식인 문건도 똑똑한 음성 서비스를 제공하는 데 적극 활용한다는 계획이다.

뿐만 아니라 영화의 경우 사용자가 감독이나 주인공 이름을 기억 못해 “주인공이 드럼 치는 영화 찾아줘”라고만 물어봐도 “위플레쉬”라는 답을 줄 수 있는 서비스를 제공할 예정이다. 이는 AI 스피커와 IPTV 셋톱박스 부문 등에서 협력 중인 LG유플러스 사용자에게 큰 도움을 줄 것으로 회사는 기대하고 있다. 연말 LG유플러스와 TV CF 광고도 계획 중이다.

■ 네이버 음성합성 기술 “세계 최고 수준”

네이버는 음성합성 기술에서도 구글, 아마존 등을 뛰어넘는 수준에 도달했다. 기존에는 음성합성 서비스를 위해서는 40시간에서 100시간까지 텍스트를 음성으로 변환한 데이터가 있어야 했다.

관련기사

가령 연예인 유인나 목소리로 음성합성 서비스를 제공하기 위해서는 유인나가 직접 수십시간 시간을 내서 책을 읽고 이를 녹음한 데이터가 필요 했다. 하지만 네이버는 이 같은 시간을 4시간으로 줄이는 데 성공했다. 추후에는 더 짧은 분량의 데이터만으로도 음성합성이 가능해지도록 한다는 계획이다. 연예인이 아닌 일반 사용자들도 AI 스피커 음성을 바꿀 수 있는 기능도 추후 제공할 구상이다.

한국판 듀플렉스 서비스를 내놓을 계획이 있냐는 질문에 네이버는 “실제 사람처럼 똑같이 만들 수 있지만, 다른 게 풀어야할 게 많아 우선순위가 높지 않은 상태”라고 말했다. 또 윤리적인 문제 해결을 위해 AI 음성일 경우 앞에 이에 대한 고지를 하거나, 음성이 나올 때 음악 등 워터마크를 넣을 계획이라고 설명했다.