中 알리바바, 음성인식 정확도 96% 넘는 신기술 발표

음성인식 新 모델 발표...전자제품 등 적용 기대

인터넷입력 :2018/06/11 08:38

전 세계적으로 널리 쓰이는 인공지능(AI) 음성인식 기술이 새로운 모델을 접목해 정확도를 높일 수 있을 전망이다.

중국 알리바바그룹의 다모아카데미 기계지능연구실이 차세대 음성인식 모델 'DFSMN(Deep Feedforward Sequence Memory Network)'을 발표했다. 전 세계 언어 인식 및 식별 정확도를 96.04%까지 끌어올렸다는 것이 알리바바측의 설명이다. 이 정확도 수치는 기존 세계 최대 무료 음성인식 데이터베이스인 '리브리스피치(LibriSpeech)' 테스트를 근거로 도출된 것이다.

다모아카데미 기계지능연구실의 음성인식 연구진이 일종의 딥러닝 알고리즘으로서 이 새 모델의 연구개발을 주도했다. 동시에 전 세계 기업과 개인 개발자에 공표했다.

알리바바는 이 모델이 기존에 업계에서 가장 널리 사용해온 LSTM( Long Short-Term Memory) 모형과 달리 훈련 속도가 더 빠르고 인식 정확도가 더 높다고 설명했다. 완전히 새로운 DFSMN 모형을 스마트 음향 혹은 가전 설비에 적용할 경우 기존 기술에 비해 딥러닝 훈련 속도는 3배, 음성인식 속도는 2배 향상된다고 부연했다.

알리바바 다모아카데미 (사진=알리바바)

최근 알리바바가 개최한 '윈시대회' 우한 포럼에서 DFSMN 음성인식 모형의 'AI 계산원'이 실제 인간과 겨룬 결과 복잡한 환경에서 음성 주문에 빠르게 대처해 놀라움을 안긴 바 있다. 시연에서 AI 계산원은 49초 내에 34잔의 커피에 대한 주문 처리를 완료했다. 이 음성인식 기술을 적용한 자동 집표기기는 상하이 지하철에 이미 적용됐다.

관련기사

중국의 유명 음성인식 전문가인 시베이공업대 셰레이 교수는 "알리바바가 이번에 개발한 DFSMN 모형은 음성인식 정확도 측면에서 돌파구적 성과를 이뤘다"며 "최근 수 년간 딥러닝이 음성인식 영역에서 이룬 대표적인 성과"라고 평가했다. 알리바바의 새 모형이 글로벌 학술계와 기술 전문가들 사이에서도 큰 영향을 미칠 것으로 내다봤다.

DFSMN 모형이 LSTM의 뒤를 이어 글로벌 음성인식 영역의 주요 식별 모델로 자리잡을 것이란 기대다.