듣고 적기도 컴퓨터가 사람 따라잡았다

MS 테스트 에러율 5.1%…인간 전문가와 비슷

컴퓨팅입력 :2017/08/22 11:47    수정: 2017/08/22 14:39

컴퓨터 음성 인식 기술이 또 한 단계 발전했다. 이번엔 대화를 듣고 글자로 옮겨 적을 때 정확도를 측정하는 테스트에서 사람 전문가 팀을 따라잡는 결과를 냈다.

20일(현지시간) 마이크로소프트(MS) 연구소는 블로그를 통해 자사 대화식 음성 인식 기술이 에러율을 5.1%로 낮추는데 성공했다고 밝혔다.

MS 헤일로 속 코타나

테스트는 음성인식 벤치마크 시스템인 스위치보드를 통해 이뤄졌다. 스위치보드는 스포츠, 정치 등 다양한 주제의 전화 통화 녹음을 2천400 건 이상 보유하고 있는 테스트 플랫폼으로, 지난 20여년간 음성 인식 학계에서 성능 평가에 활용돼 왔다.

지난해 10월 MS연구소는 이 테스트에서 단어 에러율 5.9%를 기록했다. 100개의 단어를 들었을 때 6개 정도 오류를 낸 것이다. 이는 구술 기록(트랜스크립션) 전문가 한 사람이 평균적으로 내는 오류와 동일한 수준이다.

MS는 구술 기록 전문가 여럿이 팀을 이뤄 작업하는 수준으로 시스템의 성능을 끌어올리는 것을 다음 목표로 잡았는데 이번에 그 목표를 달성한 것이다.

사람 전문가 팀의 평균 에러율도 5.1%이다.

MS 연구소는 이번 연구는 “음성 인식 시스템의 인공신경망 기반 청음 및 언어 모델을 향상시킨 결과”라고 설명했다.

관련기사

MS는 음성 인식기가 대화 전체를 이용해 사람이 대화할 때 처럼 문맥을 고려하고 다음에 이어질 단어나 문장을 예측할 수 있게 했다.

한편 MS는 음성 인식 기술을 디지털 비서 서비스 코타나, 프리젠테이션 변역기, 코그너티브 서비스 등에 활용하고 있다.