美영화평론가 잃어버린 목소리 찾았다

일반입력 :2010/03/05 11:46    수정: 2010/03/05 12:59

이재구 기자

기계음에 의존해 발성하던 사람들이 잃어버린 내 목소리를 찾을 수 있게 됐다.

하지만 조건이 있다. 최소한 15시간 분의 자신의 목소리녹음물이 있어야 한다. 운이 좋으면 4시간정도의 녹음물로도 가능하다 .

교통사고, 또는 갑상선암 수술 등으로 자신의 목소리를 잃은 사람들에게 희소식이 나왔다. 자신이 잃어버린 목소리와 가장 근사한 목소리로 회복시켜 주는 기술이 미국에서 나와 실제로 성공적으로 적용된 사례가 나왔다.

씨넷은 5일(현지시간) 수년전 갑상선 암수술로 목소리를 잃어버려 텍스트투스피치(xrtext-to-speech TTS)방식의 기계음에 의존했던 사람이 자신의 목소리를 되찾은 사례를 소개했다.

■영화평론가 자신의 목소리 찾았다

화제의 주인공은 미국의 유명한 영화평론가인 로저 에버트. 그가 그동안 의존해 왔던 기술은 TTS(xrtext-to-speech )였다.

하지만 TTS SW에서 나는 음성은 너무 로봇의 기계음같았고 컴퓨터화되어 있는 것이었다. 당연히 불만이 있을 수 밖에 없었다.

그는 자신이 갑상선 수술을 받기 전에 가졌던 목소리를 갖길 원했다.

에버트가 찾은 곳은 사람들의 오디오녹음을 해주기로 유명한 영국의 세레프록(CereProc)사.

이 회사는 로저 에버트의 목소리와 가장 근접한 목소리를 내는 사람들의 발성을 짜깁기 해 실제 사람의 목소리와 같은 목소리를 합성해 내는데 성공했다.

완전하고 정확한 목소리의 층을 만들어내기 위해 세레프록사는 사람들을 자사의 녹음실로 불러들여 여러시간동안 특정목소리를 통해 읽도록 하고 이를 녹음했다.

이 목소리는 조심스레 녹음되고 제어돼 최대한 깨끗하고 지속적인 음성으로 만들어졌다.

그러나 영화평론가인 에버트가 보통 사람들과 다른 점은 그가 DVD로 만든 여러영화 필름의 평론을 한 목소리를 갖고 있다는 점이었다.

세레프록사는 오디오에 제한적으로 남아있고 품질도 좋지 않은 에버트의 목소리를 짜깁기하는 수 밖에 없었다.

에버트의 새로운 목소리는 지난 9일 오프라윈프리쇼에 처음 등장했다.

이 영화평론가와 그의 부인 채즈는 오프라와 함께 이야기 했으며 그들의 가정생활을 보여주는 테이프도 등장했다.

수년만에 예전 남편의 목소리를 처음으로 들은 부인은 눈물을 흘리며 그를 향해 미소를 보냈다.

세레프록은 수많은 다양할 악센트,방언,개인적 성향에 따라 다른 목소리를 만들어 팔고 있다.

로저 에버트 같이 스스로 말할 능력을 잃어버린 사람들은 이기술을 말하는데 사용하고 싶어한다. 또 다른 사람들은 영어와 다른 언어를 배우는데 사용한다. 그리고 사라져 가는 지역방언을 채록하는데 사용하고 싶어하는 사람도 있다.

■음성복원의 그 미묘한 과정

이 회사의 엔지니어 크리스는 누군가의 목소리를 만들어냈다. 이 회사의 특별한 기술은 다양한 목소리를 반영하고 재생해 창조할 수 있는 특별한 원고에 있다. 이를 통해 누군가의 목소리를 약 15시간 정도 녹음하고 이후 텍스트와 오디오로 이뤄지는 이 음성 창조과정은 어디서든 가능하다.

로저 에버트는 이 회사가 조지부시의 라디오 연설문과 원고를 바탕으로 조지 부시 목소리를 내는 두상을 만든 것을 보고 자신의 목소리 재생을 요청했다.

크리스 세레 프록 최고엔지니어는 오디오 데이터를 받으면 이를 역전사 방식으로 보내고 나서 이를 매우 잘게 쪼갰다고 설명했다. 그는 자사의 이 기술이 서로 다른 목소리,음소 또는 이를 교묘한 방법으로 짜깁기하는 는 AT&T의 자연적 목소리 기술과 비슷하다고 소개했다.

하지만 AT&T는 이들 모두를 짜깁기하는 것이어서 다른 문맥이나 다른 단어에서는 비슷하게 들리지 않는다.

물론 명백하게도 이제 로저 에버트는 그가 DVD에서 코멘트했던 것과같은 방식으로 자신이 원하는 모든 단어를 발성할 수 있다.

크리스는 이 기술이 사물을 잘게 잘라 이어붙이는 것과 같이 말을 잘게 잘라 짜깁기하는 작업이라고 소개했다. 그는 이작업이 과거에는 매우 시간이 걸렸지만 이제는 자체적으로 만든 자동화 과정을 통해 시간을 절약할 수 있었다고 설명했다.

이 회사는 일단 오디오와 텍스트를 입수해 음성을 모으고 발성이 일어날 수 있도록 해서 자체 알고리듬을 적용한다. 이 회사는 음성별로 50~100개의 모델을 가지고 있다. 따라서 목소리를 잃은 사람들은 수천에서 수백만의 다른 목소리 선택을 할 수 있게 된다.

■재채기·웃음 재현에도 도전

하지만 이 목소리 발성방식에도 단점은 있다. 이 회사는 실제 말하는데서 음성을 따붙여 목소리를 재현해 주기 때문에 정상인처럼 말하다가 웃거나 재채기하는 것은 불가능하다고 말한다.

물론 세레프록은 현재 이 부분에 대해서도 도전하고 있다.

크리스는 로저의 음성을 복원하는데 가장 큰 애로점은 DVD영화평론에 등장한 그의 목소리와 백그라운드 음악 등이 혼합돼 그의 깨끗한 오디오목소리를 확보하기 어려웠다는 점, 그리고 항상 서로 다른 배경음을 갖고 있었다는 점을 꼽았다.

어쨌든 그의 목소리를 확보한 후 연구진은 이를 역으로 복사해 분석하고 재현하기에 이르렀다.

관련기사

이 회사는 누군가의 목소리를 복원하기 위해서는 하루 3시간씩 최소한 15시간정도의 스튜디오 녹음기록이 필요하다고 말했다. 크리스는 로저 에버트의 경우 4시간의 녹음기록이 소요됐다고 말했다.

TTS