백년전 독립운동가 목소리 어떻게 되살렸나

[인터뷰] 박정석 KT 음성합성&비즈프로젝트 팀장

방송/통신입력 :2019/07/19 10:38    수정: 2020/04/03 19:51

“이갑성 선생님의 음성 한 시간 분량을 확보했다. 정재용 선생의 음성 파일은 10분 분량에 불과했다. 모든 문장을 10분의 데이터로 합성할 수는 없다.”

KBS 3·1운동 100주년 특집 다큐멘터리 ‘그날이 오면’에서 재현한 독립운동가의 육성을 재현한 과정을 두고 박정석 KT 음성합성&AI비즈프로젝트 팀장은 이같이 말했다.

고인의 목소리를 되살리기에는 충분치 않았다는 것이다. 10분의 데이터로 모든 문장을 합성하는데 한계가 있기 때문이다. 최소 30분, 300문장을 확보해야 80% 커버리지 수준으로 음성을 합성할 수 있는데 음성 데이터가 충분치 않았다는 뜻이다.

바꿔 말하면 음성 데이터만 많다면 충분한 수준의 문장을 기계가 같은 목소리로 구사하는 것이 가능하다.

KT가 약 2년간 공들여온 P-TTS 기술을 두고 하는 말이다.

박정석 KT 음성합성&AI비즈프로젝트 팀장

P-TTS 기술이란 특정 인물의 음성 데이터 만으로 똑같은 목소리를 어느 문장으로나 합성해내는 것이다. 예컨대 음성 파일만 주어지면 기존에 발화하지 않은 문장도 특정 인물의 목소리로 말할 수 있는 셈이다.

단순히 기계음처럼 주어진 문자를 읽는 것이 아니라 개인별 발화 패턴이나 억양을 학습해 사람처럼 자연스럽게 말하는 점이 눈에 띄는 부분이다.

성우가 사전에 녹음하지 않아도 음성 데이터 파일만 있다면 인공지능 딥러닝 기술로 음절 간 상관관계를 학습해 어떤 누구의 목소리도 되살릴 수있다는 설명이다.

박정석 팀장은 이같은 과정을 두고 “얼굴이 있는 목소리”라고 표현했다. 얼굴이 없는 목소리는 기술적으로 만들 수 있지만, 누군가의 목소리를 되살리는 점이 중요하다는 뜻이다.

박 팀장은 “딥러닝을 통한 음성합성은 누군지를 알고 그 사람의 목소리를 만들어 낸 것이 기존 음성합성과의 차이점”이라며 “지난 2년간 단계적으로 준비했던 것이고 향후 로드맵 상으로는 연예인에 이어 부모님과 고인(故人)으로 넘어갈 수 있고, 후천적 장애인에게 새로운 목소리를 찾아줄 수도 있다”고 설명했다.

누군가의 목소리를 되살리는 것 외에 유창한 발음으로 교육 용도로 활용하는 등 P-TTS 기술의 예상할 수 있는 범위도 다양하다. 또 공급자가 한명인 기존 1인 방송과 달리 시청자가 한명인, 특정인을 위한 방송 서비스가 만들어질 수도 있다.

관련기사

다만, 이같은 기술이 악용될 수 있는 점도 동시에 경계해야 한다.

박 팀장은 “이런 기술이 보이스피싱과 같은 곳에 쓰일 수도 있다는 점 때문에 모든 문장을 합성하는데 조심스러운 부분이 있다”며 “현재 상용 서비스로 내놓은 것처럼 동화책에서 정해진 발화만 제공하고 있고, 사람은 구분 못하고 기계만 구분할 수 있는 목소리를 막는 것이 숙제”라고 말했다.