"딥러닝, 신뢰성 보장 아직 문제 많아"

"딥러닝은 기본적으로 데이터 드리븐(데이터에 의존한다는 의미)이고 귀납적 방법입니다. 이 때문에 인공지능(AI)이 리얼 월드(real world, 실세계)를 100% 반영하지는 못합니다"

이지형 성균관대학교 교수는 지능정보산업협회(회장 장홍성)가 주최하고 지디넷코리아가 후원해 14일 열린 'AIIA(AI is anywhere) 4월 조찬 포럼'에서 이 같이 밝히며 딥러닝의 결과를 100% 믿어서는 안된다는 견해를 밝혔다.

'AIIA 조찬 포럼'은 지능정보산업협회가 주최하고 지디넷코리아가 후원해 매달 두번째 주 수요일 열리는 AI전문 포럼이다. 기조 강연을 한 이 교수는 현재 성균관대학교 소프트웨어학과 교수로 성균관대학교 인공지능대학원 총괄 책임과 성균관대학교 지능정보융합원 부원장을 맡고 있다. 그는 '딥러닝이 실세계와 만나면(When deep learning meets the real world)'를 주제로 딥러닝이 가진 불완전성을 설명했다.

흔히 학문하는 두 방법이 귀납법과 연역법이다. 귀납법은 주어진 예증을 일반화해 어떤 결론을 도출한다. 반면 연역법은 일반적 진리에 기반해 결론을 추론한다. AI의 대표 방법 중 하나인 딥러닝은 이중 귀납법을 사용한다.

이 교수는 딥러닝이 에너지, 금융, 헬스케어, 제조, 관리, 자동화 등 안쓰이는 데가 없을 만큼 딥러닝 시대를 맞고 있다면서 "VGG, 구글넷(GoogleNet), 레스넷(ResNet), 덴스넷(Dense Net) 등 여러 딥러닝 구조가 나와 있는데 해마다 모델이 하나씩 나오고 있을 정도"라며 활발한 연구 동향을 소개했다. 이어 개, 고양이를 구분하는 프로그램 같은 것은 연역적 작성이 어려워 귀납적 접근 방법(기계 학습 혹은 딥러닝)을 주로 사용한다면서 "귀납적 방법은 문제풀이에 좋지만 '위험한 방법론'이기도 하다"며 "오늘 그 몇가지 위험성을 말하려 한다"며 말문을 열었다.

딥러닝이 각광을 받게 된 것은 이미지 인식 에러가 사람보다 낮게 된 2014년부터다. 2011년만해도 성능이 가장 좋은 모델의 이미지 인식 오류가 26%였다. 하지만 해마다 성능이 좋아지며 이 비중이 낮아졌고, 급기야 2014년에는 인간을 뛰어넘는 5%를 기록, AI기술 발전의 큰 모멘텀을 제시했다. 2016년에는 이 비율이 3.1%로 떨어졌다. 이 교수는 AI모델이 귀납적 방법론을 취하기 때문에 모델의 정확도를 100% 맹신해서는 안된다고 밝혔다.

"딥러닝이 2011년 이래 놀랄만한 정확성 향상을 보이고 있다. 에러율이 5%로 떨어진 2014년부터는 사람보다 낫다는 극단적 이야기도 한다. 하지만 정확한 AI모델을 만들었다고 해서 그 모델이 과연 쓸만한 모델인가는 다른 이야기"라며 "실험실에서 (AI모델이) 정확도가 높다고 해서 상용화로 바로 쓸 수 있는 건 아니다"고 덧붙였다.

딥러닝이 가진 세가지 문제점을 지적한 그는 AI가 리얼 월드를 그대로 표현하는데 일정 부분 한계가 있다고 지적했다. 이의 첫번째 문제는 데이터 자체에서 발생한다. 트레이닝 데이터와 테스팅 데이터가 다를 때 발생하는 문제로, 트레이닝 데이터를 만들때 일부 데이터만 수집해 학습하기 때문에 두 데이터가 다름에 따라 부정확한 결과가 나올 수 있다. 이 교수는 이를 교과서 비유로 설명했다. "딥러닝 입장에서 보면 트레이닝 데이터는 교과서다. 이것은 개이고 이것은 고양이로 주어져 있다. 그런데 교과서 이외에서 문제를 출제하고 (기계보고) 알아 맞추라 하면 못 맞춘다. 학습 정확도가 100%라 해도 실세계(리얼 월드)에서 100%가 안되는 이유"라고 진단했다. 음성AI에서 트레이닝은 표준어로 하고, 테스트 데이터를 사투리로 하면 문제가 발생할 수 있는 이치와 같다.

이 같은 트레이닝 데이터와 테스팅 데이터 간 괴리는 크게 코베리에이트 쉬프트(Covariate Shift), 라벨 쉬프트(Label Shift), 컨셉 쉬프트(Concept Shift) 등 세 가지로 구분된다. 이중 라벨 쉬프트 문제는 데이터 수집의 쉽고 어려움과 비용 차이에서 발생한다. 또 컨셉 쉬프트 문제는 작년과 올해 교통 상황이 다르듯이 데이터 속성이 달라지는데서 생긴다. 이 교수는 "귀납적이 더 유연하고 문제를 잘 푼다. 하지만 귀납적 방법론은 검증에 굉장히 많은 비용이 들어가 실제 문제가 다 풀릴때까지 비용이 결코 작다고 할 수 없다"고 소개했다.

지능정보산업협회가 주최하고 지디넷코리아가 후원한 4월 AIIA 조찬 포럼이 14일 열렸다.

두번째 문제는 모델 일반화(Model Generalization) 문제다. 데이터에서 생성한 모델이 주어진 데이터를 잘 일반화했는 지, 혹은 주어진 데이터만 잘 암기(학습)하고 그 외의 데이터는 엉뚱한 답을 할 지 알수가 없기 때문에 문제가 발생한다. 이 교수는 "뉴럴 네트워크가 매우 유사한 데이터에 대해서도 같은 답을 보장할까?"라고 의문을 던지며 뉴럴네트워크를 속일 수 있는 기술인 '적대적 공력(adversial attack)'을 소개했다. 사람이 보기에는 유사한 데이터지만 뉴럴네트워크가 서로 다른 답을 하게 되는 데이터를 찾아 내는 기술이다. 이 교수는 "적대적 공격 기술은 매우 간단해 어떤 딥러닝 모델도 이에 자유로울 수 없다"면서 "이를 해결하기 위해 계속 연구중 이지만 아직 속시원한 답이 안 나온 상태"라고 들려줬다.

세번째 문제는 실생활에 적용할 때다. 이 교수는 "데이터를 잘 모았고 또 일반화도 잘됐다고 하자. 그럼 적용때 문제가 없을까?" 물으며 "딥러닝은 잘 모르겠는데요?라는 말을 못한다. 그렇게 훈련을 받지 않았기 때문이다. 개와 고양이를 학습한 모델에 말(馬)을 주면 잘 모르겠는데요 해야 하는데 그러지 못한다"며 딥러닝의 신뢰성 문제를 지적했다. 이와 함께 이 교수는 AI모델의 과도한 확신(over confidence)도 함께 지적했다. 즉, AI가 틀린 출력 결과를 내면서도 과도하게 높은 확신도를 산출하는 경향이 있다는 것이다.