혼자 바둑 정복한 알파고 제로, 왜 대단한가

구글 알파고가 지난 해 던진 충격은 꽤 컸다. 가장 복잡한 두뇌게임인 바둑 최강 이세돌 9단을 완벽하게 제압한 때문이다. ‘알파고 쇼크’ 이후 우리 사회는 4차 산업혁명과 인공지능(AI)에 대해 많은 관심을 보였다.

당시 알파고는 강화학습을 통해 실력을 배양했다. 정책망과 가치망이란 두 신경망에다 강화학습을 결합해 최적의 승률을 계산해내는 방식이었다.

학습의 바탕이 된 것은 방대한 인간의 기보와 바둑의 기본 원리였다. ‘젖히면 뻗는다’ 같은 바둑 격언도 알파고 학습의 중요한 출발점이 됐다.

구글 알파고는 방대한 자료를 기반으로 최적의 위치를 찾아내는 방식으로 인간 최고수를 꺾었다.

여기까지만 해도 굉장히 놀라운 성과였다. 그런데 1년 반만에 한 발 더 나갔다. 이번엔 아예 백지 상태에서 수많은 강화학습을 통해 바둑을 스스로 터득했다.

구글 딥마인드가 18일(현지시간) 세계적인 과학잡지 ‘네이처’를 통해 발표한 ‘인간 지식 없이 바둑 정복하기(Mastering the game of Go without human knowledge)’가 놀라운 건 바로 그 때문이다.

■ 혼자 바둑두면서 익혀…사흘만에 기존 알파고 수준 넘어

딥마인드는 새로운 알파고에 ’알파고 제로’란 명칭을 붙였다. ‘완전히 맨 바탕에서 시작했다’는 점을 강조한 것이다. (참고로 판후이 2단과 대국했던 알파고는 알파고 판, 이세돌 9단과 대결한 건 알파고 리, 그리고 커제 등과 대국했던 건 알파고 마스터로 불린다.)

논문에 따르면 알파고 제로는 72시간 만에 알파고 리를 넘어섰다. 그리고 4개월 훈련 끝에 알파고 마스터도 제압했다. 2시간으로 시간 제한을 한 바둑 게임에서 89승 11패를 기록했다.

물론 핵심은 학습 속도가 아니다. 기존 기보나 이론을 공부하지 않은 채 혼자 바둑을 두면서 실력을 배양했다는 점이다. 여러 수를 둔 뒤 강화학습을 통해 최적의 규칙과 수를 익혀나간 것이다. 딥마인드 측이 이번 알파고에 ‘제로’란 닉네임을 붙인 건 그 때문이다.

그렇다면 이게 왜 중요한 걸까? 미국 디지털문화 전문 매체 와이어드가 이 부분을 정확하게 짚었다.

와이어드는 “기존 AI는 인간이 이미 잘 할 수 있는 것들을 자동화하는 수준이었다”는 말로 정리했다. 방대한 데이터 분석과 강화학습 등을 통해 ‘인간의 지혜’를 배우는 데 초점을 맞췄다는 것이다.

판후이, 이세돌 등과 대결했던 알파고에 정책망과 가치망이란 두 가지 신경망이 사용됐던 건 이런 이유 때문이다. 정책망을 통해 최적의 수를 찾은 뒤 가치망에선 승률을 계산한 것. 이런 방식으로 최적의 바둑 수를 도출해냈다.

■ 인간 전문가 지식 없는 영역도 정복 가능성 보여

이것만으로도 굉장한 성과다. 하지만 이런 접근 방식엔 두 가지 한계가 존재한다고 와이어드가 지적했다.

첫째. 인간 전문가가 존재하는 영역에서만 능력을 발휘할 수 있다.

둘째. 인간이 고려하지 않는 일은 할 수 없다.

알파고 제로가 아예 인간을 배제한 채 학습을 한 건 이런 한계를 넘어서려는 시도였다. 딥마인드 논문에 따르면 알파고 제로는 스스로 학습을 통해 알파고 리 뿐 아니라 알파고 마스터를 완벽하게 제압하는 데 성공했다.

기존 알파고의 두 가지 한계를 넘어서는 데 성공한 셈이다. 그것도 불과 사흘 만에.

물론 사흘 간의 훈련 과정은 엄청났다. 총 500만 회 정도의 대국을 소화했다. 그 과정을 통해 바둑을 전혀 모르던 알파고는 바둑 최고수까지 수련하는 데 성공했다고 딥마인드 측은 논문을 통해 밝혔다.

알파고 제로 프로그램 책임자인 데이비드 실버는 “인간의 데이터와 경험을 이용하지 않음으로써 인간 지식의 한계까지 넘어서는 데 성공했다”고 의미 부여했다.

그는 또 ‘알파고 제로는 첫 원칙을 통해 지식을 만들어낼 수도 있다”고 강조했다.

그렇다면 우리는 ‘전지전능한 인공지능’을 만나게 되는 걸까? 혼자서 학습한 뒤 인간 최고수들을 가볍게 뛰어넘는 AI 파워를 매일 목격하는 걸까?

최근 개봉된 ‘블레이드 러너 2049’ 같은 공상과학(SF) 영화의 공포에 익숙한 사람들은 충분히 제기함직한 걱정거리다.

관련기사