AI는 어떻게 심리싸움 '뻥카'까지 알았을까

카네기멜론대 리브라투스 "전략적 추론으로 해결"

컴퓨팅입력 :2017/02/02 14:53    수정: 2017/02/02 15:32

손경호 기자

체스, 퀴즈쇼, 바둑 뿐만 아니었다. 상대방 심리까지 고려해 베팅을 해야하는 포커 게임에서도 인공지능(AI)이 사람을 넘어설 수 있다는 사실이 증명됐다.

미국 카네기멜론대가 지난달 11일부터 20일 간 피츠버그 소재 리버스 카지노 호텔에서 개최한 '뇌 vs 인공지능(Brains Vs. Artificial Intelligence)' 대결에서 이 대학 연구팀이 개발한 AI 알고리즘인 '리브라투스(Libratus)'가 무제한 텍사스 홀덤 포커라는 종목에서 4명의 프로 포커 선수들을 제치고 최종 우승을 차지했다.

카네기멜론대는 2015년 처음으로 '클라우디코(Cloudico)'라는 AI와 프로 선수들 간 포커 대결을 치렀지만 당시에는 인간의 벽을 넘지 못했다.

AI가 블러핑까지 시도면서 프로 선수들과 경기에서 승리했다.

그 뒤 두번째 이뤄진 재대결에서는 AI가 인간에게 승리하게 된 것이다.

■AI는 어떻게 포커게임 벽 넘었을까

포커는 정보가 제한된 상황에서 상대방의 패를 예상해야 하며, 때에 따라서는 좋지 않은 패를 가졌는데도 마치 좋은 패를 쥐고 있는 것처럼 베팅해 상대방을 속이는 블러핑(일명 뻥카)도 필요하다. 때문에 게임 참여자들의 심리상태가 어떨지에 대해서까지 고려해야한다.

텍사스 홀덤은 미국, 유럽 등에서 우리나라 화투와 견줄 정도로 대중적인 게임으로 월드시리즈포커, 월드포커투어 등 글로벌 대회에서도 공식 종목으로 채택됐다. 이중 무제한 텍사스 홀덤은 전통 포커게임의 룰을 따르되 아무 때나 베팅을 할 수 있다는 점이 특징이다.

우리나라에서 가장 많이 즐기는 세븐 포커와 비슷하지만 개인카드 2장과 공유카드 5장으로 구성돼 이들을 조합한 5장으로 승부를 본다는 점이 다르다.

게임 참여자들에게는 각각 두 장의 카드가 주어진다. 다음으로 딜러가 3장의 카드 앞면을 가운데에 놓고 베팅을 시작한다. 다음으로 한 장의 카드 앞면을 추가로 공개하고, 베팅한다. 마지막으로 다른 한 장 카드 앞면을 공개한 뒤 마지막으로 베팅을 한다. 가운데 공개된 5장의 카드와 자신이 가진 2장의 카드를 조합해 가장 좋은 패를 가진 사람이 승리하게 된다.

기보가 있고, 룰에 따라 어느 정도 다음 수를 좁혀볼 수 있는 체스, 바둑 등과 달리 텍사스 홀덤과 같은 포커게임은 카드가 공개될 때마다 상대방의 심리상태까지 고려해 제한된 정보 안에서 판을 읽을 수 있어야 한다. 불완전한 정보를 갖고 게임을 벌이는 만큼 AI가 단순히 연산능력만 뛰어나다고 해서 블러핑이 넘치는 이 게임에서 이기기는 힘들다는 뜻이다.

리브라투스는 무제한 텍사스 홀덤 포커 속에서 10의 160제곱에 달하는 경우의 수를 처리할 수 있는 전략적 추론, 연산능력을 갖췄다. 이를 뒷받침하기 위해 미국 피츠버그 슈퍼컴퓨팅센터의 브릿지 컴퓨터가 동원했다. 브릿지가 보유한 846개 컴퓨트 노드 중 600여개를 사용됐다. 여기서 얻는 컴퓨팅 파워는 초당 1.35 페타플롭스 속도를 낸다. 최고 사양 노트북과 비교해 7천250배 빠르다. 메모리 용량은 274테라바이트에 달한다.

그러나 이러한 컴퓨팅 파워를 갖추고 있다는 사실만으로 프로 선수들의 블러핑에 대응하고, 반대로 이들을 상대로 블러핑을 직접 할 수 있는 것은 아니다.

이 AI는 상대방의 심리를 읽어낸다기보다는 매일 자신이 치렀던 게임 중 상대방 선수들이 치고 들어왔던 자신이 가진 취약점을 분석해 보완하는 작업을 거친다. 때문에 게임에 참여한 프로 포커 선수들은 처음 며칠 동안에는 리브라투스를 공략할만한 취약점이 있었지만 서서히 사라지기 시작했다고 한다.

리브라투스는 인공신경망을 쓰지 않는 대신 강화학습을 활용했다. 이를 통해 스스로 포커게임을 반복하면서 시행착오를 겪는 방법으로 게임능력을 향상시킨다.

구글 딥마인드가 개발한 알파고도 초기에 강화학습 방법을 썼다.

이세돌과 바둑대국에 앞서 수많은 인간들 간 경기를 학습해 3천만여개 바둑돌의 움직임을 분석했다. 이를 바탕으로 수를 읽는 능력을 강화해왔다.

반면 리브라투스는 이러한 사전 학습 과정을 거치지 않았다는 점에서 놀랍다. 실전경기에서 오는 정보들만으로 상황을 판단하는 것이다.

■매일 복기해서 취약점 보완, 상대 속이는 블러핑까지 시도

리브라투스와 대결을 펼친 4명의 포커선수들은 한인 2세인 김동규씨와 함께 지미추, 다니엘 매컬레이, 제이슨 레스 등이다. 리브라투스는 이들과 대결에서 모든 카드에 대한 정보가 입력되지 않았고, 마치 좋은 패가 있는 것처럼 상대방을 속이는 블러핑 등에 대해서도 판단해서 의사결정을 내려야만 했다.

IT매체 더버지에 따르면 리브라투스는 실제로 블러핑도 잘 하는 편이었다. 이들 간 경기 중 하나에서 AI는 다이아몬드10, 하트 10 카드를 쥐고 있는 상태로 게임을 시작했다. 바닥에 공개된 카드는 킹과 9, 4로 이 중 두 장이 클로버였다. 그 뒤 베팅이 이어졌다. AI는 마치 플러시를 완성하려는 듯이 세번째 클로버 카드를 찾는 것처럼 보였다. 그러나 추가로 공개된 카드는 클로버가 아니었다. 마지막 공개된 카드에도 클로버가 없었는데도 AI는 갖고 있는 모든 칩을 걸면서 공격적으로 베팅했다.

레스와 함께 게임에 참여한 김동규씨는 손에 클로버 7, 3을 쥐고 있었다. 이 말은 AI가 플러시를 할 것처럼 다른 게임 참가자들에게 블러핑을 시도했다는 의미다. AI는 처음부터 10 페어만 갖고 있었다.

리브라투스를 고안해 낸 것은 카네기맬론대 컴퓨터사이언스 전공 투오마스 샌드홀름 교수와 같은 과에서 박사과정을 밟고 있는 노암 브라운이다.

두 사람에 따르면 리브라투스의 포커대결 승리는 그저 운이 작용한 것이 아니다.

샌드홀름은 "최고 AI가 정보가 부족한 상황에서 전략적인 추론을 통해 최고 수준의 인간 포커선수들을 넘어선 것"이라고 말했다.

샌드홀름 교수는 "매일 경기가 끝난 뒤 리브라투스에 탑재된 메타알고리즘이 상대방 선수들이 어떤 취약점을 확인해서 활용했는지 분석한다"고 설명했다.

그 다음으로는 "매일 밤 슈퍼컴퓨터를 활용해 선수들이 사용한 취약점들에 우선 순위를 매긴 뒤 이들 중 톱3를 선정해 알고리즘에 패치를 한다"고 덧붙였다.

"일반적으로 연구원들이 상대방의 취약점을 공략할 수 있는 알고리즘을 개발하는 반면 우리는 우리의 전략 중 취약한 부분을 알고리즘적으로 수정해 매일 개선해나갔다"는 설명이다.

관련기사

카네키멜론대 컴퓨터사이언스과 프랭크 페닝 학장에 따르면 이러한 전략은 포커게임에서 뿐만 아니라 비즈니스협상, 군사전략, 사이버보안, 의학적치료 등 분야에서도 활용할 수 있다. 정보가 완벽하게 주어지지 않은 상황에서 잘못된 정보를 걸러내고 적절한 전략을 자동으로 수정해 나가면서 결정할 수 있기 때문이다.

카네기맬론대는 2007년 IBM 왓슨이 미국 유명 퀴즈쇼 제퍼디에 출연해 다른 참가자들과 경쟁을 벌일 때, 1997년 IBM 딥블루가 세계 체스 챔피언 게리 카스파로프와 대결을 펼 때도 개발을 지원했었다.