머신러닝 만난 지메일…스팸-피싱 99% 걸러낸다

머신러닝을 만난 구글 지메일은 받은 편지함에서 스팸메일과 피싱메일을 99.9% 정확도로 걸러낼 수 있다고 강조한다.

어떤 원리가 쓰였길래 이 같은 성능을 낼 수 있는 것일까?

구글 코리아는 18일 서울 역삼동 사옥에서 'AI 혁신과 더 똑똑해진 지메일'을 주제로 구글AI포럼을 개최했다. 이 자리에서 지메일용 AI 제품 개발팀을 이끌고 있는 폴 램버트 구글 프로덕트 매니저는 화상인터뷰를 통해 크게 3가지 원칙에 따라 머신러닝을 활용해 지메일을 개선하고 있다고 설명했다.

그의 설명에 따르면 구글은 머신러닝을 돌리기 위해 자체 개발한 '구글 텐서 프로세싱 유닛(TPU)'을 활용해 머신러닝 알고리즘을 학습시키는 시간을 대폭 줄이면서도 이를 통해 개발된 서비스를 제공하는 속도를 높인다.

구글AI포럼서 화상인터뷰를 진행 중인 지메일 담당 폴 램버트 구글 프로덕트 매니저.

그런 배경에서 머신러닝을 통해 지메일 내에서 가장 많이 개선된 분야 중 하나가 보안이다.

폴 램버트 매니저는 "앙상블 기법을 활용해 스팸메일과 피싱메일을 99.9% 걸러내고 있다"고 밝혔다.

앙상블 기법은 여러가지 스팸이나 피싱으로 의심되는 메일에 대해 특정한 규칙을 설정해 분류하는 룰 기반 기법에 더해 사전에 스팸/피싱으로 확인된 메일들을 머신러닝 알고리즘에 학습시키는 방법을 추가로 활용한다. 이렇게만 하더라도 92% 가량 불필요하거나 위험한 메일을 걸러낼 수 있다. 여기에 더해 최근 몇 년 새 주목 받고 있는 딥러닝까지 도입하면서 현재와 같은 수준으로 비정상 메일을 필터링할 수 있게 됐다고 그는 설명했다.

여기서 중요한 문제는 중요한 정상 메일을 스팸으로 분류하거나 반대의 경우가 발생할 수 있다는 점이다. 때문에 머신러닝을 활용하는 과정에서 여러가지 특성 중 어떤 특성을 선택해야 할지 등에 대해 상당히 많은 엔지니어링 작업이 필요했다.

공격대상이 아는 사람인 것처럼 사칭해 정보를 빼가는 피싱이나 계정탈취를 노린 공격에 대해 지메일은 3가지 방법으로 보호기능을 갖췄다. 먼저 스팸을 걸러낼 때와 마찬가지로 머신러닝을 통해 악성메일인지 아닌지를 1차로 걸러낸다. 그 뒤에는 내용이 이상하다고 판단될 경우 경고알람을 띄운다. 세번째는 그럼에도 불구하고 해당 메일에 첨부된 악성링크 등을 누르는 경우 지메일은 물론 크롬 브라우저, 구글검색사이트 등에 적용된 세이프브라우징을 통해 웹브라우저 상에서 경고를 표시한다.

램버트 매니저에 따르면 지메일이 99.9% 스팸/피싱메일 필터링을 보장하는 것은 사용자들로부터 확보한 테스트셋과 함께 고객이 받았지만 지메일이 걸러내지 못했던 스팸/피싱메일들에 대한 정보까지 반영하는 방법으로 지속적인 테스트를 통해 필터링 비율을 높이고 있기 때문이다.

영어권 외에도 한국 등 다른 나라에서 구글이 밝힌 기준점을 넘지 못할 경우 성능 개선이 이뤄지도록 노력하고 있다.

지메일팀은 보안에 더해 사용자들이 보다 효율적으로 서비스를 이용할 수 있도록 개선하는 과정에서도 머신러닝을 적극적으로 활용하고 있다.

메일을 내용에 따라 자동으로 분류해주는 스마트레이블이 대표적인 기능이다. 구글이 지메일 사용자들에 대한 설문조사 결과 90%가 이 기능에 만족하고 있는 것으로 집계했다. 이는 받은 편지함 목록을 기본, 소셜, 프로모션, 업데이트 등 주제별로 분류해준다.

램버트 매니저는 "2013년에는 이런 기능을 구현하기 위해 룰 기반과 사용자가 자신의 메일을 분류한 내역을 활용하는 평판 기반 방식이 활용됐으며 2017년부터는 딥러닝 기술인 텐서플로 기반 심층인공신경망까지 활용해 정확도를 높였다"고 밝혔다.

아직 지메일에는 적용되지 않고 인박스에 우선 적용된 자동분류함(Prioity Inbox), 스마트답장(Smart Reply)도 주목할만하다.

자동분류함 역시 머신러닝을 활용해 사용자가 A가 보낸 메일은 항상 열어본다는 등 특성을 확인해 중요메일을 분류하고 이에 대한 알람을 주는 방식이다. "수많은 메일을 일일이 확인해야 하는 불편함을 줄이면서 생산성을 저해시키지 않도록 하기 위한 방안"이라고 그는 설명했다.

스마트답장은 인박스에서 2년째 서비스를 제공 중이며 올해 초에는 모바일 버전에서도 지원하는 기능이다. 말 그대로 이메일에 대한 답장을 자동으로 작성해주는 역할을 한다. 해당 내용은 사용자 확인을 거쳐 전송된다.

이를 위해 지메일팀은 답장이 필요한 메일인지를 우선적으로 확인하고, 딥러닝 기술 중 하나인 장단기기억(LSTM) 재귀신경망(RNN)을 통해 사용자가 받은 이메일에 답장으로 쓸만한 단어, 문장들을 분류해내는 작업을 수행했다.

최근에는 '코나'라는 기술을 추가로 적용해 더 다양한 답변을 만들어 낼 수 있도록 할 계획이다.