구글이 ‘AI’와 ‘보안’ 두 마리 토끼 잡는 법

새로운 기계학습 접근법 ‘연합학습’ 도입

인터넷입력 :2019/08/22 15:06

인공지능(AI) 기술의 발전과 함께 사생활 침해에 대한 우려도 따라 커지고 있다.

스마트폰, AI스피커 등을 이용해 개인의 일상이나 대화를 엿듣고, 진짜 같은 가짜 동영상 ‘딥페이크’가 인터넷에서 공유되며 가짜뉴스를 만들어내기도 한다. AI 기술로 더 편리하고 개인에 최적화된 서비스가 탄생했지만, 반대로 AI 학습에 필요한 데이터가 수집되는 과정에서 개인정보가 유출되고 이를 악용하는 사례도 늘고 있다.

이에 구글은 새로운 기계학습(머신러닝) 접근법 ‘연합학습’을 도입해 사용자의 개인정보를 보호하면서도, AI 기술이 가진 강점을 극대화하는 전략을 취해 주목을 받고 있다.

구글 연합학습 개념도(이미지=구글)

구글코리아는 22일 광화문 프레스센터에서 ‘구글 AI 라운드 테이블’을 열고 구글의 차별화된 AI 학습법과 사생활 보호 정책에 관해 소개했다. 이 자리에는 블레이즈 아게라 이 아카스(Blaise Aguera y Arcas) 구글 디스팅귀시드 사이언티스트가 참석했다.

아카스 사이언티스트에 따르면 기존에는 사업자가 중앙 서버(클라우드)에 사용자 정보를 끌어 모아 이를 기계학습이나 심층학습(딥러닝)을 시켜 발전된 결과물을 도출해 냈다.

반면 연합학습은 모든 학습데이터를 기기에 저장하는 동시에, 휴대전화가 공유 받은 예측 모델을 학습할 수 있도록 한다. 이렇게 변동된 사항은 작은 용량으로 요약되고 암호화 된 뒤 클라우드로 전송된다. 아울러 다른 사용자가 보낸 정보와 합쳐지고 평균화된 공유된 모델이 만들어지면, 다시 개별 디바이스로 전송돼 더 나은 사용자 경험을 제공한다. 이런 작업들은 사용자의 기기가 밤에 충전중이거나, 무료 와이파이에 연결된 상태일 때 이뤄진다.

부연하면 연합학습은 개인 디바이스 내에서 쌓인 데이터를 이용해 기계학습이 이뤄지고, 이를 통해 인공 신경망의 수정과 변경이 이뤄진다. 그러면 구글은 이렇게 달라진 신경만 수치값만 따로 떼어내 압축하고 암호화를 시킨 뒤 중앙 서버로 가져온다. 그리고 다른 디바이스에서 온 암호화된 정보들과 합쳐 결과값이 나오면 이를 다시 개별 디바이스로 뿌려준다.

연합학습과 관련해 구글이 만든 웹툰 중 일부.

블레이즈 아게라 이 아카스 사이언티스트는 “연합학습은 사용자의 각 디바이스를 분산형 컴퓨터로 만드는 것이다. 개인의 학습데이터가 다른 곳으로 직접 옮겨지는 것이 아니기 때문에 누군가 탈취하는 것이 불가능하다”며 “사람이 시험문제를 먼저 보고 답을 외우는 것이 아닌 것처럼, 연합학습은 사용자 데이터를 외우는 게 아닌 어떤 능력(스킬)을 습득하는 방식으로 학습을 한다”고 설명했다.

아카스 사이언티스트는 연합학습을 ‘의사 학회’에 비유, ‘AI 학회’라고 설명했다. 환자의 진료 정보 역시 기밀 정보로서 보호돼야 하지만, 의사들이 오랜 경험으로 쌓은 수술법은 공유될 필요가 있다. 이를 위해 학회가 열리는데, 이 때 의사들은 서로의 수술법을 공유한다. 개인 환자들의 정보를 공유하는 것이 아닌, 수술 방법을 공유함으로써 더 나은 환자 치료법을 찾는 것과 같은 이치다.

아카스 사이언티스트는 “AI를 많은 사람들이 이용할 수 있도록 하고 싶다. 어떤 서비스를 사용하느냐와 무관하게 사용되길 바란다”며 “AI 학습이 중앙 서버가 아닌 디바이스 단에서 이뤄진다면 항시 이용이 가능하고 지연은 거의 제로에 가까워진다. AI가 전체 경험에 적용될 수 있다”고 강조했다.

관련기사

블레이즈 아게라 이 아카스(Blaise Aguera y Arcas) 구글 디스팅귀시드 사이언티스트

구글은 안드로이드에서 구글 키보드인 ‘지보드’를 이용해 연합학습을 테스트해 왔다. 지보드가 검색 쿼리 제안을 보여줄 때 사용자의 휴대전화는 현재 문맥에 대한 정보와 사용자가 해당 제안을 실제로 클릭했는지 여부를 기기에 저장한다. 연합학습은 해당 정보를 기기 내에서 처리해 지보드의 검색 쿼리 제안 모델이 반복될 때 더욱 개선된 쿼리를 제시할 수 있도록 한다. 이 때 역시 사용자가 키보드로 입력한 정보가 구글로 가는 방식이 아니다. 신경망에서 변경된 가중치 값만 전송된다.

구글은 이런 연합학습의 적용범위를 구글 OS를 사용하는 모든 기기로 확장시켜나갈 계획이다. 연합학습 알고리즘을 내재시키는 방식으로 모든 하드웨어에 적용가능하다. 단, 이용자들에게 연합학습 참여 여부를 선택할 수 있도록 한다는 방침이다.