네이버 음란물 필터링 AI 직접 실험해보니

[백기자의 e知톡] "속도 늦지만 처리기술 놀라워"

인터넷입력 :2017/08/02 11:30    수정: 2017/08/03 10:05

네이버가 자체 개발한 음란물 필터링 인공지능(AI) 기술인 ‘네이버 X-eye’(이하 엑스아이)를 이용해 성인 이미지를 실시간으로 감지해 검색 노출을 막아준다는 발표를 했습니다.

사람이 직접 모든 사진을 확인하지 않아도, 컴퓨터가 자동으로 네이버 서비스에 올라오는 성인 이미지를 걸러주는 기술이 적용됐다는 내용이었습니다.

이에 일부 이용자들이 우스갯소리로 “다른 포털을 이동하자”며 아쉽다는 반응을 보이기도 했는데요, 네이버가 엑스아이를 이용해 어떻게 성인 이미지를 판별하고 검색 노출을 막는지 좀 더 알아봤습니다.

또 실제로 성인 이미지를 네이버 블로그에 올려보고, 얼마나 빠르고 정확한 조치가 이뤄지는지 직접 확인해 봤습니다.

■네이버 엑스아이 작동 원리와 방법

네이버 엑스아이

먼저 네이버는 축적된 방대한 이미지를 형태별로 분류해 10개월 동안 엑스아이를 학습시켰습니다.

수영복, 산부인과 광고, 누드화, 성인물과 같은 형태를 나눠 수위의 적정성을 판단하도록 한 것입니다. 누드화 같은 경우 ‘예술’과 ‘외설’의 차이도 구분했을 것으로 보입니다.

또 노출이 심한 사진의 경우 방송통신위원회가 정한 ‘세이프 넷’ 등급 기준에 따라 성인물 여부를 판단한 것으로 알려졌습니다.

이렇게 형태별로 나눈 400만장의 이미지(정상+음란물)를 필터링 하고, 학습하는 과정을 거쳐 현재의 엑스아이가 탄생한 것입니다.

네이버 내부 실험 결과 적중률이 무려 98.1%였다고 합니다. 부족한 1.9% 오류는 앞으로 AI가 학습을 통해 진화해 가면서 극복될 예정이라는 것이 네이버 설명입니다.

방통위 세이프넷 기준

네이버 엑스아이는 네모난 돋보기로 그림을 보듯 사진의 각 부분을 순차적으로 훑어내, 각 특징을 추출합니다. 이렇게 추출된 특징들로 다시 하나의 새로운 레이어를 이루고, 두 번째 레이어에 대해서도 같은 작업을 반복합니다.

네이버 설명에 따르면 이미지 조각으로부터 특징을 추출하는 것을 ‘컨볼루션’이라고 하는데, 이것을 여러 레이어에 걸쳐 반복할수록 딥러닝(분류를 통한 예측)이 이뤄지게 됩니다.

이렇게 만들어진 최종적인 결과물을 기존 학습데이터의 카테고리로 분류한 뒤 음란성 여부를 판독하게 됩니다.

네이버에 따르면 이미지 데이터를 개발자가 하나하나 유형별로 세분화해 학습시키는 것이 성인 이미지 필터링 기술의 핵심입니다.

즉 무수한 사진들을 기반으로 각 유형을 나누고, 또 각 유형에 해당되는 사진들을 분류해 “이 정도의 사진은 괜찮아”, “이런 사진은 안 돼”와 같은 학습량이 많아지면 비로소 완벽에 가까운 음란물 필터링 기술이 완성되는 것입니다.

■네이버 엑스아이, 성인 이미지 잘 걸러낼까

네이버 엑스아이가 청소년유해물로 판단해 노출을 차단한 이미지.

그렇다면 네이버 엑스아이는 얼마나 성인 이미지 필터링 업무를 잘 수행하고 있을까요.

먼저 누구나 사용할 수 있는 무료 이미지 사이트에 들어가 ‘누드’란 단어로 검색해 여성의 상반신이 노출된 사진을 개인 블로그에 전체공개로 올려봤습니다.

일단 업로드는 문제없이 이뤄졌습니다.

이후 네이버 검색창에서 해당 게시물의 제목과 태그를 찾아본 결과 한참동안 검색이 되지 않았습니다.

곧바로 해당 게시물의 주소값(URL)을 복사한 뒤 다른 웹브라우저를 띄워 붙여넣기 했을 때는 누드 이미지가 노출됐습니다.

그리고 약 15분 뒤쯤, 네이버 블로그 검색에서도 해당 게시물이 노출되기 시작했습니다.

네이버 운영진이 보낸 게시물 제한에 대한 안내문.

이에 네이버 측에 블로그에 올린 이미지를 보내 성인물 여부를 물었고, 잠시 후 이 사진이 높은 수준의 성인물에 해당된다는 답변을 듣는 사이 누드 게시물은 비공개로 전환됐습니다.

계산해보니 결과적으로 해당 게시물은 총 30~35분 정도 네이버 블로그에서 전체 공개가 됐습니다. 또 네이버 블로그 검색에서 15~20분쯤 노출된 뒤, 최종 비공개 처리됐습니다.

테스트로 올린 누드 사진이지만 비공개 처리로만 끝나지 않았습니다.

네이버 운영자로부터 “깨끗한 인터넷 문화를 위해 노력해 주세요”라는 주의 문구를 받았고, 이를 약속하는 문구를 적고 나서야 다시 정상적인 블로그 이용이 가능했습니다.

또 같은 문제를 일으킬 경우 30일 간 블로그 서비스 글쓰기가 제한된다는 안내도 받았습니다.

■엑스아이, 전 날 거른 이미지 학습했을까

다음 날 또 한 번의 테스트를 진행했습니다.

일단 전날 제재를 받은 똑같은 이미지를 한 번 더 올려보고, 노출 수위가 애매한 이미지들을 몇 장 더 시험 삼아 올려봤습니다.

같은 사진을 한 번 더 올린 이유는 엑스아이가 해당 이미지를 얼마나 잘 학습했는지 확인해보려는 의도였습니다.

나머지 사진들의 경우 무료 이미지 사이트에서 찾은 수영복을 입은 여성, 누드 사진이지만 뿌옇게 처리돼 주요 부위가 잘 보이지 않는 사진 등으로 구성했습니다.

그 결과, 전날과 같은 사진은 몇 분 지나지 않아 바로 차단이 이뤄졌습니다. 엑스아이가 이미 한 번 학습한 사진이기 때문에 전날보다 빠른 조치가 취해진 것으로 보입니다.

다른 사진들은 아무 문제없이 블로그 및 이미지 검색에 노출이 됐습니다. 성인물에 해당될 만큼 수위가 높지 않은 사진이기 때문에 검색 노출을 차단하지 않은 것으로 풀이됩니다. 사진에서 피부색이 차지하는 비중이 높다고 해서 무조건 걸러내는 것이 아니란 뜻입니다.

이 밖에 네이버 운영진이 1차 주의한 대로 30일 간 블로그 게시물 작성 금지 조치도 취해졌습니다. 테스트 목적이었지만, 성인물 사진을 여러 차례 올린 악성 사용자로서 벌을 받은 셈입니다.

■ “기대보다 처리 속도 늦지만, AI 기술 놀라워”

블로그에 청소년 노출 부적합 게시물을 올렸다는 내용. 깨끗한 인터넷 문화를 위해 약속한다는 내용을 기입한 뒤 블로그 이용이 가능했다.

네이버 엑스아이가 얼마나 성인 이미지를 빠르게, 그리고 정확하게 찾아내는지를 테스트해 본 결과 기대했던 것보다는 최종 조치까지 걸리는 시간은 조금 길게 느껴졌습니다.

AI가 실시간으로 필터링할 것으로 생각했지만, 수십 분 정도의 시간이 걸렸기 때문입니다. 이는 두 번째 실험에서 알 수 있듯, 더 많은 학습량이 쌓이게 되면 개선될 것으로 보입니다.

네이버에 따르면 현재 엑스아이는 네이버 카페나 블로그 등 네이버 서비스 내에 올라오는 이미지들만을 필터링 하고, 이에 대한 최종 판단은 사람이 하고 있습니다.

엑스아이가 1차적으로 문제의 소지가 있는 이미지를 걸러내면, 이를 사람이 확인하고 최종 조치하는 구조입니다. 모니터링 인력은 외부와 내부 인력으로 구성해 연중무휴, 24시간 운영된다는 것이 네이버 설명입니다.

앞으로는 이미지뿐만 아니라 동영상으로까지 엑스아이의 AI 필터링 기능이 확대 적용될 예정이라고 합니다.

또 네이버 서비스뿐 아니라, 다른 서비스에 올라온 성인 이미지까지 엑스아이 기술을 활용해 네이버 검색 노출을 막는다는 계획입니다.

관련기사

한편 일부 성인 사용자의 경우 “나는 성인인데 왜 성인 사진을 못보게 한다는 거야?”라는 불만을 제기합니다. 구글닷컴(.kr이 아닌 .com) 검색으로 가겠다는 볼멘소리도 들립니다.

이에 네이버는 “국내 대표 포털 서비스로서 청소년 보호의 의무에 좀 더 초점을 두고 사회적 책임을 강화하는 데 더 무게를 두겠다”는 입장입니다.