알리바바, 딥러닝 기반 이미지 검색 구현

일반입력 :2014/11/03 16:09

중국 최대 전자상거래업체 알리바바그룹을 대표하는 서비스는 타오바오다. 알리바바는 지난 8월 비주얼 서치 기능을 탑재한 타오바오 모바일 앱을 내놨다. 옷의 사진을 찍어서 검색하면, 유사하거나 동일한 옷을 찾아서 보여주고 구매할 수 있게 한 서비스다.

팬 팬 알리바바그룹 검색사업부 R&D 전문가는 3일 서울 삼성동 코엑스 그랜드볼룸에서 SK플래닛이 개최한 ‘테크플래닛2014’에서 알리바바 타오바오의 이미지 검색(비주얼 서치) 기술을 소개했다.

타오바오는 오픈마켓이다. 하루에도 수 많은 신규 상품이 등록되며, 방대한 상품 이미지를 갖고 있다.팬 팬은 “이미지가 검색에서 과거에 비해 더 중요해지고 있다.”며 “앱으로 옷의 사진을 찍어 타오바오에서 촬영한 사진으로 검색하고, 추천까지 받으면 좋을 것이란 이유로 개발하게 됐다”고 말했다.

그는 “설문결과 고객의 관심분야가 의류인 것으로 나타났고, 회사 통계에서 압도적으로 의류 매출의 비중이 컸기 때문에, 의류를 선택했다”고 덧붙였다.

타오바오 비주얼서치에서 중요한 역할을 하는 기술은 딥러닝이다. 딥러닝은 알고리즘을 통해 기계가 스스로 데이터를 분석 및 예측하게 하는 머신러닝(Machine Learning: ML)의 한 분야다. 알리바바는 딥러닝을 활용해 이미지의 특징을 판별하고, 구분해 유사한 사진을 검색하게 했다.

옷을 구별해 낸다는 게 쉬운 일은 아니다. 타오바오의 사진은 판매자와 구매자 모두가 올린다. 판매 페이지에 올라온 의류의 이미지는 모델이 입고 포즈를 취하고 있기도 하며, 옷만 보이기도 하지만 일부는 배경이미지를 잘라내기도 한다. 사용자가 구매한 옷을 촬영해 올리기도 한다. 옷의 모양이 수 많은 상황에 따라 달라진다.

팬 팬은 “딥러닝은 오리지널 픽셀에서 피처를 배워가고, 하이라키로 이뤄진 피처를 배운다는 특징이 있다”며 “이 과정에서 픽셀에서 엣지를 판별하고, 다음으로 파트를 판별하며 최종적으로 오브젝트를 판별한다”고 설명했다.

딥러닝을 서비스 개선이나 개발에 적용하려면 우선 방대한 데이터를 확보하고 있어야 한다. 알고리즘 속에서 기계를 학습시키는 단계가 필요하기 때문이다. 알리바바는 그런 점에서 방대한 데이터를 보유하고 있다.

그는 “타오바오는 아이템별로 최소 한장의 사진을 게재하도록 하고 있고, 구매자가 옷을 찍어 올리도록 한다”며 “또한 판매자가 아이템에 사진 말고도 상품명이나 특징을 자세하게 올려놓기 때문에 표시된(labelled) 데이터가 체계적으로 갖춰져 있다”며 “이것이 딥러닝 플랫폼 구축에 많은 도움이 됐다”고 말했다.

타오바오의 이미지 데이터는 다양하면서도 방대하다. 그러나 동시에 각 판매자별로 이미지를 만들어 올리는 만큼 다 달라서, 복잡하고 처리하기 어렵다. 이미지에 붙는 상품정보 역시 판매자의 불성실 영향을 받아 부정확할 수 있다.

팬 팬은 “머신러닝과 관련해 이런 정확도 떨어지는 데이터는 노이즈 데이터로써, 타오바오에선 이런 노이즈의 존재가 상당히 많았다”며 “때문에 파인튜닝에서 이미지 데이터 품질관리가 중요하다”고 언급했다.

구체적으로 활용된 기술은 ▲복잡한 배경 속에서 의류를 감지하는 디텍션 ▲방대한 데이터를 처리하는 딥러닝 플랫폼 ▲유사한 옷을 찾기 쉽도록 하는 로컬 시밀러리티 매칭 기술 ▲고차원 데이터에 대한 인덱싱과 복구(Rerieval) 등이다. 인덱싱과 복구 성능을 높여야 하는 이유로 매일 달라지는 데이터 업데이트를 들었다.

타오바오의 비주얼 서치에 사용된 딥러닝 알고리즘은 나선형 신경 네트워크(Convolutional Neural Networks, CNN)다. 이미지 검색 분야에 가장 적합한 알고리즘이기 때문이라고 팬 팬은 설명했다.

딥러닝 플랫폼을 담은 타오바오 비주얼서치 시스템은 GPU와 CPU를 함께 사용한다. 트레이닝과 온라인이 상황에 따라 GPU나 CPU를 선택적으로 사용하게 된다.

그는 “앱이 온라인이고 초당 쿼리가 높은 경우 GPU를 쓰고, 시간이 중요하지 않은 경우인데 컴퓨트 리소스가 많다면 CPU를 사용한다”고 설명했다.

시스템은 알리바바의 클라우드로 서비스된다. 온라인, 오프라인, 엔진 등 3개 플랫폼이 모바일 앱을 뒷받침한다.

관련기사

그는 “알리바바는 개발한 비주얼서치 앱을 다른 회사에게 서비스로 제공하는 걸 고려하고 있다”고 덧붙였다.

그는 “모바일 이미지 서치는 이제 하나의 트렌드로 자리잡았다”며 “무엇보다 사용자의 수요를 충족하려면 상품, 알고리즘, 엔지니어링 팀이 함께 협업해야 한다”고 조언했다.