소셜분석, 폭탄을 안고 간다

국내 소셜분석업계 편법...트위터 수집 정당한가

일반입력 :2013/07/23 08:08    수정: 2013/07/23 18:49

활기를 얻어가던 소셜분석이 폭탄을 안고 가게 됐다.

지난달 트위터의 API 정책이 변경되면서, 트위터 데이터를 서드파티 업체가 끌어오는데 여러 제약이 생겨났다. API에 대한 계정을 인증받아야 트위터 데이터를 수집할 수 있게 된 것이다. 22일 업계에 따르면, 이에 국내 소셜분석업계 대부분이 편법을 동원하는 것으로 알려졌다.

또한 정부기관이 소셜분석업체와 계약해 트위터분석을 활용할 경우 데이터 품질의 불완전성과 도덕적 해이 논란에 휘말릴 수 있어 주의가 요구된다.

■트위터 '너희가 무얼 하는지 감시하겠다'

트위터는 작년 8월 API v1.1을 공개하며 좀 더 폐쇄적인 방향으로 움직였다. 이에 따라 트위터 상의 데이터를 API로 수집하는 경우에 여러 제약사항이 생겨났다.

일단, API를 통해 데이터를 수집하려면 계정인증을 받아야 한다. 모든 앱과 서비스가 트위터 데이터를 가져올 때 OAuth를 써야 하는데 이는 표준 트위터 클라이언트 수준에 맞춘 보안성을 갖춰야 한다는 것이다.

여기서 끝이 아니었다. 새 API에 요구되는 보안인증 방식 말고도 앱이 트위터상의 콘텐츠를 얼마나 자주 불러내느냐를 따지는 제한도 더 엄격하게 구현됐다. '엔드포인트'가 호출하는 API는 시간당 60콜, '대용량 엔드포인트'가 끌어오는 호출은 시간당 720콜이다. 이전에도 앱 개발자를 위한 API 이용제한이 있었지만 요청 앱 구별없이 시간당 350콜이었던 것보다 제공 수준을 차등화했다.

이는 트위터의 데이터를 수집해 분석서비스를 제공하는 회사에게 날벼락과 같은 소식이었다. 고품질의 트위터 및 소셜 분석 서비스를 제공하려면 트위터와 정식계약을 체결해야 하기 때문이다. 트위터 수집 자체가 비용으로 전환되는 것이다.

이같은 우려는 지난달 11일 트위터 API v1.0이 최종 폐쇄되며 현실화됐다. 국내의 소셜분석 서비스업체들은 모두 트위터와 계약을 맺지 않았다.

■오픈 API 대안 웹크롤, 품질 떨어져 '편법 등장'

국내 검색솔루션업체들은 오픈API 대신 웹크롤을 이용해 트위터 데이터를 수집한다는 입장이다. 구글 검색처럼 명령어 입력을 통해 웹에서 떠도는 트위터 데이터를 끌어모으는 방식이다. 업체들은 웹크롤만으로도 대응은 충분하다고 설명했다.

그러나 몇몇 전문가들은 웹크롤이 API 수집에 비해 데이터 품질이 떨어진다고 지적했다. 한 전문가는 “웹크롤은 트위터가 공개한 데이터 중 웹에 공개된 것을 검색해 수집하는 것이므로, 100% 완벽한 데이터라 볼 수 없다”라고 지적했다.

웹크롤의 부족함을 보완하기 위해 업계에선 암암리에 이뤄지는 가짜계정 인증을 사용하는 것으로 알려졌다. 트위터 OAuth 계정 명의를 여러개로 만들어 오픈 API 상의 데이터를 수집하는 식이다. 일종의 대포 트위터 개발자 계정인 셈이다.

트위터에서 공식적인 문제제기만 하지 않는다면, 소셜분석서비스업체의 활동엔 당분간 무리가 없다. 그러나 트위터가 공식적으로 편법 동원에 제동을 걸 경우 유명 소셜분석서비스 태반이 중단될 수 있다.

■공공기관의 트위터 수집, 사찰 논란의 씨앗

한걸음 더 나아간 문제제기도 있다. 일반적인 소셜분석서비스는 제공업체가 트위터와 각종 SNS 데이터를 수집, 가공한 뒤 고객사에 제공하는 형태다. 이 경우 트위터 데이터 각자의 ID나 프로필 같은 정보는 자연스레 사라진다.

하지만 소셜분석서비스가 아닌 소셜 데이터를 구매받길 원하는 경우가 있다. 단순한 보고서 구매가 아니라 더 적극적으로 움직이려는 경우다. 고객이 내부적으로 보유한 정보와 소셜 데이터를 결합한 통합 분석을 원할 때 나타난다.

이 때는 소셜분석서비스업체가 수집한 데이터의 원본 자체가 고객사에 넘어갈 수도 있다. 개인정보가 거래되는 듯한 인상을 풍긴다. 서비스업체의 데이터 운영규정을 따져봐야 할 부분이다. 현재 미국과 유럽에선 이같은 소셜 데이터 아웃소싱의 정당성에 대한 논쟁이 뜨겁게 벌어지는 상황이다.

이같은 논란을 피하기 위해 기업들이 직접 소셜 데이터를 수집하는 방식을 택할 수 있다. 여기에도 불안요소가 존재한다.

여기서 불안요소는 공공영역에 존재한다. 국내 공공기관은 최근 소셜 데이터를 수집해 자신들의 데이터베이스(DB) 내 데이터와 결합하는 형태의 분석을 원하는 추세다. 공공 정보와 SNS 데이터를 결합하면 그로부터 더 유용한 정책결정 활용 데이터가 도출될 것이란 기대 때문이다.

웹크롤 기반의 수집 제품을 구매하는 경우는 특별한 문제가 없다. 단지, 자체적인 개발이 요구되므로 내부의 개발 수준에 따라 데이터 품질이 달라질 뿐이다. 반면, 오픈API를 이용한 데이터 수집엔진을 구매할 경우 심각한 도덕성 논란에 놓인다. 공공기관이 민간인의 SNS 활동 정보를 수집한다는 점과 함께 그를 위한 수집 수단이 가짜 계정이란 공격을 받게 된다.

관련기사

업계 관계자는 “그동안 소셜분석이 한참 붐이었던 이유는, 데이터를 별다른 비용을 들이지 않고 쉽게 확보할 수 있었기 때문”이라며 “트위터의 API 정책이 변경되면서 소셜분석업체가 트위터와 계약해 비용을 늘리거나, 편법을 사용하거나, 불완전한 데이터 수집법을 힘들게 동원하는 수밖에 없다”라고 말했다.

그는 “정상적인 방식이 아닌 경우 그를 공공기관에서 구매해 사용한다는 것도 논란의 소지가 크다”라며 “업체의 이에 대한 대책 마련과 소셜 분석을 원하는 구매자의 세세한 검토가 요구되는 상황”이라고 덧붙였다.