트위터 탄생 이래 모든 트윗 모은 검색업체

일반입력 :2013/09/05 08:45

2006년 트위터가 생긴 이래 전세계의 모든 트윗 데이터를 모은 검색엔진업체가 등장했다. 트윗 건수만 수천억건 가량으로 추정되는 어마어마한 양이다.

4일(현지시간) 씨넷 등 외신에 따르면, 미국 검색엔진업체 톱시(Topsy)는 2006년부터 트위터의 모든 데이터를 모았다며 트위터 검색 인덱스 서비스를 공개했다. 2006년 잭 도시 트위터 창업자의 첫번째 트윗 이후 모든 데이터다.

톱시가 데이터베이스에 쌓아둔 트위터 데이터는 텍스트 멘션과 비디오, 사진, 핀 등 사용자에 의해 생성되는 모든 소셜데이터 요소를 포함했다. 톱시 측은 4천250억건 이상의 데이터를 검색DB에 모았다고 밝혔다.

이 회사는 또한 자체 분석기와 영향력 랭킥 측정기에 기반해 트윗을 분류(sort)하고, 트윗 95% 이상의 위치 데이터를 추론할 수 있다고 주장했다. 일반적으로 트윗의 1%만 사용자에 의해 위치정보가 태그되고 있다는 설명이다.

트위터가 전세계 인구의 일부만 차지하지만, 소셜 데이터는 갈수록 활용도 측면에서 주목받고 있다. 수백, 수십억건의 트위터를 모아 특정 키워드와 구문을 통해 트렌드를 파악하고, 흥미로운 패턴을 찾아낼 수 있다고 평가받기 때문이다.

하버드대학교가 트위터 데이터를 분석해 지진과 해당 지역의 콜레라 발병 관련성을 찾아낸 게 대표적이다. 하버드대학교 연구진은 전통적인 방법보다 훨씬 더 빨리 발견할 수 있었다.

관련기사

톱시의 서비스는 이같은 트위터 분석 수요를 충족하는 것이다. 국내도 소셜분석이란 이름으로 트위터 분석 서비스가 검색엔진업체를 통해 제공되고 있다. 하지만 국내업체의 경우 뒤늦게 뛰어든 탓에 모든 트위터 데이터를 보관하진 못했다.

국내 검색업계 한 관계자는 톱시의 주장이 사실이라면, 그 데이터의 규모는 엄청난 크기라며 데이터를 담기 위한 서버 규모가 얼마나 되는지 궁금하다라는 반응을 보였다.