네이버·다음 뉴스검색 다양성, 구글만 못해..."과도한 규범 압력 탓"

건국대 황용석 교수팀 ‘뉴스검색엔진 통한 뉴스 소스·내용 다양성 평가’ 연구

인터넷입력 :2024/04/23 17:40    수정: 2024/04/23 17:47

국내 뉴스검색엔진의 다양성 수준이 구글보다 낮은 것으로 나타났다.

건국대 황용석 교수(미디어커뮤니케이션학과) 연구팀이 지난 19일 한국한국방송학회 봄철정기학술대회에서 발표한 ‘뉴스검색엔진을 통한 뉴스 소스 및 내용 다양성 평가’ 연구에 따르면, 구글이 가장 많은 수의 언론사와 다양한 기사를 검색결과에 노출했다. 반면, 네이버와 다음은 상대적으로 재현되는 언론사 수가 적었고 통신3사 기사의 비중이 높았다. 기사 간 내용 다양성도 낮게 나타났다.

연구팀은 뉴스검색결과의 다양성을 측정하기 위해 6개월에 걸쳐 그 시기 대표적인 사안과 관련된 78개의 검색 질의어를 입력한 후, 결과로 나온 상위 30개 기사들을 수집해 총 7천20개 기사를 분석했다. 이 분석을 위해 연구팀은 다양성 지수(매트릭스)와 머신러닝 기법을 사용해서 소스(언론사)와 내용(기사 본문)의 다양성을 분석했다.

상위 30개 순위 안에 노출된 언론사 수, 큰 폭으로 차이나

뉴스 자료 사진(제공=이미지투데이)

뉴스 검색엔진이 얼마나 많은 언론사를 검색결과 상위 30위에 분포시키는가를 분석한 결과, 구글은 358개 언론사를 노출한 반면, 네이버는 223개, 다음은 103개로 큰 폭의 차이를 보였다. 검색질의어를 5개 토픽별로 구분해서 분석할 때도 비슷한 결과가 나타났다. 정치토픽의 경우 네이버는 86개, 다음은 58개, 구글은 131개 언론사가 검색결과 배열순위 30위 안에 포함됐다. 검색결과에 많이 노출된 상위 10개 언론사의 누적 점유율(CR10)을 보면, 네이버가 40.77%로 가장 높았고, 다음은 40.51%, 구글은 34.06%로 가장 낮았다. CR10이 높다는 의미는 상위 10개 언론사의 검색 점유율의 집중 수준이 높은 반면, 다양성은 떨어진다는 것을 의미한다.

네이버·다음, 3대 통신사 기사 점유율 높아..."정치적 편향" 정치권 비판 틀려

특징적인 점은 네이버와 다음의 경우 통신사 비중이 절대적으로 높다는 점이다. 네이버의 상위 3개 언론사가 모두 통신사였고 그 점유율은 22.91%였다. 다음은 22.78%였다. 이들 두 뉴스검색엔진의 결과에는 국내 대표적인 보수-진보 신문사들이 10안에 포함되지 않았다. 구글은 통신사 중에는 연합뉴스만 4.66%로 상위 10위안에 포함됐다. 구글의 경우 여러 뉴스소스를 제공하는 네이트뉴스가 3.50%를 나타내 앞의 두 검색엔진과 달리 이를 독립된 뉴스소스로 다루고 있었다.

네이버와 다음의 통신사 기사의 점유율이 높은 것과 관련해 황용석 교수는 “언론사별로 제작되는 기사량의 차이, 뉴스 검색제휴와 같은 계약기반 서비스 등 공급구조가 1차적으로 영향을 미쳤을 것”이라면서 “그러나 통신3사의 점유율이 높은 것은 이들 두 검색엔진의 알고리즘이 이념적 대립이 큰 언론사보다는 사실중심의 중립적인 통신사에 더 높은 비중을 둔다는 것을 의미한다”고 밝혔다. 이어 “이 같은 결과는 정치권에서 네이버와 다음의 검색배열이 ‘정치적으로 편향’ 돼 있다고 비판했던 것과는 거리가 있는 것”이라며 “오히려 중립적인 통신사 의존도가 높아 다양성이 부족한 것이 문제임을 확인해준다”고 밝혔다.

검색 질의어를 토픽별로 구분해 보면 다음과 같다. 상위 10개 언론사의 누적점유율(CR10)은 다음, 네이버, 구글 순으로 높았다. 네이버는 정치 토픽에서 47.78%, 경제에서는 45.34%, 사회에서는 46.30%, 라이프스타일/문화에서는 44.22%, 엔터테인먼트/스포츠에서는 43.58%의 CR10 점유율을 보였다. 다음은 정치 토픽에서 57.41%, 경제에서 55.67%, 사회에서 48.70%, 라이프스타일/문화에서 50.33%, 엔터테인먼트/스포츠에서 51.77%로, 3개 검색엔진 중에 가장 높은 의존도를 보였다.

구글은 정치 토픽에서 상위 10개 뉴스 소스의 점유율은 42.96%로 나타났으며, 경제는 41.11%, 사회는 39.88%, 라이프스타일/문화는 38.77%, 엔터테인먼트/스포츠는 40.92%로 상대적으로 낮아 앞의 두 검색엔진보다 다양한 뉴스 소스를 제공했다.

다양성 지수 분석에서도 구글·네이버·다음 순

구글 검색(제공=픽사베이)

연구진은 다양성을 측정하는 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI), 심슨의 다양성 지수(Simpson's Diversity Index, SDI), 샤논 다양성 지수(Shannon Diversity Index, SHDI), 블라우 지수(Blau's Index)를 이용해 3개 검색엔진의 다양성 수준을 진단했다.

이들 모든 지수 값에서 3개 검색엔진들은 집중 상태로 판단되지 않았다. 즉, 검색결과에 노출된 언론사들의 분포가 다양한 상태임이 연구결과에서 확인됐다. 그러나 검색엔진 간 비교를 했을 때에는 상위10개 언론사의 분포와 같은 패턴으로 구글, 네이버, 다음의 순서로 다양성이 높은 것으로 나타났다.

검색결과로 추출된 기사들 간 내용 다양성도 구글이 높아

연구진은 검색 질의어별로 추출된 30개의 기사들의 내용이 얼마나 유사한가를 머신러닝 기법으로 분석했다. OpenAI Embeddings API를 이용해 개별 기사들 간의 문서 유사성을 계산해서 ‘내용 다양성 지수’를 산출했다.

내용 다양성 지수는 기사가 어느 언론사에서 작성됐는가와 무관하게, 기사의 텍스트 내용이 얼마나 유사한가를 측정한 것이다. 분석결과를 보면, 구글의 검색결과가 모든 토픽에서 내용 다양성, 즉 기사들 간의 내용 차이가 더 많아서 내용다양성 지수가 더 높았다. 네이버와 다음은 서로 비슷한 점수를 보였다.

이는 언론사 소스 다양성이 높으면, 내용 다양성도 높다는 것을 의미한다. 검색엔진이 더 다양한 언론사 기사를 검색결과에서 제공하면, 그 기사들의 내용의 차이가 더 넓어져서 이용자들에게 더 다양한 주제, 관점, 내용 등을 제공해 줄 수 있다는 것을 가정할 수 있다.

검색엔진에 과도한 규범 압력이 다양성 훼손시켜

뉴스 자료사진(제공=이미지투데이)

연구진은 이번 연구결과를 해석함에 있어 주의가 필요하다고도 말했다.

연구진은 “이 연구는 검색결과로 나타나는 뉴스의 품질이나 공정성을 분석한 것은 아니다. 얼마나 다양한 뉴스가 결과로 재현되는가를 본 것으로 그 자체로 검색엔진의 성능이나 품질을 평가해서는 안된다”고 강조했다. 이어 “그럼에도 많은 뉴스가 검색엔진을 통해 유통되고 소비된다는 점에서 검색결과의 다양성이 매우 중요하다는 점은 이번 연구 데이터로도 확인된다”고 덧붙였다.

황용석 교수는 구글과 비교해서 네이버와 다음의 다양성이 떨어지는 것은 일차적으로는 뉴스 공급방식에 있을 것으로 추정했다. 네이버와 다음은 뉴스제휴평가위원회를 통해서 계약된 언론사의 뉴스만 제공하기 때문에 공급되는 언론사 모수가 적다. 통신사 기사 비율이 높은 것은 보수-진보 편향 논쟁에서 멀어지려는 양사의 서비스 정책이 직간접적으로 알고리즘에 반영된 것일 수 있다.

이번 연구결과는 한국의 대표적인 뉴스검색엔진들이 소스와 내용 모든 측면에서 다양성을 확대하기 위해 스스로 서비스를 점검할 필요가 있음을 보여줬다.

관련기사

황교수는 “검색엔진은 서로 다른 다양한 정보에 접근할 수 있게 해주는 ‘정보 접근성’이 가장 중요한 기능이다. 그럼에도 우리 사회가 지나치게 검색엔진에 정치적 불편부당성을 요구하고 높은 품질의 정보를 재현하도록 규범압력을 가하고 있다”면서 “그로 인해 검색알고리즘의 공정성에 부정적인 결과를 낳을 수도 있음을 이번 연구결과로 추론할 수 있다. 소수 또는 신생 언론사가 노출될 확률이 낮아져 이들 매체들이 공중에 접근하는 경로가 제한되는 부작용이 발생할 수 있다”고 주장했다. 이어 “공정성의 하위 개념 중 하나인 다양성이 낮아진 것은 이미 연구 데이터에서도 확인되고 있기 때문”이라고 부연했다.

연구진들은 이 연구결과를 반영해 국내 검색엔진들이 다양성 수준을 점검하는 노력을 당부했다. 나아가 과도한 규범압력을 가하는 정치권 및 이해관계자들의 인식전환이 요구된다고 강조했다.