美 백악관, 코로나19 연구 데이터셋 무료 공개

코로나19와 유사한 바이러스 관련논문 2만9천개 정리

컴퓨팅입력 :2020/03/17 16:02

미국 백악관이 IT기업 및 연구소의 코로나19 퇴치 연구를 활성화하기 위해 대규모 데이터베이스를 무료로 공유했다.

16일(현지시간) 미국 지디넷에 따르면, 백악관이 코로나19 관련 과학 문건을 정리한 '코로나19 오픈리서치 데이터셋'을 공개했다.

백악관이 공개한 데이터셋은 코로나19와 관련 바이러스에 대한 학술논문 2만9천건 이상이 정리돼 있다. 현재까지 기계로 읽을 수 있는 코로나 바이러스 자료 모음으론 최대 규모다. 비영리 학술 검색 엔진인 시맨틱 스칼라에서 무료로 다운받아 사용할 수 있다.

미국 백악관에서 공개한 코로나19 오픈 리서치 데이터셋.

데이터셋은 가공되지 않은 문서 데이터를 컴퓨터가 읽을 수 있도록 분류하고 라벨링한 것으로 빅데이터 분석 또는 인공지능(AI) 학습을 위해 주로 쓰인다.

해당 데이터셋은 그동안 접근하기 어려웠던 방대한 코로나19 관련 문서를 제공한다. 자연어처리(NLP)를 중심으로 연구하는 기업과 연구소에 주로 도움을 줄 수 있을 전망이다.

마이클 크라치오스 백악관 최고기술책임자(CTO)는 "IT 기업이 AI를 활용해 자료를 분석하고 바이러스에 대한 해결책을 마련하도록 하는 행동을 요구하기 위해 데이터베이스를 공개했다”며 “AI는 과학자가 정보를 요약하고 분석하는 데 많은 도움을 줄 것”이라고 밝혔다.

앨런연구소의 더그 레이몬드는 "전염병을 연구할 때 처음 직면하는 문제는 '내가 어디에 기여할 수 있는지, 이미 수행된 것은 무엇인지를 이해하는 것”이라며 “우리가 제공한 데이터셋이 있다면 초반의 시간 낭비를 줄일 수 있을 것”이라고 설명했다.

이 데이터셋 제작에는 마이크로소프트 연구소, 알렌 인공지능 연구소, 국립 의학 도서관(NLM), 백악관과학기술국(OSTP), 조지타운대학교 보안 및 신기술센터, 챈 주커버그 이니셔티브 등이 참가했다.

관련기사

마이크로소프트는 데이터 집합을 구축할 수 있도록 웹스케일 문서 큐레이션 도구를 사용해 관련 논문과 문서를 수집했다. NLM은 수집한 코로나19 관련 논문에 접속할 수 있는 권한을 제공했다. 알렌 인공지능 연구소는 수집한 자료를 기계가 읽을 수 있는 형식으로 변환하는 작업을 진행했다.

백악관은 데이터셋을 공개하기에 앞서 지난 11일 코로나19관련 논의를 위해 주요 IT 기업 및 보건 기관, 연방 기관과 원격회의를 진행했다. 이날 회의에 아마존, 애플, 시스코, 페이스북, 알파벳, IBM, 마이크로소프트, 트위터 등이 참여했다.