정부, AI데이터 5억8000건 추가 개방···총 381종으로 늘어

헬스케어 32종, 한국어 음성 및 자연어 44종 등 2021년 구축 190종 'AI허브'에 새로 올려

컴퓨팅입력 :2022/07/12 14:00    수정: 2022/07/12 18:21

과기정통부가 AI학습용 데이터 5억8000건을 무료로 추가 개방했다. 종류로는 190종에 달한다. 이들 데이터는 과기정통부가 구축한 AI포털인 'AI허브(AI Hub)'에서 내려받아 사용할 수 있다. 이로써 기존 개방한 191종(5억여 데이터)에 더해 무료 개방한 AI학습용 데이터는 총 381종으로 늘었다. 과기정통부는 AI허브에 개방한 데이터의 사용 확산을 위해 개선책도 마련했다. 데이터 객체 검색 기능을 새로 도입하고 UI와 UX를 개선하는 한편 전문 시스템 모니터링 도구를 도입한다.

12일 과기정통부는 국내 인공지능 기술과 산업 발전을 견인할 AI 학습용 데이터 190종(5억8000건)을 AI허브(aihub.or.kr)에 이날부터 추가로 개방한다고 밝혔다. 앞서 과기정통부는 2017년부터 기업, 연구자 등이 시간과 비용 문제 등으로 개별적으로 확보하기 어려운 AI 학습용 데이터를 구축 및 개방해 왔다. 2020년부터 구축 규모를 대폭 늘렸고 현재 18만건 이상의 다운로드를 기록했다.

이번 추가 데이터 개방은 지난해 6월 개방한 2020년 구축 데이터 170종(4.8억건)에 더해 2021년에 구축한 190종을 품질 검증을 거쳐 개방하는 것이다. 개방 데이터는 6대 분야 190종이다. 기획부터 구축까지 산업계, 전문가와 국민이 대거 참여했다.

추가로 개방한 데이터는 ▲한국어 음성·자연어(아동, 다화자 음성 등 44종) ▲영상·이미지(스포츠 동작, 반려동물 등 39종) ▲교통·물류(로봇주행, 교통사고 등 22종) ▲헬스케어(심장질환, 정신건강 등 32종) ▲재난·안전·환경(과적차량, 물류창고 등 27종) ▲농·축·수산(정밀 농업, 스마트 양식 등 26종) 등이다.

이들 데이터는 민간 수요를 바탕으로 분야별 산·학·연 전문가와 데이터 활용기업 등이 직접 참여해 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 데이터들을 발굴, 선정하는 방식으로 기획, 구축됐다. 특히, 데이터 구축 과정에 국내 주요 인공지능·데이터 전문기업은 물론 대학(서울대, KAIST 등 118개), 병원(서울대병원, 국립암센터 등 50개) 등 총 811개 기업·기관과 4만 3천여명에 달하는 국민이 참여했다.

또, 정보통신기술 표준화·인증을 수행하는 한국정보통신기술협회(TTA)의 전문적 품질검증과 함께 실제 데이터 수요자가 요구하는 품질 수준을 확보하기 위해 주요 대기업(네이버·카카오·LG·KT·현대차 등), 스타트업(라이드플럭스·스트라드비젼 등), 대학 및 연구기관(GIST·부산대·ETRI·한국자동차연구원 등)의 데이터 활용성 검토와 추가 보완을 거쳤다.

과기정통부와 한국지능정보사회진흥원(NIA)은 데이터 개방 후에도 AI허브 내 품질 의견수렴 상시창구 운영, 한국정보과학회와 연계한 데이터 품질개선 연구 지원(7~12월) 등 민관 협력을 통해 데이터 품질과 활용성을 지속 관리 및 개선해나갈 계획이다.

<제3회 AI 데이터 활용협의회 개최>

과기정통부는 이번 데이터 개방과 함께 산학연 각계 전문가들이 참여해 AI허브 데이터 활용 촉진과 성과 확산 방안을 논의하는 '제3회 AI 데이터 활용협의회'도 박윤규 과기정통부 2차관 주재로 12일 개최했다.

'AI 데이터 활용협의회'는 민관 협력을 통한 인공지능(AI) 허브 데이터 활용 활성화 와 성과 창출을 목적으로 2021년 6월 출범했고 이어 같은해 11월 제2회 협의회가 열렸다.

 이날 협의회에는 인공지능 서비스를 직접 개발‧활용하고 있는 주요 대기업, 중소·스타트업과 유관기관 등 14개 기업·기관 관계자가 참석했다. 대기업에서는 KT, 네이버클로바, 현대자동차 에어스컴퍼니, 카카오엔터프라이즈가, 중소‧스타트업은 인피닉, 에이아이포펫, 딥노이드, 포티투마루가, 유관기관은 한국자동자연구원, 한국과학기술연구원, 한국환경연구원, 광주과학기술원, 한국지능정보사회진흥원, 한국정보통신기술협회가 각각 참석했다.

협의회에서 과기정통부와 NIA는 AI 학습용 데이터 구축·활용 주요 성과와 AI허브 기능 개선사항 등을 공유하고, AI허브 데이터 이용 활성화를 위한 지원 방안 등을 제시했다. 예컨대 데이터 객체 검색 기능 도입과 UI/UX 개선, 전문 시스템 모니터링 도구 도입 등이다. 이어진 민간의 AI허브 데이터 활용 우수사례 발표에서는 KT의 다양한 한국어 음성 데이터를 활용한 콜센터 상담 내용 분류 및 요약 성능 향상 사례와 더불어 에이아이포펫의 AI Hub ‘반려동물 안구질환 이미지 데이터’를 활용한 반려동물 질병 판독 서비스 ‘티티케어(TTcare)’ 개발 사례(CES 2022 혁신상 수상)가 소개됐다.

협의회를 주재한 박윤규 차관은 "우리 데이터로 우리 기업이 개발한 서비스가 세계적으로 인정받고 있다는 점이 자랑스럽기도 하지만, 동시에 막중한 책임감을 느끼고 있다”며 “앞으로도 다양한 분야에서 의미 있는 활용성과가 나타날 수 있도록 데이터의 양적·질적 가치를 계속해서 높여가나는 것이 협의회를 통해 모색할 중요한 과제"라고 밝혔다. 이어 박 차관은 “정부도 앞으로 AI허브 데이터가 대한민국의 디지털 전환을 선도하는 중요한 밑거름이 될 수 있도록 계속 노력하겠다”면서 "국내 인공지능·데이터 생태계의 성장과 경쟁력 제고를 위해 협의회를 중심으로 민관이 적극 협력해달라"고 당부했다.