빅데이터분석활용센터, 이게 최선입니까?

일반입력 :2014/01/15 14:03

지난해11월 미래창조과학부는 한국정보화진흥원(NIA)를 통해 빅데이터분석활용센터를 설립했다. 그러면서 국내 빅데이터 산업을 활성화하고 인력을 양성한다는 목표를 내걸었다.

최문기 미래부 장관도 센터 개소식에 직접 참석해 빅데이터 분야의 글로벌 경쟁력을 높이고, 빅데이터 활용 강국으로 도약할 수 있도록 적극 지원하겠다고 거들었다.

이를 위해 미래는 8억2천만원의 예산을 들여 연구개발(R&D), 인력양성 등을 위한 빅데이터 분석 인프라를 구축했다. 원격으로도 빅데이터분석활용센터 인프라에 접속해 쓸 수 있도록 했다. 공공과 민간에서 필요로 하는 분야별 데이터 세트까지 확보했고 시범사업과 R&D 등을 통해 얻은 노하우를 공공, 민간에 전수한다는 계획도 세웠다.

그러나 설립 두달째을 맞는 지금 빅데이터분석활용센터를 둘러싸고 당초 취지를 제대로 살리지 못한다는 지적도 있다.

국내 공공기관과 민간기업들의 빅데이터 활용을 촉진하려면 센터에서 가급적 많은 사업을 수용할 수 있어야 하는데 그러기에는 지금의 인프라로 부족하다는 것이다. 신청자가 적으면 상관없지만, 몰릴 경우 병목 현상이 불가피하다는 것이다.

빅데이터분석활용센터는 지금 진행중인 컨설팅 인프라 구축이 완료되면 모두 3종의 클러스터를 운영하게 된다. R&D용 인프라는 공공이나 민간기업, 연구기관이 진행하는 각종 프로젝트를 지원하는 용도로 활용되고 인력양성용 인프라는 30여명의 교육생이 동시에 접속해 실습교육을 받는 용도로 활용된다. 컨설팅 인프라는 중소기업이나 스타트업을 위한 용도다.

NIA 사업 공고 문서에 따르면 3개의 인프라는 용도별로 따로 존재한다. 각 인프라의 연결은 물리적인 네트워크를 거친다. 물리적으로 별개인 클러스터가 네트워크를 통해 하나로 연동된다는 의미로 읽힌다. 이와 관련해 비효율적인 구성이라는 지적도 있다.

한 하둡 전문가는 하둡은 처리 과정에서 데이터가 여러 노드들을 오가기 때문에 네트워크 비용이 중요한 고려사항이다라며 각 클러스터를 네트워크로 연결하면 병목현상으로 인한 성능저하가 발생할 수 있다고 말했다.

그에 따르면, 하둡을 활용한 분석은 인프라 규모가 커질수록 성능도 함께 좋아진다. 같은 양의 데이터라도 더 많은 서버를 활용하면 더 빠른 시간 안에 분석처리를 완료할 수 있다. 각 사업당 진행되는 분석처리시간을 줄일수록 같은 기간 안에 더 많은 프로젝트를 진행할 수 있게 된다.

하둡은 또 분산처리기술이기 때문에 한 사용자가 분석을 한번 하는데 모든 서버를 사용해야 한다. 동시접속이란 게 불가능한 구조다. 예를 들어, 한군데서 쓰고 싶으면 11대의 서버를 점유하게 되고 그동안 다른 사용자는 인프라를 활용할 수 없다. 분석을 위한 질의가 복잡하면 한번에 인프라를 활용하는 시간은 더욱 길어진다.

앞서 인용한 하둡 전문가는 따로 클러스터를 네트워크로 나누기보다 거대한 규모의 클러스터를 하나로 만들어 놓고 그 안에서 용도에 따라 노드를 구분하는 게 더 효율적인 방식이라고 조언했다. 이렇게 하면 지금보다는 효율성을 끌어올릴 수 있다는 설명이다.

관련기사

지금의 클러스터 구성으로는 여러 프로젝트를 진행하기 어렵다는 지적이다. 이용자가 빅데이터분석활용센터를 이용해 사업을 진행하려 해도 앞선 프로젝트 종료까지 대기해야 한다는 것이다.

이에 대해 NIA 빅데이터기획부의 김진철 책임은 “요구되는 노드의 규모는 현재까지 국내에 대규모 클러스터를 요구하는 사업은 많지 않을 거라 보고 있다”라며 “향후 클러스터를 데이터 규모에 따라 적절히 분배할 계획이다”라고 답했다.