매트랩으로 데이터 분석 해보셨나요?

컴퓨팅입력 :2016/01/14 16:52

빅데이터 분석은 데이터 분석의 진화다. 과거에 하지 않았거나 할 수 없었던 데이터도 분석의 재료로 여긴다는 것이 핵심이다. 이는 과거에 분석이란 일을 하지 않았던 사람이 직접 분석을 하게 됐다는 의미도 갖는다. 현업 전문가가 분석 전문가에 의존하지 않는, 분석의 대중화가 빅데이터의 본질이다.

특정 영역의 전문 지식을 갖춘 사람은 분석을 위한 지식을 갖추지 못할 가능성이 많다. 때문에 기업 내외부의 분석 전문가에게 의뢰하는 게 당연하다. 문제는 각 영역별 데이터의 속성을 이해하지 못하면, 분석 전문가의 능력발휘가 제한적이란 점이다. 분석 전문가가 반도체 설비 자동화 라인에서 쌓이는 데이터의 특성을 알기 어렵다.

의미있는 분석 결과를 찾아내려면 분석가와 현업 담당자의 협업이 필요하다. 그러나 사람의 두뇌를 동기화하지 못하므로, 협업은 너무 힘든 일이다. 결국 데이터의 속성을 잘 이해한 현업 담당자가 직접 분석을 하고, 바로바로 업무에 반영하려는 욕구가 커진다.

이때 현업 전문가의 분석을 위한 기반 지식이 걸림돌이다. 일단 데이터 분석을 위해 별도의 언어나 툴을 새로 익혀야 한다는 게 막강한 장벽으로 작용한다. 현업 개발자에게는 익숙한 프로그래밍 언어로 데이터를 분석할 수 있다는 주장이 먹힌다.

파이썬이나 R이 개발자 사이에서 인기를 더 많이 얻게 된 건, 익숙한 방식으로 데이터를 분석 혹은 탐색할 수 있기 때문이다. 분석이란 세계로 진입하는 장벽 하나를 치워주기에 현업 개발자는 환영했다.

매트랩과 커브 피팅 툴박스를 사용해 사용자 전용모델에서 표면을 데이터에 맞출 수 있다.

매스웍스의 매트랩(MATLAB)도 이같은 분위기 속에서 소구력을 갖는다. 매트랩은 수치 해석과 프로그래밍 환경을 제공하는 공학용 소프트웨어다. 행렬을 기반으로 모든 논리를 구현하고, 함수나 데이터를 그림으로 그리는 기능 및 프로그래밍을 통한 알고리즘 구현 등을 제공한다. 매트랩은 통합개발환경(IDE)이면서 개발 언어기도 하다.

공학 분야 종사자는 점점 더 분석의 요구를 받고 있다. 빅데이터, 머신러닝, 딥러닝 등을 활용하는 예측모델이 공학 영역에서 가능성을 인정받게 되면서, 현업 종사자의 직접 분석이 필요해진 것이다.

매스웍스코리아의 이영준 부장은 “엔지니어가 뭔가 알고리즘을 개발할 때 그 구현을 위한 프로그래밍에 시간을 허비한다”며 “매트랩은 알고리즘 자체에 더 집중하라는 의미에서 각 분야에 맞는 함수를 만들어 제공한다”고 설명했다.

그에 따르면, 매트랩을 활용하면 빅데이터 분석과 머신러닝 알고리즘 개발을 위한 장애물이 많이 해소된다.

이영준 부장은 “데이터분석에서 예측모델을 요즘 많이 얘기하는데 의사결정에 어떤 알고리즘을 써야 좋으냐가 화두인 것”이라며 “보통 방대한 빅데이터의 분석을 위해 데이터의 노이즈를 제거하는 정리작업에 힘을 들이느라 정작 알고리즘에 신경을 잘 못쓰게 된다”고 말했다.

매트랩은 데이터 애널리틱스 툴박스 등의 요소를 추가해 빅데이터 분석과 알고리즘 개발에 활용가능하다. 매트랩에 익숙한 엔지니어가 자신의 담당 업무에 분석과 머신러닝을 더 쉽게 접목하게 해준다. 통계 분석은 물론 이미지나 비디오, 오디오 등의 데이터를 분석할 때 유용하다는 게 매스웍스의 강조점이다.

임포트 툴로 매트랩에 가져올 수치 및 텍스트를 스크립트나 함수로 자동 생성할 수 있다.

사용자인터페이스(UI) 부분은 자바 같은 언어나 엑셀로 만들고, 백그라운드를 매트랩으로 만들어 활용할 수 있다. 매트랩에 병렬컴퓨팅 툴박스를 붙이면, 프로그램을 크게 바꾸지 않고 연산 규모를 클러스터, 혹은 클라우드로 확장할 수 있다. GPU를 활용한 병렬 연산도 가능하다.

이 부장은 “GPU 컴퓨팅에서 엔비디아의 쿠다 언어를 배우지 않아도, 매트랩에서 엔비디아 쿠다의 기능을 쓸 수 있다”며 “하둡의 맵리듀스도 활용할 수 있고, 사용자 입장에서 함께 쓰고 싶은 것을 붙여 사용하면 된다”고 강조했다.

그는 “매트랩은 모든 데이터를 행렬로 보는데, 매트랩에겐 이미지, 오디오, 비디오, 숫자 모두 행렬”이라며 “매트랩이 행렬로 계산에 사용자에게 보여줄 때 이미지면 이미지, 소리면 소리로 바꿔 보여준다”고 말했다.

공학 영역에서 머신러닝을 활용할 때 모든 사용자가 고도의 알고리즘을 직접 만들 필요는 없다. 검증된 알고리즘을 잘 활용하는 것으로 성과를 얻을 수 있는 분야가 매우 많다. 매트랩은 머신러닝 알고리즘을 제공해 바로 활용하게 도와준다.

관련기사

이 부장은 “하나만 잘해서 해결이 안 되는 시대”라며 “통계만 잘해도 안 되고, 이미지만 잘 해서도 안 되며, 여러 지식을 아우르는 게 있어야 한다”고 매트랩의 효용성을 묘사했다.

그는 “도메인 엑스퍼트와 데이터 엑스퍼트가 별도로 존재하던 게 과거라면, 이제 도메인 엑스퍼트가 데이터 분석을 직접해야 한다”고 강조했다.