아이언맨이 쓰는 컴퓨터 '자비스'의 정체는?

일반입력 :2013/07/02 09:44    수정: 2013/07/02 11:36

미래 IT분야 격전지로 '퍼셉추얼 컴퓨팅(perceptual computing)'이라는 새 분야가 주목받고 있다. 이는 컴퓨터에게 사람의 손짓과 손가락 움직임, 말과 목소리, 지문을 포함한 생체정보와 감정까지 알아차리고 그에 알맞게 동작하도록 만드는 기술을 가리킨다. 이를 둘러싸고 주요 글로벌 업체들의 관련사업 추진과 외국 벤처업체에 대한 투자가 끊이지 않는다.

퍼셉추얼 컴퓨팅의 가능성을 보여주는 전형적인 사례는 영화 아이언맨 시리즈에 등장하는 인공지능 컴퓨터 '자비스'의 능력과 일처리 방식이다. 자비스는 가상 인격을 갖춘 개인 비서로 영화 시리즈 초반부터 주인공 토니 스타크의 저택 지하실에서 움직이는 공업용 및 생활보조 로봇으로 등장한다. 알고 보면 아이언맨 슈트 못지 않은 첨단기술의 결정체다.

자비스는 배우 로버트 다우니 주니어가 연기한 군수업체 스타크인더스트리의 무책임한 최고경영자(CEO), 토니 스타크의 업무외 시간 일상생활을 거드는 집사에 가깝다. (자비스는 명령을 받아들이는 상대와 대화할 때 문장 앞머리나 끝에 'sir'를 붙이는 경어체를 쓴다. 애초에 아이언맨 원작만화의 자비스라는 캐릭터가 기계가 아닌 '사람' 집사다.)

작중 자비스가 모습을 드러내는 방식은 지하실에서 돌아다니는 로봇팔, 토니 스타크를 상대로 수다를 떠는 목소리, 토니 스타크의 손짓과 음성 명령에 따라 움직이는 3D 홀로그램 기반 컴퓨터, 수십종류의 아이언맨 슈트 등, 광범위하다. 그 역할은 거의 만능이다. 일단 아이언맨 시리즈에서 자비스는 토니 스타크가 아이언맨 슈트를 만들 때 설계, 부품제작, 조립, 테스트구동, 결함 보완, 완성 이후 업그레이드 등 전과정을 거든다. 토니 스타크가 집을 떠나 아이언맨으로 활약중일 땐 슈트의 기계적 안정성 외에도 주인의 생물학적 컨디션을 염려하기도 한다.

또 자비스는 인간의 감정을 '이해'하지는 못하더라도 '대응'할 수는 있는 것처럼 묘사된다. 토니 스타크는 온갖 잘난 개인적 능력과 사회적 배경을 바탕으로 젠체하는 까칠하고 괴짜스러운 인물이나, 속내는 인간관계에 서툴고 외로움을 많이 타는 성격으로 묘사된다. 그런 토니 스타크에게 언제나 가까이에서 그를 지원하는 자비스는 친구'와도 같다. 토니 스타크가 아이언맨 3편에서 손상당한 아이언맨 슈트를 입고 날아가다 테네시 눈밭에 떨어지자, 자비스는 전력 부족으로 절전모드에 들어가며 좀 자야겠습니다라고 말한다. 이에 토니 스타크는 전원이 꺼진 아이언맨 슈트 속에서 자비스! 자비스? 이봐, 날 혼자 두지 마…라고 말한다.

인간과 컴퓨터와의 관계를 꿈꾸다

퍼셉추얼컴퓨팅은 이처럼 사용자인터페이스(UI)를 넘어서는 컴퓨터와 인간 사이의 관계를 형성케 해줄 것으로 기대된다. 초기 구상은 아이언맨이 영화화되기 이전 흔히 예시로 쓰였던 '마이너리티리포트'를 많이 인용했다. 영화 속에서 배우 톰 크루즈가 장갑을 낀 손으로 허공을 휘젓자 그에 연결된 대형 모니터와 홀로그램 영상이 빠르게 조회되는 모습을 떠올리면 된다. 사실 이런 형태의 UI 자체는 현존하는 기술만으로도 구현이 어렵지 않다. 그 범주도 '동작인식'이나 '제스처인식' 분야에 한정된다.

실제로 동작 및 제스처 인식을 통한 UI 구현은 마우스와 키보드, 터치스크린을 넘어선 퍼셉추얼컴퓨팅 환경의 일부로 작용한다. 과거 마우스와 키보드는 컴퓨터에 정보를 입력하고 이를 제어하는 수단으로 널리 활용돼지만 향후 목소리나 손짓이 UI의 중심에 놓일 것이란 관측이 강화되고 있다. 현재 보급되고 있는 모바일 기기를 장악한 터치스크린 이상의 역할을 할 것이란 전망이다. 애플 시리, 구글나우, 마이크로소프트(MS)의 X박스 또는 윈도용 키넥트의 존재가 이를 방증한다. 최근 인텔도 이 흐름에 뛰어들었다.

애플 시리는 아이폰과 아이패드의 운영체제(OS) iOS에 탑재된 음성인식 인공지능 비서 애플리케이션(이하 '앱')이다. 단말기 사용자는 목소리만으로 시리와 대화를 나누고 정보를 요구하고 전화 걸기나 일정 관리 또는 문자 메시지와 노트 작성을 지시할 수 있다. 시리는 필요한 동작을 수행하고 알맞은 정보를 추천하는 것 말고도 기기 사용자가 말한 내용에 따라 그 '기분'을 맞춰주는 답을 제시하기도 한다. 삼성전자 S보이스나 LG전자 Q보이스 등 제조사들의 기술도 같은 사례다.

정보를 요구하는 사용자 입장에선 구글나우도 사실상 시리와 마찬가지 역할을 해 주는데, 차이점이라면 구글나우가 전혀 수다를 떨지 않는다는 것 정도다. 대신 구글나우는 당연히 구글 검색 기술에 기반하고 있는데, 구글 검색은 문자로 된 정보뿐아니라 이미지와 영상에 담긴 정보도 사람처럼 개별 구성요소를 알아차리는 기술에 투자를 지속해왔다. 지난해 이미지 안의 사물을 인식하는 특허를 낸 일이나 2년전부터 안드로이드에 사용자 얼굴 인식을 통한 잠금해제 기능을 담아온 게 그런 예다.

한편 모바일 기기에서 시리나 구글나우같은 음성 UI의 등장은 명백히 터치스크린의 약점과 연관된다. 터치스크린은 정보를 입력할 때 키보드만큼 빠르지 않고 마우스만큼 정밀하지 못하다. 물론 터치스크린 단말기로도 급할 때는 뭐든 할 수 있지만, 화면 크기와 입력 방식의 제약으로 신속성과 정확성이 필요한 대량의 정보 입력이나 지식의 체계화 과정에는 적절치 못한 것으로 평가된다. 말소리는 대개 터치UI보다 훨씬 빠르고 비교적 정확하다.

전통적인 컴퓨팅 기기와 동작인식 기술의 만남인 MS 키넥트도 과거 입력도구의 한계를 넘어설 방법으로 주목된다. 키넥트 역시 음성 인식과 명령을 받아들일 줄 알지만 업계에는 그 동작인식 기능의 활용 가능성을 높게 평가해왔다. 다만 물리적인 접촉이 일어나지 않는 조작방식 가운데 제스처 인식은 음성에 비해서뿐아니라 터치입력보다도 정확성이 떨어지는 편이라 극복할 여지가 큰 분야로 꼽힌다.

이미 외부 개발자들은 MS가 배포한 소프트웨어개발도구(SDK)로 자신만의 윈도용 음성 및 동작 인식 프로그램을 만들 수 있다. 공개된 사례를 보면 윈도용 키넥트는 시각적인 정보를 다뤄야 하는 의학, 물리학 관련 실험을 수행하거나 기존 PC용 소프트웨어를 더 효율적으로 사용하는 방법의 연구에 활용되고 있다. 앞서 보행장애물을 알려주는 시각장애인 보조 장비, 다리를 움직일 수 없는 장애인을 위한 손짓 조정 의자가 개발되기도 했다. 향후 디지털사이니지, 인터랙티브무비나 애니메이션, 프로젝터와 결합되는 하이브리드미디어 등에 응용될 가능성이 제시됐다.

인텔 1억달러 투자...PC의 미래 밝힌다

인텔은 좀 더 큰 그림을 그린다. 이달초 회사는 '퍼셉추얼컴퓨팅'이라는 기술을 개발하기 위해 향후 2~3년에 걸쳐 1억달러(약 1천147억원) 규모의 펀드를 만들기로 했다. 회사는 차세대 컴퓨팅 환경에서 손과 손가락 제스처, 음성인식 외에도 감정인식, 이미지인식, 생체인식, 물체추적이라는 생소한 분야를 아우르는 기술 개발을 구상중이다.

회사쪽이 기대하는 대로라면 미래 컴퓨팅 기기는 다양한 방법으로 사용자가 누구인지, 그가 어떤 상태인지를 알아차리고 기분과 입장에 맞춘 대응을 할 수 있게 된다. 그런 장치들이 반드시 현존하는 PC, 태블릿, 스마트폰 또는 다른 지능형 가전이나 전자제품에만 해당할 이유는 없다.

필요한 SW만 갖춘다면 주택이나 동네 관공서같은 건물, 자동차나 선박같은 교통수단, 수도나 전기같은 도시자원설비, 경찰이나 소방체계같은 공공서비스에 광범위하게 도입이 가능하다. 퍼셉추얼컴퓨팅은 사람들이 인식할 수 없는 방식의 컴퓨터를 일상에 확산시키게 될 것이란 얘기다. 그러나 이런 환경에 반드시 필요한 것이 있으니 바로 SW를 구동할 중앙처리장치(CPU)다.

이미 PC용 CPU 시장을 장악하고 기업용 서버 시장에서도 활약중인 인텔이 1천억원도 넘는 큰 돈을 들여 퍼셉추얼컴퓨팅이라는 기획에 투자하려는 배경이다. 인텔은 온갖 주변 사물에 자사 CPU를 심을 수 있는 '기회의 땅'에 씨를 뿌리는 중이다. 이를 위해 인텔은 아예 제스처 추적, 말소리 인식, 얼굴 분석, 증강현실(AR) 등의 알고리즘 라이브러리를 포함해 '퍼셉추얼컴퓨팅SDK'를 만들었다. 인텔은 이를 위해 3D 제스처 인식SW 업체 '소프트키네틱'의 기술에 대한 라이선스계약을 맺었다.

현재 무료로 제공되는 인텔의 퍼셉추얼컴퓨팅SDK는 인텔프로세서 기반의 울트라북, 노트북, 데스크톱, 올인원PC, 태블릿 등에서 쓰일 수 있다. 실제 그에 기반한 애플리케이션을 개발할 수 있도록 외부 정보 인식기술을 탑재한 양방향 제스처 카메라 키트도 149달러에 판매되고 있다. 인텔은 펀드와 별도로 총상금 100만달러를 내걸고 다음달 1일 접수를 마감하는 '퍼셉추얼컴퓨팅 기술개발 대회'도 진행한다. 언뜻 보면 MS의 윈도용 키넥트와 같은 접근방식이다.

인텔의 퍼셉추얼컴퓨팅 개발도구와 카메라 키트로 뭘 할 수 있을까. 이 카메라는 일반적인 평면(2D) 카메라와 깊이(대상물이 카메라 렌즈와 닿는 거리)를 인식하는 적외선(IR)센서를 포함했다. 이 장비는 평면 화상을 입체적으로 인식할 수 있다는 뜻이다. 초당 30프레임의 인식속도와 듀얼어레이 마이크가 지원된다. SDK에는 손짓으로 즐기는 앵그리버드 스타일의 게임이나 입체 태양계 이미지 시뮬레이션 프로그램같은 샘플이 포함돼 있다.

IT업체들의 퍼셉추얼컴퓨팅 분야 관심이 두드러지는 사례로 인텔처럼 직접 대규모 펀드를 조성한 경우 외에 관련 기술을 보유한 스타트업과 벤처업체들에 대한 투자도 알려지고 있다. 최근 동작인식 기술 관련 스타트업 '리프모션'이 하일랜드캐피탈파트너스로부터 2천500만달러 투자를 유치하기도 했다. 대개 퍼셉추얼컴퓨팅은 감정인식, 시각인지, 생체인식, 음성 및 말소리 인지, 제스처 컨트롤, 5개 분야로 구별된다.

감정인식이라는 분야에서는 어펙티바, 비욘드버벌커뮤니케이션스같은 기술업체 이름이 알려졌다. 감정인식은 컴퓨터가 사람의 겉에 들어나는 감정과 관련된 신호들을 바탕으로 그 기분을 이해하고 적절하게 대응할 수 있는 기술을 연구하는 분야다.

시각인지는 기계가 카메라같은 장치로 받아들이는 시각 정보를 바탕으로 그에 담긴 개체들을 분석해내는 기술이다. 외국서는 디지털시그널코퍼레이션이나 IQ엔진같은 업체들이 이름을 알렸다. 시각인지는 MS 키넥트 기술의 기반 영역이기도 하다.

생체인식은 컴퓨터가 사람의 개성이나 특색을 파악하기 위해 정보를 수집하고 가려내는 기술이다. 이를 위해 일반적인 데이터 외에 생체의 물리적인 정보와 사람의 행동에 관련된 영역을 걸러내는 기술이 동원된다. A옵틱스테크놀로지스나 OM시그널같은 업체가 이 분야에 해당한다.

음성과 말소리 인식은 사람의 목소리와 그 내용을 낱말과 문장 형태의 텍스트 정보로 받아들이는 것이다. 베스텍이나 보시테크놀로지스같은 회사의 분야다. 받아들인 정보의 의미를 파악하고 그에 알맞은 대응을 하는 것은 검색과 인공지능같은 확장된 기술영역에서 다뤄진다.

관련기사

제스처 컨트롤은 사람의 손가락이나 머리 움직임, 팔다리 몸짓을 일종의 기계 조작 신호로 받아들여 처리하는 기술이다. 프로그램이나 이를 구동하는 장치를 다루기 위해 음성이나 리모컨 기기 없이, 원격으로 컴퓨터를 다룰 수 있게 해주는 것이다. 앞서 언급된 리프모션이나 프라임센스같은 업체가 이 분야에서 이름을 알렸고, MS 키넥트와 인텔 퍼셉추얼컴퓨팅 카메라도 일단 이쪽 응용 사례에 비중을 두고 있다.

벤처캐피탈전문사이트 CB인사이트닷컴에 따르면 지난해와 올1분기까지 벤처투자사들은 52개 퍼셉추얼컴퓨팅 관련분야 업체들에 1억8천200만달러를 투자한 것으로 알려졌다. 이는 지난해 같은기간 대비 41% 늘어난 숫자다. 그중 최대규모는 시리즈E 투자로 4천200만달러를 유치한 A옵틱스, 다음 가는 규모는 시리즈C 투자로 1천200만달러를 유치한 어펙티바다.