AWS, 그래프DB '넵튠' 정식 서비스 시작

컴퓨팅입력 :2018/06/05 15:47    수정: 2018/06/06 22:47

아마존웹서비스(AWS)가 그래프DB 서비스 '넵튠(Neptune)'을 정식 출시했다.

지난달 31일 AWS는 아마존 넵튠 서비스를 출시했다. 아마존 넵튠은 그래프 데이터베이스를 매니지드 서비스로 제공한다. 작년 11월 AWS 리인벤트 행사에서 프리뷰로 공개된 이래 반년 만에 정식 출시됐다.

그래프 DB는 데이터 항목 간 상호 관계를 중심으로 구성된다. 노드, 엣지, 프로터피 등의 3요소로 이뤄진다. 소셜미디어 네트워크나 추천 엔진, 유통, 진단, 사기방지, 게놈 시퀀싱(유전체순서결정) 등에 활용될 수 있다.

아마존 넵튠 사용 예시

AWS는 아마존 넵튠이 현업에서 사용가능한 서비스란 점을 강조했다. 개념검증(POC)부터 현업시스템까지 끊김없이 사용가능해 이미 많은 대형 고객사들이 관심을 보이고 있다고 밝혔다. 작년 프리뷰 때부터 넵튠을 사용해왔다면 현업 시스템에 정식 서비스를 바로 적용할 수 있다는 얘기다.

AWS에 따르면, 삼성전자, 피어슨, 인투이트, 지멘스, 아스트라제네카, 핀라, 라이프오믹, 블릭핀, 아마존 알렉사 등이 아마존 넵튠을 사용중이다. 사기방지부터 의료연구까지 사례도 다양하다고 한다.

아마존 넵튠은 두가지 특성을 갖는다. 일반적인 그래프 데이터베이스 모델인 RDF와 프로퍼티 그래프(PG) 등을 모두 지원한다. 이용자는 두가지 모델 중 상황에 따라 선택할 수 있다.

AWS는 관계형 데이터베이스에 익숙한 사용자의 경우 프러퍼티그래프와 쿼리언어 그렘린(Gremlin)을 선호하는 것으로 파악됐다고 설명했다. RDF와 쿼리 언어인 SPARQL은 데이터 교환 및 통합 시나리오에 적합하다고 덧붙였다. 위키피디아나 생명과학 데이터 같은 데이터세트를 통합하고 수집하는 경우로 예를 들었다.

아마존 넵튠은 OLTP와 OLAP 애플리케이션을 다 지원한다.

넵튠의 특장점은 고가용성과 지속성이다. 1천억 노드, 엣지, 트리플 등이 자동으로 6개 복제본을 가지며, 3개의 가용성존에 분산된다. 데이터는 계속 S3에 백업된다. 여러 가용성존을 오가더라도 10밀리초 안에 반복적으로 데이터를 읽을 수 있다고 한다.

보장하는 서비스 가용성은 99.99%다. 데이터베이스 장애에 30초 미만으로 탐지하고 자동 복구한다. 진일보한 보안 역량도 제공한다. 아마존 버추얼프라이빗클라우드(VPC)로 네트워크 보안을, AWS 키매니지먼트서비스(KMS)로 암호화를 제공한다.

아마존 넵튠의 경쟁 서비스는 마이크로소프트 애저의 코스모스DB다. 두 DB서비스 모두 그래프DB를 지원한다. 코스모스DB는 멀티모델인 반면, 아마존 넵튠은 그래프DB만 제공한다. 코스모스DB가 그래프 외에 더 많은 API를 제공하고, 넵튠은 두가지의 다른 그래프 API를 갖고 있다.

아마존 넵튠이 완벽하진 않다. 여타 그래프DB와 다르게 RDF와 PG란 두 모델을 한번에 지원하지만, 실제로 두 모델을 교차해 혼용하는 건 어렵다. 데이터 수집과 쿼리가 PG나 RDF 중 하나로만 가능하기 때문이다.

넵튠은 CSV, RDF, 그래프ML 등에 데이터를 수집하는 툴을 갖고 있다. 하지만 통계 파읾에 제한된다. AWS는 동적 데이터를 집어넣는 용도로 다이나모DB를 사용할 수 있다고 설명한다. 단, 수집 코드는 직접 만들어야 한다. 데이터 내보내기도 SPARQL과 그렘린으로 가능하지만 툴이 편리하진 않다.

넵튠엔 아직 RDF 추론이 없다. 추론은 룰을 처리하는 능력인데, 이 룰은 클래스, 상속, 타입 등을 포함하는 스키마 선언에 사용되고, 노드와 엣지, 프러퍼티 등을 한정하는데도 사용된다. AWS는 확장성 때문에 RDF 추론을 넣지 않았다고 하는데, 향후 지원될 것으로 보인다.

마지막으로 아마존 넵튠은 시각화에 약점을 보인다. 시각화는 그래프를 검색하고 탐색하는데 중요한 기능이다. 넵튠은 파트너를 통해 시각화를 제공한다. 시각화를 하려면 AWS의 파트너 중 하나를 선정해야 한다.

그래프DB 전문업체는 아마존 넵튠에 대항할 지, 넵튠스러운 경쟁작을 만들 지 선택해야 하는 입장이다.

그래프DB 분야 선두업체인 NEO4j의 창업자인 에밀 아이프렘 CEO가 가장 활발히 의견을 밝히고 있다.

아이프렘은 AWS와 차별화할 다섯가지 요소를 내놨다. 집중(Focus), 침투성(pervasiveness), 생태계, 데이터, 수직적 통합(vertical integration) 등이다. 대형 클라우드업체의 그래프DB 시장 진입에 대응할 업계의 방향성을 보여준다.

집중에 관해 그는 스포티파이 CEO인 다니엘 에크의 발언을 인용한다. "아마존, 애플, 구글 등에게 음악은 취미지만, 스포티파이에게 음악은 핵심 사업"이란 발언이다. 마찬가지로 그래프 기술 역시 AWS에게 취미일 것이고, 그래프DB에 집중하지 못해 전문업체보다 더 나은 기술을 만들기 힘들 것이란 전망이다.

관련기사

침투성의 경우 구축형에서 클라우드로 변환하기 힘들다는 점이다. 생태계는 단하나의 프레임워크나 프로그래밍 언어만 존재하지 않듯, Neo4j나 넵튠도 병존한다는 얘기다. 데이터의 경우 Neo4j가 실험이나 체험을 시도하려는 사용자에게 집입을 쉽게 해준다는 점을 설명했다. 데이터세트를 구하기 편하다는 것이다. 수직적 통합의 경우 Neo4j가 DB 이상의 스택을 쌓게 될 것이라고 강조했다. Neo4j는 그래프DB 분야의 오라클과 타블로로서 더 풍부한 오퍼링이 가능하다고 설명했다.

확실히 아마존 넵튠의 등장으로 그래프DB 분야는 지평을 넓히게 됐다. 틈새시장에서 주류시장으로 확대하는 과정에서 대형 클라우드 회사와 전문기업의 혈전이 펼쳐질 것으로 보인다.