MS, 데이터 분석 새 창 열었다

[마이크로소프트 빌드2020 돌아보기] ① 데이터베이스

컴퓨팅입력 :2020/06/01 13:09    수정: 2021/07/07 13:40

기업은 내부에 수많은 데이터베이스를 보유한다. 각종 트랜잭션을 처리하는 운영계 데이터베이스가 비즈니스를 구축하는 기반역할을 하며, 데이터 분석을 위한 별도의 데이터베이스도 존재한다. 각 데이터베이스는 각자의 목적에 맞게 구축되고, 정해진 용도에 따라 고정된다.

기업을 둘러싼 온갖 환경은 빠르게 변화하고 있다. 기업은 비즈니스 전반을 디지털화하고, 데이터에 기반한 의사결정을 하려 한다. 이같은 디지털 트랜스포메이션을 이뤄야 발빠르게 변화에 대응하고, 의사결정 속도를 한차원 높일 수 있다 여기기 때문이다.

그에 따라 각기 운영되던 데이터베이스는 점차 경계를 허물어야 하는 압력을 받고 있다. 기업은 지금 당장 일어나는 일을 분석해 생산성을 높이는 의사결정을 하고싶어 하는데, 개별적인 데이터베이스로는 한계가 뚜렷하다. 기존의 데이터 분석은 실시간성을 요구 받고 있으며, 그를 지원하는 인프라를 꾸리려는 수요 증가에도 불구하고, 해법을 찾고 채택하는 작업이 쉽지 않다.

애저 시냅스 링크 구성

마이크로소프트가 데이터의 경계를 허물고, 실시간으로 여러 데이터를 통합적으로 분석, 활용할 수 있는 새 창을 열었다.

■ 애저 시냅스 링크, 배치 작업 없는 분석 시스템

마이크로소프트는 지난달 19일 온라인으로 개최한 연례 개발자컨퍼런스 '빌드2020'에서 새로운 애저 기반 데이터 분석 서비스 '애저 시냅스 링크'를 공개했다.

애저 시냅스 링크는 운영 데이터베이스에서 바로 데이터 분석을 할 수 있는 서비스다. 애저 코스모스 데이터베이스(Azure Cosmos DB)에서 바로 사용가능하며, 추후 모든 주요 데이터베이스를 지원할 예정이다.

애저 시냅스 애널리틱스는 작년 11월 이그나이트 컨퍼런스에서 공개된 클라우드 기반 데이터웨어하우스(DW) 서비스다. 기존 애저SQL 데이터웨어하우스의 업그레이드 버전이다.

애저 시냅스 애널리틱스는 기본적으로 아파치 스파크와 SQL 온디맨드를 통합해 사용가능하다. SQL온디맨드는 마이크로소프트의 애저 데이터레이크 스토리지(ADLS) 내 파일에 곧바로 접근하는 T-SQL(Transact-SQL) 언어 기반의 쿼리엔진이다.

마이크로소프트 애저 시냅스 링크 구성도

시냅 스스튜디오 브라우저 기반 개발환경이 애저 데이터팩토리와 파워BI를 이용하는 도구다.

애저 시냅스 링크는 운영DB의 데이터를 ETL 과정없이 곧바로 조회하고, 분석할 수 있게 해준다. 애저 코스모스DB와 실시간으로 동기화되는 DB 계층이 있어서 쿼리를 바로 날려 값을 받을 수 있다. T-SQL 쿼리를 애저 데이터레이크 스토리지 외에서도 쓸 수 있게 된 것이다.

운영DB의 데이터를 조회해 시각화하거나 분석하고, 머신러닝에 활용해도 운영DB 성능을 저하시키지 않는다고 마이크로소프트 측은 설명한다.

빅데이터 분야에서 시작된 데이터레이크와 운영DB 데이터 활용을 병용할 수 있게 한 것으로, 데이터사이언스 역량을 한차원 높였다.

정형데이터를 분석하는 전통적인 DW는 기업의 운영 DB에서 데이터를 추출, 변환, 적재(ETL)하는 작업을 거쳐 DW 전용 DB에 쌓아야 한다. 이 ETL을 안정적이고 완성도 있게 유지하는 것도 어려운 일이다.

무엇보다 데이터를 DW로 옮겨야하므로 분석을 실시할 시점의 데이터는 오래전 내용을 담게 된다. 통상 수시간씩 걸리기 때문에 비즈니스를 쉬는 새벽시간에 배치 작업을 하고, 다음날 오전 데이터를 분석한다. 분석가는 하루 전날의 데이터로 분석해, 이미 실효 시점이 지난 결과값을 만들어낼 수밖에 없다.

로한 쿠마르 마이크로소프트 애저데이터 엔지니어링 기업부사장(CVP)은 "운영 DB와 분석 시스테 사이의 장벽은 극복하기 어려운 문제"라며 "ETL 파이프라인을 생성하는 식의 현존 솔루션은 매우 복잡하고, 비용이 크며, 관리하기 힘들다"고 설명했다.

■ 버튼 클릭 하나로 분석부터, 시각화, 머신러닝까지

오늘날 시장이 급변하기 때문에 많은 기업이 고객의 생각과 행동을 실시간으로 파악해 대응하길 바라고 있다. 이에 실시간 데이터 분석이 전통적 DW 영역만큼 중요해졌다.

실시간 데이터 분석을 하려면 DW와 별도의 데이터 플랫폼을 구축해야 한다. 이제 비정형 데이터까지 처리해야 하고, 과거의 데이터 처리 기술과 통합하는 작업이 매우 까다롭다. 운영 DB의 데이터를 바로 분석하려 하면, 그 DB를 기반으로 한 서비스의 성능이 저하되거나 중단될 수도 있다. 결국 데이터 분석 비용과 노력의 대가는 실시간성, 실효성 측면에서 낮다.

애저 시냅스 링크 활성화 버튼으로 데이터 분석과 시각화, 머신러닝 등의 준비가 끝난다.

애저 시냅스 링크는 데이터 이동이나 운영 DB의 과부하 없이 실시간 데이터분석을 단일 클릭으로 수행할 수 있다. 복잡한 과정없이 브라우저 확장을 실행하듯 운영DB 화면에서 ‘시냅스 링크 활성화’ 버튼만 클릭하면 된다.

이용자는 선호하는 애저 데이터베이스 서비스에서 버튼 하나만 클릭하면 곧바로 애저 시냅스 링크를 쓸 수 있다. 각종 설정이 알아서 이뤄지기 때문에 별도 작업이 없다. 운영DB의 데이터는 언제나 자동으로 업데이트된 정보를 애저 시냅스 애널리틱스와 동기화한다.

애저 시냅스 애널리틱스는 컬럼 구조에 최적화됐으며, 인덱스 방식도 유사하다. 데이터베이스 연산에 추가적인 자원이 필요없어 비용도 효율적으로 쓸 수 있다.

로한 쿠마르 기업부사장은 "가장 좋은 부분은 버튼 클릭 한번으로 모든 것을 취할 수 있다는 것"이라며 "복잡하고 고비용의 ETL 파이프라인을 구축, 운영하거나 트랜잭션 성능에 부정적 영향을 걱정하지 않아도 된다"고 강조했다.

애저 시냅스 링크를 활성화하면, 이후 애저 시냅스 애널리틱스에서 각종 분석 및 시각화 기능을 쓸 수 있다.

현재 애저 시냅스 링크는 코스모스DB에서만 쓸 수 있다. 마이크로소프트는 향후 애저SQL, 포스트그레SQL용 애저 데이터베이스, 마이SQL용 애저 데이터베이스 등 다양한 운영 DB 서비스에서 쓸 수 있게 될 것이라고 밝혔다.

마이크로소프트는 애저 시냅스 링크를 '하이브리드 트랜잭션 분석 처리(HTAP)'의 영역으로 묘사한다. HTAP의 클라우드 네이티브 구현이 애저 시냅스 링크란 설명이다.

기조연설에서 로한 쿠마르 부사장은 대형 자동차 제조사에서 애저 시냅스 링크를 활용하는 시나리오를 시연했다. 가상의 대형 자동차회사는 세계 각지에 여러 공장을 운영중이고, 각 생산라인은 데이터를 중앙으로 보내고 있다. 경영자는 KPI 대시보드를 파워BI로 관리하고 있다.

쿠마르 부사장에 따르면, 애저 시냅스 링크 사용 전 이 기업은 생산시설에서 벌어지는 일을 곧바로 알기 어렵다. 코스모스DB는 99.999% 가용성으로 서비스를 지원하고, 애저 시냅스 링크는 지금 당장 공장에서 벌어지는 상황을 알 수 있도록 다양한 분석 경로를 제공한다. 파워BI로 실제 현장에서 벌어지는 불시의 사고에 대응하도록 지원하고, 애저 머신러닝 기능으로 공급망과 설비의 운영을 자동화하도록 지원한다.

■ 코스모스DB 고도화, 엣지 전용 SQL 서비스 출시

NoSQL 서비스인 애저 코스모스DB 자체도 개선됐다. 코스모스DB는 새 오토스케일 기능과 서버리스 모드를 제공하게 됐다. 오토스케일은 이용자의 설정으로 10~100% 사이에서 작동한다. 서버리스 모드는 사전 정의된 연산 규모에 맞춰 과금된다.

이같은 가격정책은 코스모스DB의 비용효율성을 높이고, 광범위한 개발자에게 다가설 수 있게 한다. 마이크로소프트는 코스모스DB를 개발자 친화적인 NoSQL 데이터베이스로 규정한다. 주 타깃은 대규모의 글로벌 웹스케일 애플리케이션이다. 새 가격정책 덕에 소규모 애플리케이션 개발자에게도 매력을 어필할 수 있게 됐다.

마이크로소프트 빌드2020 공식 포스터

마이크로소프트는 코스모스DB용 자바SDK 4.0 버전을 내놨다. 자바 생태계의 매끄러운 진입을 지원하기 위해서다.

마이크로소프트는 또한, 마이SQL용 애저 데이터베이스와 포스트그레SQL용 애저 데이터베이스 등 오픈소스 DB 지원 기능을 개선했다. 두 플랫폼 모두 애저액티브디렉토리 인증, 프라이빗 링크, 3년 리저브드 인스턴스 가격 등을 새로 제공한다. 이용자관리형키(BYOK)를 통한 데이터 암호화가 다음달 프리뷰로 출시될 예정이다. 포스트그레SQL용 애저 데이터베이스의 경우 이에 더해 'wal2json' 논리적 디코딩, 애저 데이터베이스 마이그레이션 서비스를 사용한 '포스트그레SQL용 애저 데이터베이스 하이퍼스케일 온라인 이전' 등의 기능도 추가됐다.

관련기사

엣지 컴퓨팅 환경을 위한 데이터베이스 서비스도 나왔다. SQL서버의 경량화 버전인 '애저 SQL 엣지'다. 엣지 디바이스에서 SQL서버의 기능을 사용하게 해준다. 이 서비스는 윈도나 리눅스 OS 환경의 64비트 x86, ARM 아키텍처로 사용가능하다. 클라우드 상에서 학습시킨 AI를 엣지 디바이스로 배포하고 지속적으로 개선시켜가는데 쓸 수 있다. 애저 스트림 애널리틱스의 엣지 특화 버전과 통합 가능하다.

SQL 엣지는 퍼블릭 프리뷰 상태이며, T-SQL 언어를 엣지, 온프레미스, 클라우드 등에서 모두 쓸 수 있다.