네이버 '소방대', 장애 영향 파악 1시간→5분 단축

장애 관제 위한 통합 모니터링 시스템 완성

인터넷입력 :2019/10/29 19:59

네이버 검색 시스템 위기 발생 시 ‘소방대’ 역할을 하는 팀이 최근 트래픽이나 위기 관련 지표를 한 데 모아 보여주는 통합 모니터링 시스템을 구축하는 데 성공하면서 체계를 더욱 다잡았다.

네이버 검색시스템 신뢰성(SSR)팀 김재헌 책임리더와 유호균 개발자는 29일 서울 삼성동 코엑스에서 열린 네이버 개발자 행사 ‘데뷰’에서 ‘실패에서 배워나가는 SRE’라는 주제로 발표했다.

SSR팀은 4년 전 네이버에 처음 조직된 팀으로, 당시 네이버에서 8년간 엔지니어로 일해 온 검색팀 직원의 1인 체제에서 시작됐다. 현재 직원 수는 10명으로 규모가 커졌다.

네이버 SSR팀 김재헌 책임리더.

SSR팀이 담당하는 업무는 SRE(Service system Reliability)로, 서비스 안전성을 유지하기 위해 위기 발생 전 징후를 파악하고 이를 해결한다. 네이버 SSR팀이 소방대로 불리는 이유다.

SRE는 본래 해외에서 ‘Site system Reliability’로 알려졌다. 구글, 페이스북, 넷플릭스 등 대형 IT기업들이 자체 SRE팀을 운영하고 있다. 아직까지 국내 IT기업 중에 SRE 업무를 전담하는 팀을 보유한 곳은 드문 상황에서, 네이버는 ‘site’ 대신 ‘service’로 단어를 치환해 SRE를 명명하고 있다. 네이버 서비스 중 아직 검색 서비스에만 SRE를 적용하고 있다.

김 리더는 “네이버 검색은 365일, 24시간 중단 없이 제공돼야하는 공공재로 여겨 진다”며 “이때 나는 시스템적으로 원인이 추적이 안 되는 장애는 없다는 사명감을 갖고 일해왔다”고 밝혔다.

SSR팀은 지난 2017년 말 검색 관련 트래픽 현황이나 위기 관련 지표들을 한 데 모아 보여주는 통합 모니터링 시스템을 구축해야 할 필요성을 느꼈고, 올해 5월 대시보드 형태인 ‘모니터’를 선보였다. 모니터를 통해 수시로 리포트를 작성해 팀 내에 공유하고, 검색 서비스에 큰 변화가 있을 경우엔 전사적으로도 리포트를 낸다.

통합 시스템을 구축했으면 이를 제대로 활용하는 게 SSR팀의 일. 김 리더는 “통합 모니터링 대시보드를 만들기 전까지는 SSR팀의 목표가 이를 구축하는 것이었으나, 이를 만들고 활용하고 나서부터는 목표가 바뀌었다”며 “지금까지 못 보던 새로운 장애 케이스를 발견하고 극복하면서 SRE 업무를 한층 고도화 할 수 있었다”고 강조했다.

네이버 SSR팀 유호균 개발자.

유 개발자도 “SRE는 모니터링 도구를 만드는 사람이 아니라 본질적으로 장애와 싸우는 일을 한다”며 “이제는 장애를 어떻게 줄일 수 있을지 고민하게 됐다”고 설명했다.

SSR팀은 먼저 위기 대응 시간을 단축하는 방법을 강구했다. 장애가 발생하면 보통 이상 징후 탐지→의사결정→복구→영항도 파악→상세 원인 분석 및 재발 방지 대책 수립의 단계를 거치게 된다. SSR팀은 모니터 시스템을 비롯해 자체 공식을 개발해 적용함으로써 이상징후 탐지와 의사결정, 영향도 파악에 소요되는 시간을 대폭 줄일 수 있었다. 특히 영향도 파악에 걸리는 시간을 기존 1시간에서 5분으로 줄였다.

장애 건수를 줄이는데도 기여했다. 장애 건수는 2017년 57건에서 작년 49건, 올해 9월 기준 18건으로 감소했다.

네이버 SSR팀의 노력으로 장애 영향도 파악에 드는 시간이 기존 1시간에서 5분으로 줄었다.

별로 중요하지 않거나 잘못 울리는 위기 경보로 인한 직원들의 피로도를 줄이기 위해 경보의 정확도도 높였다. 실제로 이상 징후가 탐지되면 SSR팀 직원들에게 경보 문자가 간다.

유 개발자는 “작년 크리스마스가 화요일이었는데, 평화로운 크리스마스를 보내려고 생각하던 차에 경보가 울렸다”며 “왜 이렇게 경보가 오나 원인을 파악했더니, 시스템이 공휴일이 아닌 평일의 트래픽 양상과 달라 경보를 울려댔던 것”이라고 설명했다. 이어 “‘공휴일과 평일’의 케이스에 나타나는 학습을 따로 시켜 경보 피로도를 낮출 수 있었다”고 덧붙였다.

SSR팀은 작년 10월 열린 네이버 데뷰 행사에서도 연사로 참여해, 지진 등 재난 상황이나 스포츠 이벤트 때 늘어나는 트래픽에 대처했던 일화를 소개해 주목을 받은 바 있다. 당시 월드컵에서 선수가 골을 넣으면 트래픽이 늘어나는 게 아니라 TV 중계를 보느라 오히려 감소한다고 밝혔다.

다음은 발표 후 질의응답과 기자가 김 리더와 유 개발자를 따로 만나 진행한 인터뷰를 정리한 내용이다.

네이버 SSR팀 김재헌 책임리더와 유호균 개발자.

-경주 지진, 피파 월드컵 일화 외에 최근 1년엔 트래픽 문제와 관련해 어떤 일들이 있었나?

김 : 올초 드라마 ‘스카이캐슬’이 종영했는데, 마지막 회보다 그 직전 회에 트래픽이 더 많았다. 인기가 많은 드라마는 보통 마지막회 전 편에 더 트래픽이 많은 양상이 나타난다. 아마 전 편에서 반전이 나오거나 갈등이 해소되는 부분이라 그런 것 같다.

유 : 지난 6월 방탄소년단이 영국 웸블리 스테디움에서 콘서트를 했었을 때가 기억에 많이 남았다. 혹 서비스에 문제가 발생하지는 않을까 장애 관제를 하고 있었다. 그 이벤트는 한국시간으로는 새벽이 진행됐다. 그런데 결국 장애 없이 잘 끝났다. 나 말고도 다른 SSR 팀원들도 깨있었다. 열심히 봤는데 아무 사건도 없어서 허무했다. 모니터 한쪽엔 관제 시스템을, 다른 한쪽엔 공연 영상을 틀어놨었다. 덕분에 방탄소년단 공연도 끝까지 봤다.

-트래픽이 폭증할 때 위기라는 것은 알겠는데, 줄어드는 것은 왜 문제인가?

김 : 트래픽이란 마치 사람의 생체주기와 같이 일정한 패턴이 있다. 가령 오늘의 지식인 검색 트래픽이 내일과 별로 다르지 않다. 그런데 어느 날 갑자기 90%가 빠지면 이는 서비스가 죽었다는 뜻이다.

-김 리더는 작년과 올해 데뷰 발표 말미에 늘 '인재를 모신다'며 공개 구인하더라. 유호균 개발자는 언제 이 팀에 합류했나?

유 : 작년 여름에 인턴으로 이 팀에 합류했다. 정규직 전환된 지 1년됐다. 당시 아직 SRE는 잘 알려진 분야도 아니고, 시스템에 대한 배경지식을 가진 사람들이 하는 업무로 알려졌으나 나는 대학 4학년 때 우연히 어떤 블로그에서 SRE에 대한 이야기를 접했다. 유튜브나 책을 보면서 SRE에 대해 배워나갔고, 국내에 있는 SRE 업체들을 리스팅해 지원했었다. 그런데 신입으로서 지원할 수 있는 곳이 별로 없었는데 이 팀에서 인턴을 뽑는다고 해서 들어오게 됐다.

사실 블라인드(업계에 속한 개인들이 소식을 공유하는 앱) 계정이 있었서 SRE에 대한 정보를 찾고 있었는데, 네이버 자회사인 라인에 SRE 팀 경력을 뽑는다는 글에 내가 ‘나 좀 도와달라’고 올렸다. 그랬더니 SRE 다른 리더가 ‘우리 라인은 아닌데 SRE를 한다. 언제 밥 한 번 같이 먹자’라고 적극적으로 기회를 주셔서 입사까지 하게 됐다.

관련기사

-SSR팀은 앞으로 어떤 일에 집중할 계획인가?

김 : 네이버는 일본, 태국, 대만 등 해외에서 라인 검색 서비스를 제공하고 있다. 라인이라 하더라도 검색과 관련해서는 네이버 내 서치앤클로바 CIC(사내조직)에서 총괄한다. 아직까지 SSR팀은 한국 검색 시스템 상의 장애만 관측했는데, 앞으로 일본 라인 검색에서의 SRE도 담당하게 됐다. 일본은 조금 나은데, 태국이나 대만으로까지 SRE를 확장하면 고려해야 할 게 많아진다. 해당 국가들은 시차가 있고 검색 양상도 다르기 때문이다. 네이버의 음성비서 '클로바'를 통한 음성 검색에까지 SRE를 도입할 계획은 아직 없다.