[칼럼]IT조직, 여전히 빈약한 장애 대응 구조

최영석입력 :2012/05/08 10:15

최영석

IT조직의 존재 이유에 대해서는 수차례 언급해왔지만 결국 사용자들에게 약속한 대로 IT를 공급해내는 것이다. 끊기지 않고 공급할 수 있는 IT조직은 유토피아 세상에나 있을 법한 이야기이므로 ‘약속한 대로’라는 표현을 썼다는 점을 이해하길 바란다.

IT조직이 고도화 될수록 IT를 둘러싼 관심은 IT중단을 유발하는 장애를 어떻게 다룰 것인가로 수렴하고 있는 것 같다.

중대한 장애라고 하면 과거에는 매스컴에 나올 법한 어마어마하게 큰 장애 사건을 지칭했다. 그러나 최근에는 사용자 업무를 중단하게 만드는 모든 장애를 중대한 장애로 다루어 달라고 하는 사용자 측의 요구사항이 늘어나고 있고, 이를 적극적으로 반영하고 있는 IT조직들이 증가하는 추세다.

하지만 장애 대응의 중요성이 높아지고 있는 추세와는 달리, IT조직의 내부에는 여전히 장애를 대응하는 방법들이 개별 IT담당자에 의존하고 있는 모습을 발견할 수 있다. 이로 인해 장애와 관련된 정보들이 필요한 시간 내에 궁금해 하는 이해관계자들에게 약속된 채널을 통해 매끄럽게 흘러가지 못하고 있다.

IT조직의 빈약한 장애 대응 구조에 대해 이야기 해보자.

■IT담당자에 집중되어 있는 장애 정보

장애가 발생하게 되면 IT조직과 조금이라도 이해관계가 있었던 사람들은 답답함을 느낀 경험을 가지고 있다. 왜 답답해할까? 알고 싶은 정보가 전달되지 않기 때문이다.

장애가 발생하면 이를 알고 있는 IT담당자에게 전화해봤자 통화가 안 된다. 그 담당자는 장애가 발생한 동안 매우 바쁘기 때문이다. 장애 해결을 위해 직접 또는 벤더를 불러대느라 뛰어다니고, IT조직 내의 윗분들에게 보고하느라 정신이 없기 때문이다.

IT조직 내에서는 장애에 대한 모든 정보의 소스가 IT담당자 한 명에게 몰려있는 경우가 많다. 주로 장애가 발생한 시스템을 운영해오던 담당자가 장애에 대한 모든 정보의 유일한 소스다.

장애가 발생하면 IT담당자의 라인매니저, 다른 부서의 중간 관리자, 임원들은 장애의 유일한 IT담당자를 빙 둘러싸고 구경하면서 질책이 섞인 질문을 퍼 부어대며 장애 정보를 달라고 아우성이다. IT담당자는 구경꾼들의 이런 압박 속에서 본인이 운영하는 시스템의 장애를 해결해야 한다.

만약 이런 압박 속에서 침착하게 장애의 원인, 진척사항 및 해결 가능성 등의 장애 정보를 구경꾼들에게 전달하고, 장애 해결을 위한 여러 방법들을 척척 구사해 나가는 그런 IT담당자가 있다면, 가히 김연아급이라고 할 수 있다.

대부분의 IT담당자들은 당황한 나머지 정제되지 않는 정보나 불확실한 추정과 과도한 확신에 기반한 불량 정보를 구경꾼들에게 전달하고 구경꾼들은 이를 실어 나른다.

■이해관계자에 대한 부실한 장애 정보

빈약한 장애 대응 구조를 가진 IT조직은 장애가 발생하게 되면 계약관계에 있어 갑의 위치에 있는 사람들만 챙기는 경향을 보인다. 따라서 장애에 대한 시의 적절한 정보는 이들에게만 전달되게 된다.

정작 IT사용자들은 장애가 발생했다는 사실을 문자나 메일로 통보 받지만 진척사항이나 언제 다시 사용할 수 있는지에 대한 정보는 전달받지 못한다. 특히 장애가 발생하기 바로 전에 IT시스템을 통해 정보를 처리하고 있거나 응답을 기다리고 있던 IT사용자는 답답하기 이를 때가 없다.

이들 IT사용자들은 장애 발생 전에 입력하고 있던 정보가 날아간 것인지 아니면 살아있는 것인지를 알고 싶어 한다. 만약 이 정보가 중요한 고객이나 새로운 비즈니스 계약에 밀접하게 관련되어 있는 것이라면 IT사용자들은 더 답답해한다.

이들 IT사용자들은 IT장애가 본인의 업무에 어떤 피해를 미치게 되는 지를 즉각 알고 싶어 한다. 그러나 이들에게 제공되는 정보는 문자나 메일에서 알려준 기본적인 장애 정보뿐이다.

IT사용자는 본인이 처리하고 있었던 업무와 관련해 구체적인 정보를 얻기 위해서 장애를 처리하고 있는 IT조직에 접촉을 시도할 수 있다. 하지만 IT서비스 데스크에서는 문자로 이미 알고 있는 정보만 앵무새처럼 되풀이한다.

원하는 정보를 제공할 수 있는 IT담당자에게 접촉을 시도해보지만 그 IT담당자는 지금 압박 속에서 구경꾼들에 둘러싸여 있어서 전화를 받을 수 없거나 언제나 통화 중이다.

■장애 정보 확보 및 커뮤니케이션 채널 문제

IT담당자에게 장애에 대한 정보를 의존하는 IT조직은 대부분 객관적인 구성정보가 부실하다. 장애가 발생한 장비나 애플리케이션의 용도, 상태, 이력과 최근에 이들 구성요소에 영향을 줄 수 있는 변경 작업에 대한 정보를 얻을 수 있는 소스가 없다. 혹은 있더라도 이를 즉각적으로 조회하거나 참조할 수 있는 방법이 없다.

그러다 보니 장애와 같은 긴박한 상황에서 IT담당자 이외의 소스를 찾아보려는 노력을 하지 않는 것이다.

장애 정보의 소스를 추가로 확보하더라도, 이것을 누구에게 언제 어떤 채널로 실어 나를 것인지는 또 다른 문제다.

정보를 달라고 아우성치는 일부 이해관계자들에게만 수동적으로 정보를 제공하거나, 도무지 무슨 말인지 알아 듣기 어려운 IT 기술 용어를 사용자 측에 융단 폭격하는 것은 IT조직이 보유하고 있는 전형적인 커뮤니케이션 프로토콜의 결함이다.

■장애와 IT사용자의 구체적인 업무 피해

IT시스템의 장애가 미치는 피해의 크기는, 이것을 활용하는 IT사용자의 업무에 따라 완전 달라진다. 게다가 장애가 발생한 시점이 언제인가에 따라 IT사용자의 피해가 클 수도 있고 작을 수도 있다. 장애 발생 시점은 IT사용자의 업무 부하 특성에 밀접한 연관관계를 가진다는 의미다.

IT사용자가 영업담당자라고 하자. 영업담당자의 업무상 쉬운 고객 또는 까다로운 고객이 있을 수 있다. 또 중요한 고객이 있을 수 있고, 상대적으로 덜 중요한 고객이 있을 수 있다.

만약 까다롭거나 중요한 고객의 요청사항을 처리하거나 계약관련 업무를 IT시스템을 통해 진행하고 있는 동안에 장애가 발생했다면, 영업담당자는 장애로 인해 곤란한 상황에 빠질 수 있다. 최악의 경우 고객을 잃을 수도 있다.

IT조직이 IT시스템을 설계할 당시 업무의 중요도와 민감도를 고려했을 수도 있다. 그러나 대부분의 IT조직들은 IT시스템내의 하부 정보 처리 기능들이 중단됐을 경우, IT사용자들의 업무에 얼마나 큰 피해를 미칠 것인지를 구체적으로 평가해보지 않은 경우가 많다.

장애가 발생하면 장애를 해결해서 정상상태로 돌리는 것에만 집중하는 것은 전통적인 IT조직의 목표다. IT조직이 장애 대응에 있어 좀 더 수준이 높아지려면 IT시스템내의 모든 기능들을 해체해서 각 기능들이 중단되는 경우, IT사용자 그룹을 포함한 이해관계자의 업무에 어떤 상황과 피해가 발생하는 지를 알아내야 한다.

IT서비스는 사용자 업무를 IT기능으로 대체 또는 변환해온 결과물이다. 변환의 과정에 따라 업무와 IT기능은 일대일 관계가 아닌 N대N의 복잡한 관계를 가진다. 더군다나 업무가 중단되거나 IT기능이 중단되는 경우의 피해는 면밀한 분석 없이는 상관관계를 예측할 수 없다.

IT조직은 IT를 제공하는 주체이므로 IT기능의 입장에서 사용자 업무에 미치는 중단의 영향을 평가해야 한다. 이미 사용자들은 업무 중단의 입장에서 IT기능 중단을 평가하기 시작했다는 점은 그간의 칼럼에서 늘어놓은 이야기들이다.

■장애 대응 구조의 책임자 선정

최근 IT서비스 분야의 ISO 국제 표준이 개정되면서 개정되는 내용에 장애와 관련한 의미심장한 항목이 추가됐다. IT조직의 최고 경영자는 중대한 장애를 책임을 지는 대리인을 선정해야 한다는 내용이다.

이것을 축소 해석하는 IT조직들은 위에서 언급한 불쌍한 IT담당자 중의 한 명을 골라서 장애 대리인 또는 담당자라고 부르고, 향후 장애가 났을 경우에도 힘없는 이들 IT담당자를 쪼아댈 것이다.

개정된 국제 표준의 정확한 의미는 IT조직의 전사 장애 대응 구조에 대한 이야기다. 중대한 장애에 대해서는 IT조직의 최고 경영자가 직접 보고를 받아야 하며 장애 해결에 있어 최고 경영자와 동등한 수준의 권한을 가질 수 있도록 보장하는 장애 최고 책임자를 최고 경영자가 직접 지정하도록 하라는 것이다.

관련기사

국제표준의 흐름을 과도하게 받아들이는 것도 문제일 수 있겠지만 이를 애써 축소하거나, 하고 있지도 않으면서 하고 있다고 엉터리 주장을 하는 IT조직이 있다면 이것은 더 큰 문제다.

IT조직에서 또 다른 CIO(Chief Incident Officer)의 출현이 화두로 다루어지길 기대해 본다.

*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.