못말리는 천재지변, 클라우드 어쩌나

일반입력 :2011/08/09 11:00    수정: 2011/08/09 12:00

아마존 클라우드 서비스가 벼락을 맞아 2일 동안 마비되는 사태가 발생했다. 수백 수천개 기업의 IT인프라를 한곳에 몰아넣고 서비스하는 클라우드가 천재지변으로 중단되면서 업계우려가 고조되는 모습이다.

8일(현지시간) 지디넷은 7일 유럽 아일랜드 더블린지역에 친 벼락으로 아마존의 데이터센터 전력공급이 중단됐다고 보도했다. 이로 인해 유럽지역의 EC2 등 클라우드 서비스가 중단되는 사태가 벌어졌다. 해당 지역에 데이터센터를 운영중인 MS 역시 기업 클라우드 서비스를 중단했다.

아마존 데이터센터의 정전은 오전 10시41분 시작됐고 전원복원은 오후 1시47분 시작됐다. 3시간만에 복구된 것이다. 다만, 폭발 수준의 피해 규모로 완벽한 복구에 오랜 시간이 필요해졌다. 아마존 측은 24~48시간 뒤 서비스를 정상화하겠다고 밝혔다.

현재 아일랜드 지역 아마존웹서비스(AWS)는 서비스 정상화를 보이지 않고 있다.

AWS는 대시보드를 통해 “전기 장애 규모 때문에 많은 수의 EBS 서버가 전력공급이 중단됐고, 볼륨 복원 전 수동조작이 필요하다”며 “볼륨 교체작업은 모든 데이터의 복제본을 만드는 것을 요구하며, 모든 데이터는 여분 수용량 대부분을 소비해, 복원 작업을 지연시키고 있다”고 설명했다.

AWS는 이어 “몇몇 일래스틱블록스토리지(EBS) 볼륨을 첨부한 EC2 인스턴스뿐 아니라. EBS 볼륨 첨부 없는 EC2 인스턴스 복원해왔다”며 “사용가능한 가용성존에서 정전된 가용성존으로 용량을 이동하는 것으로써 가용성을 추가하는 수용량 설치작업을 진행중이다”라고 덧붙였다.

아마존은 피해기업들에게 복원 스냅샷을 제공할 것이라고 약속했다. 서비스 복원 전 볼륨이 온전하다는 것을 입증할 수 있도록 한다는 계획이다.

운영중단된 서버는 아마존이 운영하는 서유럽 가용성존 3곳 가운데 하나다. 그러나 복원작업은 나머지 2개 가용성존에 연쇄작용을 일으켰다. 때문에 관계형 데이터베이스 서비스(RDS)도 영향을 받았다.

아마존의 서유럽 가용성존은 이 회사의 유럽 유일의 데이터센터다. 유럽 지역 AWS 이용자들이 장애 발생시 다른 아마존 가용성존으로 패일오버 할 수 없다는 의미다.

일반적으로 데이터센터는 갑작스러운 정전 상황 발생 시 비상전력을 가동할 수 있다. UPS로 불리는 비상전원공급장치로 유사시 정전 발생 직후 전원을 공급하도록 하기 때문이다. 그러나 이번 사건에서 아마존 데이터센터는 백업전원 시스템이 제대로 작동하지 않은 것으로 보인다.

아마존 측은 “더블린 가용성존에 전원을 공급하는 발전소와 연결되는 변압기가 벼락을 맞아 불타버렸다”며 “주전원 공급이 끊기면 자연스럽게 백업 발전기가 작동하도록 돼 있지만, 폭발은 컸던 탓에 전력공급 변환장치 일부로 번졌다”고 해명했다.

이 회사는 “백업 발전기는 전산망으로 연결돼 작동되는데 사용되기 전에 페이즈 동기화가 반드시 필요하다”라며 “백업 발전기가 동기화 절차를 겪기 전에 폭발이 번져 작동하지 못했다”라고 덧붙였다.

AWS 측은 가용성존 전원 복원작업을 진행중이며, 제어시스템과 다른 요소 사이의 절연문제를 면밀히 점검하겠다고 밝혔다.

관련기사

고객들은 불만을 터뜨렸다. 임시로 마련된 게시판을 통해 복원을 돕는 정보가 불충분하다는 불만이 다수 제기됐다. 한 이용자는 “아마존으로부터 빈약한 피드백만 받고 있다”고 불만을 털어놨으며, 또다른 사용자는 “나의 인스턴스가 유지됐길 바라지만, AWS가 밝힌 24~48시간은 나의 회사를 완벽하게 파멸시킬 수 있다”고 성토했다.

한편, MS 역시 더블린 지역 데이터센터에서 제공하는 비즈니스 생산성 온라인 스탠다드 스위트 역시 정전 사태를 겪었다. 이 서비스는 오후 5시45분경 모든 고객들에게 복원됐다고 MS 측은 밝혔다.