아마존 클라우드, 1년만에 또 장애

일반입력 :2012/06/16 20:18    수정: 2012/06/17 14:38

최근 아마존웹서비스(AWS)가 전력 문제로 서비스 장애를 일으킨 것으로 확인됐다. 이번에 피해를 입은 서비스는 드롭박스, 핀터레스트, 헤로쿠, 힙챗, 쿼라 등이다. 해당 사고는 지난해 4월 포스퀘어 등 유명 웹사이트를 중단케한 이력이 있는 미국 노스버지니아 데이터센터에서 벌어졌다.

영미권 주요 외신들은 15일(현지시각) AWS의 버지니아 북부 데이터센터에서 운영중이던 여러 유명 사이트가 작동하지 못하게 되는 부분적 고장을 일으켰다고 보도했다.

보도에 따르면 AWS측은 클라우드 인프라 일부에 문제가 생긴 당일 태평양 일광절약시(PDT) 기준 오후 8시50분에 처음으로 버지니아 데이터센터에서 정전때문에 문제가 있었다고 밝혔다.

버지니아 데이터센터는 지난해 4월에도 서비스 장애로 위치기반서비스(LBS) '포스퀘어', 위키서비스형 지식공유사이트 '쿼라', 웹기반 트위터 클라이언트 '훗스위트' 운영에 지장을 초래한 시설이다. 장애를 일으킨 서비스는 서버 애플리케이션을 돌리는 자원을 빌려주는 아마존 엘라스틱컴퓨트클라우드(EC2)였다.

당시 사고이후 업계는 퍼블릭 클라우드 서비스 업체가 사용자들에게 운영 투명성을 높이고 더 원활한 커뮤니케이션을 제공해야 한다고 입을 모았다.

이번에는 클라우드 파일공유 '드롭박스', 소셜 큐레이션 '핀터레스트', 지난해에 이어 두번째 피해를 입은 '쿼라' 등 일반 사용자 대상 서비스뿐 아니라 기업용 클라우드 서비스형 소프트웨어(SaaS)와 플랫폼(PaaS) 제공업체 세일즈포스닷컴의 '헤로쿠'까지 운영상 차질을 빚었다.

이번 사고 당일 오전 아마존 측이 밝힌 내용에 따르면 장애에 영향을 받은 거의 모든 EBS 볼륨이 온라인으로 정상화됐다고 쓰였지만 그 순간 여전히 문제를 겪는 기업들이 일부 있었다. 서비스가 완전히 복구되려면 몇 시간이 더 걸릴 수도 있다는 얘기다.

비교적 규모가 작은 클라우드 서비스업체들은 가동률 '99.99%'를 보장하는데 AWS는 99.95%를 약속하는데 그친다. 이 숫자는 한달에 7분씩 서비스가 다운된다는 얘긴 아니지만 그 사용자들이 느닷없는 장애를 알아차리고 그 이유를 묻는 전화를 걸기시작할 때 그게 '흔한 일'임을 알아차리는 것 외엔 도움이 안 된다.

미국 지디넷 블로거 잭 휘태커는 이건 웹서비스라는 달걀을 모두 한 바구니에 담는 것과 같은 케이스라 빗댔다. AWS 퍼블릭클라우드 서비스에 모든 인프라를 떠맡기고 안심하긴 어렵다는 뉘앙스다.

한편 AWS뿐아니라 아마존 관계형데이터서비스(RDS)도 다운됐지만 '다중 가용성존 실패'에서 복구됐다. 다만 PDT 오전1시9분 시점에 일부 데이터베이스 인스턴스는 여전히 사용할 수 없는 상태였다고 외신들은 전했다.

관련기사

다른 아마존 클라우드에 자사 서비스를 구동중인 어떤 사용자들은 장애상황에 대한 불만을 트위터에 빠르게 털어놓기 시작했다. 자신들이 이번 문제를 일으킨 AWS를 사용하지 않는다는 점에 감사하면서다.

최근 아마존은 자사 클라우드 저장공간인 심플스토리지서비스(S3)에 저장된 객체가 1조개를 넘어섰다며 이는 지구상의 모든 인류가 각자 평균 140개씩을 저장한 것과 맡먹는 규모라고 자랑했다.