'전산장애'에 해당되는 글 1

  1. 2012/08/28 일본의 클라우드 대란에서 얻는 교훈 (2)

사용자 삽입 이미지
지난 6월 20일 일본에선 클라우드 대란이 일어난 바 있습니다. 클라우드 서비스 업체 ‘퍼스트 서버’가 초대형 전산장애를 낸 것입니다.


퍼스트서버는 야후재팬의 자회사로, 일본 내에서 인기있는 클라우드 서비스였지만 이날 장애로 무려 5698개 기업의 데이터를 날려버렸습니다.  

이 회사는 당시 자사 서비스의 버그를 해결하기 위해 대규모 소프트웨어 패치를 진행하다가 사고를 냈습니다. 파일 삭제 명령의 실행∙정지를 제어하고, 관리 대상 서버를 지정하는 기술에 문제가 있었다고 합니다.

퍼스트서버는 장애 이후 데이터 복구 소프트웨어를 통해 데이터를 복원하고 고객사들이 자신들의 데이터를 내려받을 수 있도록 노력했지만, 결국 3일 만에 데이터 복구를 포기한다고 선언했습니다. 데이터 복구 자체는 성공했지만, 각 고객사별 권한 제한이 불가능해 남의 회사 데이터까지 내려받을 수 있게 됐기 때문입니다.

지금까지 네트워크 오류나 전력 문제로 클라우드 서비스가 중단되는 문제는 여러 차례 있었지만, 퍼스트서버처럼 고객의 데이터를 분실하는 사고는 보기 드문 일입니다. 일본의 IT전문 미디어들은 이번 사태를 두고 ‘미증유의 사태’라고 표현합니다.

이번 사태는 클라우드 서비스를 이용하는 기업들에 몇 가지 교훈을 줍니다.

가장 큰 교훈은 클라우드 서비스 업체들의 약관을 보다 정밀하게 검토해야 한다는 점입니다. 클라우드 서비스 업체가 자랑하는 ‘SLA(서비스 수준관리)’만 믿다가는 낭패를 볼 수도 있음을 보여줍니다.

‘퍼스트 서버’는 가동률 100%를 내세워 업계 최고 수준의 SLA를 자랑했던 회사입니다. 일반적으로 업계에서 약속하는 가동률은 99.9%(윈도 애저), 99.95%(아마존 EC2) 등입니다. 퍼스트 서버는 이런 서비스와의 차별적 우위를 강조하기 위해 가동률 100%를 내세웠던 것 같습니다. (참고로, 미국의 통신사 버라이즌도 가동률 100%를 약속하고 있습니다)

문제는 퍼스트 서버의 약관에 데이터 분실에 대한 책임이 명시돼 있지 않았다는 점입니다. SLA 100%라는 구호를 보면 ‘데이터는 당연히 안전하게 보관되겠지’라고 환상을 갖게 되지만, 실제로는 그렇지 못했습니다. 그 결과 퍼스트 서버 고객사들은 서비스 가동 시간에 대한 약속을 지키지 못한 부분은 SLA 규약에 따라 보상을 받을 수 있지만, 데이터 분실에 대한 보상은 받을 수 없게 됐습니다.

사실 기업의 데이터 분실은 어떤 보상으로도 만회되기 어렵습니다. 이번 퍼스트 서버 사태로 온라인 쇼핑몰을 운영하던 기업은 상품 및 고객 정보가 날아갔고, 어떤 기업은 계약서를 주고 받은 이메일 데이터를 분실했습니다. 이 기업들은 보상금을 받는다 해도 그 상처를 회복하기가 쉽지 않을 것입니다.

또 특정 클라우드 서비스를 100% 믿지 말아야 한다는 교훈도 얻을 수 있습니다. 클라우드 서비스를 이용하더라도 최소한의 백업은 자체적으로 진행해야 한다는 점입니다. 자체적으로 서버와 스토리지를 두고 백업을 하든, 다른 클라우드 서비스로 백업을 하든 특정 클라우드 서비스에만 의존해서는 안 된다는 것을 퍼스트 서버 사태는 보여줍니다.

데이터는 기업 경영의 생명입니다. 서버가 고장나면 새로운 서버로 교체할 수 있지만, 데이터가 분실되면 기업의 운명이 달라질 수 있습니다.

우리 기업의 생명을 특정 회사의 관리에만 의존하는 것은 너무도 위험하다는 것을 퍼스터 서버 사태는 보여줍니다.
2012/08/28 09:37 2012/08/28 09:37