카카오, 재해복구 시스템 있었나 없었나

바이라인네트워크
바이라인네트워크 인증된 계정 · 기술과 디지털 비즈니스를 다룹니다.
2022/10/19
지난 주말에 벌어진 카카오 관련 서비스 중단은 많은 교훈을 주고 있다. 카카오라는 특정 기업의 서비스가 중단됐을 뿐인데, 우리의 삶 전반에 큰 영향을 미쳤다. 지인과 카카오톡 대화를 못하는 수준을 넘어 금융, 지급결제, 교통, 쇼핑, 뉴스, 커뮤니티, 웹툰/웹소설, 음악 등 거의 모든 생활에 카카오가 가까이 있음을 체감할 수 있었던 사고였다.

이번 사고는 SK C&C 판교 데이터센터의 배터리 스파크로 발생한 화재가 원인인 것으로 알려졌다. 데이터센터 하나 멈췄다고 그 많은 서비스가 모두 멈췄다는 것은 충격적이다. 이런 재난이나 장애 등을 대비해 시스템을 이중화, 삼중화 하도록 권고된다. 카카오처럼 대규모 서비스가 이런 조치를 취하지 않았을까?
출처= 카카오 로고 캡처

카카오 서비스는 왜 중단됐을까? 이런 사태에 대한 대비가 없었을까?

데이터센터는 화재, 홍수, 지진, 전쟁 등 다양한 이유로 제 기능을 발휘하지 못할 가능성이 있다. 이에 대한 대비를 위해 DR(Disaster Recovery, 재해복구) 시스템을 구축해야 한다고 전문가들은 입을 모은다. DR은 예상치 못한 사태로 데이터센터에 장애가 발생했을 때를 대비해 원거리에 복제 시스템을 두는 것을 말한다.

카카오에는 이런 시스템이 없었을까? 우선 카카오의 공식 발표를 들어보자.

“카카오는 모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며, 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 가지고 있습니다.  이번 화재가 발생한 직후, 카카오는 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했습니다. 다만 이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황으로, 해당 조치를 적용하는데 예상보다 오랜 시간이 소요되고 있습니다.”

카카오는 “이원화 시스템”이 있다고 밝혔다. 아울러 “이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황”이라고 덧붙였다. 이를 그대로 해석하면 이원화 시스템이 있기는 하지만, 두 시스템이 같은 데이터센터에 있었다는 것으로 이해된다. 데이터 자체는 여러 데이터센터에 분할 백업해 두었는데 시스템은 분할하지 않은 것으로 풀이된다. 계란을 한 바구니 담아뒀는데, 바구니를 떨어뜨리면 계란이 모두 깨지는 것은 어쩔 수 없다.

같은 데이터센터 안에 시스템을 이원화하는 것은 DR이라고 부르지 않는다. 이는 고가용성(HA)이라고 한다. HA는 특정 서버에 장애가 났을 때 다른 서버가 이를 받아 서비스를 계속 하는 기술이다. HA는 같은 지역 내에서 시스템을 이중화, 삼중화 한다. 이번 카카오 장애처럼 특정 데이터센터 전체에 문제가 발생했을 때는 HA가 할 수 있는 일이 없다.
바이라인네트워크
바이라인네트워크 님이 만드는
차별화된 콘텐츠, 지금 바로 만나보세요.
이미 회원이신가요? 로그인