2016년 1월 27일 수요일

[시스템] 재해복구

1. 개요


 공공부문 정보화 사업의 확산으로 인핬, 다수의 정보시스템이 각 부처 및 공공 기관에 도입되었고, 이를 통해 각 기관은 내부 업무 프로세스 및 대민 서비스 등을 정보시스템을 통해 수행하고 있다. 업무의 정보시스템 의존도가 높아짐에 따라 정보시스템 중단사태가 발생할 경우 기관 전체의 업무가 마비될 수도 있는 심각한 위험성을 앆고 있는 상황에 이르렀다. 2001 년에 발생한 미국의 9.11 테러사태 이전까지만 해도 국내의 재해재난에 대한 정보시스템 대비책은 극히 미약한 실정이었으나 최근 국내외 각종 사고사례가 증가되면서 이에 대한 대비책 마련은 필수 사항으로 자리매김되었다. 재해 예방 및 복구방식에는 여러 종류가 있는데 각 기관의 실정에 맞는 적절한 재핬 예방 및 복구방식을 선택하는 것이 중요하다.


2. 재해 및 재해복구의 개념


 재해(Disaster)란, 정보기술 외부로부터 기인하여 예방 및 통제가 불가능한 사건으로 인해 정보기술서비스가 중단되거나, 정보시스템의 장애로부터의 예상 복구소요시간이 허용 가능한 범위를 초과하여, 정상적인 업무 수행에 지장을 초래하는 피해이다. 

 재해는 크게 자연재해(natural disaster)와 인적재해(man-made disaster)로 나누어 볼 수 있다. 자연재해는 태풍·홍수·호우·강풍·풍랑·해일·지진 등 자연적 현상에 의한 재해를 의미하며, 인적재해는 전쟁·테러·물리적 침입 등 외부로부터의 인위적 재해를 의미한다. 

 재해복구(Disaster Recovery)란, 재해로 인하여 중단된 정보기술서비스를 재개하는 것을 의미한다. 재해복구를 위해서는 사전에 재해복구를 위한 계획 및 이를 지원하는 시스템이 준비되어야 하는데, 이를 각각 재해복구계획 및 재해복구시스템(Disaster Recovery System)이라 일컫는다. 

 재해복구계획(DRP, Disaster Recovery Planning)은 “중요한 업무 프로세스에 대하여 재해가 발생할 가능성 및 재해 발생시의 피해를 최소화하기 위한 일련의 행위 집합” 으로 정의된다. 

 이러한 정의는 보다 포괄적인 개념으로 받아들여지고 있는 업무연속성계획(BCP,Busineess Continuity Planning)과 명확히 구분되기 어려워 혼용하여 사용하는 경향이 있는데 굳이 구분하면 다음과 같다. 재해복구계획(DRP)은 정보기술서비스기반에 재해가 발생하는 경우를 대비하여, 이의 빠른 복구를 통해 업무에 대한 영향을 최소화하기 위한 제반계획 으로 정의하고, 업무연속성계획(BCP)은 정보기술부문뿐 아니라, 인력·설비·자금 등 제반자 원을 대상으로 장애 및 재해를 포괄하여 조직의 생존을 보장하기 위한 예방 및 복구활동 등을 포함하는 보다 광범위한 계획으로 파악한다.

3. 재해복구시스템


재해복구시스템 운영방식별 유형

구축형태별 구분

  • 독자구축
    재해복구시스템을 독자적으로 구축하는 방식으로, 보안유지 및 복구의 신뢰성이 가장 높으나, 구축 및 유지비용이 가장 많이 소요된다. 비교적 규모가 큰 금융기관 등에서 주로 채택하고 있는 방식이다.
  • 공동구축
    두 개 이상의 기관이 재해복구시스템을 공동으로 이용하는 방식이다. 비용측면에서 독자구축의 경우보다 적게 소요되지만 보안과 운용측면에서는 고려할 사항이 많고, 광역재해 발생시 공동이용기관간의 동시 재해복구가 불가능하다는 단점이 있다. 이 방식에서는 공동이용기관간의 합의가 매우 중요하다.
  • 상호구축
    별도의 재해복구시스템을 구축하는 대신, 두 개 이상의 기관이 상호간의 재해복구시스템의 역할을 수행하거나, 단일 기관이 여러 개의 정보시스템 사이트를 가지고 있는 경우에는 사이트 상호간에 서로 재해복구센터의 역할을 수행하도록 방식이다. 구축 및 운영비용이 저렴한 장점이 있으나, 서로 다른 기관간에 이러한 방식의 재해복구시스템을 구축하는 경우 보안성 및 재해복구에 대한 신뢰성이 대단히 낮다.

재해복구시스템의구축 형태별 유형


운영주체 별 구분 

  • 자체운영
    기관 자체의 인력으로 재해복구시스템을 운영하는 방식이다. 보안성 및 신뢰성이 가장 높으나, 재해복구를 위한 추가의 인력이 확보되어야 하며 운영비용이 높다. 일반적으로 독자구축 형 재해복구센터에서 사용되는 운영방식이다.
  • 공동운영
    두 개 이상의 기관이 재해복구시스템의 운영인력을 상호 공유하는 방식이다. 일반적으 로 공동구축형 또는 상호구축형 재해복구시스템에서 사용되는 운영방식이다. 자체운영에 비해 운영비용을 절감할 수 있으나, 기관간 신뢰가 전제되어야 하고, 보안성 유지를 위한 협의가 중요하다.
  • 위탁운영
    재해복구시스템의 운영을 민간 IDC 운영자 등 외부의 다른 기관에 위탁하는 방식이다. 정보시스템 운영기관의 보안성 유지가 가장 큰 문제로 대두되나, 위탁 운영 업체의 보안 유지에 대한 신뢰성이 높다면 전문적인 재해복구서비스를 제공받을 수 있으며 초기투자비 용이 적게 드는 장점이 있어, 최근 사용이 증가하는 추세에 있다. 미국의 대형금융기관 및 공공기관 등에서 이러한 형태의 사용 예를 볼 수 있다.

재해복구시스템 복구수준별 유형

  • 미러사이트
    - 주센터와 동일한 수준의 정보기술자원을 원격지에 구축하여 두고 주센터와 재해복구 센터 모두 액티브 상태로(Active-Active) 실시간에 동시서비스를 하는 방식이다.
    - 재해발생시 복구까지의 소요시간(RTO)은 즉시(이론적으로는 0)이다.
    - 데이터베이스 어플리케이션 등 데이터의 업데이트 빈도가 높은 시스템의 경우 양쪽의 사이트에서 동시에 서비스를 제공하게 하는 것은 시스템의 높은 부하를 초래하여 실용적이지 않으므로 데이터의 업데이트의 빈도가 높지 않은 시스템에 적용 가능하다.
  • 핫사이트
    - 주센터와 동일한 수준의 정보기술자원을 대기상태(Standby)로 원격지 사이트에 보유 하면서(Active-Standby), 동기적(Synchronous) 또는 비동기적(Asynchronous) 방식의 실시간 미러링(Mirroring)을 통하여 데이터를 최신의 상태(Up-to-date)로 유지하고 있다가 주센터 재해 시 재해복구센터의 정보시스템을 액티브로 전환하여 서비스하는 방식이다.
    - 일반적으로, 데이터 실시간 미러링을 이용한 핫 사이트를 미러 사이트라고 일컫기도 한다.
    - 데이터베이스 어플리케이션 등 데이터의 업데이트 빈도가 높은 시스템의 경우, 재해 복구센터는 대기상태(Standby)로 유지하다가 재해 시 액티브(Active)로 전환하는 방식이 일반적이다.
  • 웜사이트- 핫사이트와 유사하나, 재해복구센터에 주센터와 동일한 수준의 정보기술자원을 보유하는 대신, 중요성이 높은 정보기술자원만 부분적으로 재해복구센터에 보유하는 방식이다.
    - 실시간 미러링을 수행하지 않으며, 데이터의 백업 주기가 수시간~1 일 정도로 핫 사이트에 비해 다소 길다.
    - 구축 및 유지비용이 미러사이트 및 핫사이트에 비해 저렴하나, 초기의 복구수준이 완전하지 않으며, 완전한 복구까지는 다소의 시일이 소요된다.
  • 콜드사이트
    - 데이터만 원격지에 보관하고, 이의 서비스를 위한 정보자원은 확보하지 않거나 장소 등 최소한으로만 확보하고 있다가, 재해 시에 데이터를 근간으로 하여 필요한 정보자원을 조달하여 정보시스템의 복구를 개시하는 방식이다.
    - 구축 및 유지비용이 가장 저렴하나, 복구소요시간이 매우 길고, 복구의 신뢰성이 낮다.

4. 재해복구시스템 구현기술


데이터 복제 방식

H/W적 복제방식

 디스크 장치를 이용한 복제 : 자료가 최종적으로 저장되는 디스크를 복제 대상으로 하여, 사용중인 원본 디스크를 원거리 지역의 복구용 디스크로 복제하는 방식이 바로 디스크 수준의 복제 방식이다.

 주센터의 원본 디스크와 재핬복구센터의 복구용 디스크는 기본적으로 마이크로코드 (Microcode 2) 수준에서 완벽한 호홖성을 제공하여야 하지만, 디스크에 별도의 가상화 솔루션 등을 활용한다면 이기종 디스크 간에도 복제가 가능하다.

 디스크 장치를 이용한 복제방식의 구성 시, 최초에는 디스크 전체를 대상으로 복제작업을 수행하므로 많은 시간이 소요되나, 이후 운영 시에는 디스크의 변경분만을 복제하므로, 고속의 복제가 가능하다.

 일반적으로 대용량 고성능의 디스크를 사용하는 운영 환경에서 재해복구시스템을 구축하는 경우에 주로 사용된다.

디스크 장치를 이용한 복제


S/W적 복제방식

운영체제 수준 : 데이터 복제 전용 솔루션을 이용한 복제


 데이터를 디스크에 저장, 관리하기 위한 논리적인 볼륨을 맊들어 사용한다. 즉, 데이터는 논리적 볼륨에서 관리, 전송되어 이것이 물리적 디스크에 저장되는 것이다. 운영체제를 이용한 복제 식은 서버에서 디스크로 데이터를 전송하고 저장하는 중간 단계에서 데이터 블록을 복제하여 재해복구센터로 보내는 방식이다. 따라서 운영체제를 이용한 복제 방식에서는 주센터와 재해복구센터의 양쪽 서버에 데이터의 복제를 관리하기 위한 동일한 복제솔루션을 설치하여야 한다. 복제솔루션은 해당 서버 자체에서 수행되거나, 별도의 디스크 관리 서버 자원을 사용하여 수행될 수 있다. 그러므로 재해복구시스템 구축 시 기존의 운영환경의 용량 및 부하를 감안하여 서버 자원의 적정성을 검토하여야 한다. 일반적으로 중간 정도의 성능과 용량의 디스크를 사용하거나, 이기종 디스크를 사용하는 운영환경에서 재해복구시스템을 구축하는 경우에 주로 사용된다.


데이터복제 전용솔루션을 이용한 복제

DBMS 수준 : DBMS를 이용한 복제


 DBMS 를 이용한 복제 방식은 주센터의 DBMS 에서 사용되는 SQL(Structured Query Language)문 혹은 변경 로그를 원격 사이트의 DBMS 에 젂송하여 복제하는 방식이다. 주센터와 재해복구센터의 DBMS 및 복제 솔루션이 동일하여야 하며, 디스크, 논리적 볼륨 및 플랫폼의 종류가 다르더라도 구현 가능하다. 또한, DBMS 를 이용한 복제 솔루션은 주센터와 재해복구센터 서버의 자원을 사용하여 동작하므로 서버 자원의 증설을 검토하여야 한다.

DBMS를 이용한 복제


데이터 전송 방식

 데이터복구시스템에서는 데이터복제방식과 더불어 데이터젂송 방식을 알맞게 혼합하여 현 시스템과 재해복구 수준에 최적화된 재해복구시스템을 구축하는 것이 중요하다. 하지만, 주센터 운영시스템에서의 실수나 오류로 인한 잘못된 데이터의 추가 및 변경도 재해복구센터에 동일하게 복제되어 주센터의 논리적 데이터 오류에 의한 장애시 원격지에서도 동일한 장애가 발생하게 된다. 따라서 재해복구시스템만 구축되면 모든 장애와 재해를 막을 수 있는 것은 아니다.

Sync (동기 복제)


 Sync 방식은 어떠한 상황에서도 완벽한 데이터 복구를 보장하여 준다. 이 방식은 사용자 혹은 작업이 주센터의 운영 시스템에서 데이터를 추가 혹은 변경하였을 경우 주센터뿐 아니라 재해복구센터에서도 정상적으로 추가 혹은 변경이 완료 되었다는 것을 시스템에서 확인한 후에 사용자 혹은 작업에게 추가 혹은 변경 완료 신호를 보내게 되는 방식이다. 따라서, 주센터와 재해복구센터갂의 데이터 정합성은 항상 유지되므로 가장 안전하고 신뢰성이 높은 방식이다. 

 그러나, 주센터와 재해복구센터 간을 연결하는 고속의 회선이 필요하다. 왜냐하면 주센터 뿐 아니라 재해복구센터에 있는 데이터 역시 빠른 시간 내에 추가, 변경하여야 응답속도의 지연을 막아 기존의 서비스 수준을 유지할 수 있기 때문이다. 결국 이러한 요구는 고속회선을 위한 많은 회선 비용과 주센터와 재해복구센터간의 거리 제한을 가져올 수 있다. 또한 주센터와 재해복구센터간의 회선 장애 혹은 재해복구시스템의 장애 및 운영 실수는 즉시 주센터의 운영 시스템에도 영향을 미치어 서비스 장애로 이어질 수 있다. 따라서 재해복구시스템 유지 관리의 어려움과 운영수준 유지를 위한 인력, 비용이 추가로 발생하게 된다.



동기방식(Sync)의 데이터처리 경로



ASync (비동기 복제)


 Async 방식의 가장 큰 특징은 Sync 방식과 달리 재해복구시스템을 구축하여 데이터를 복제하더라도 기존 운영 서비스의 성능에 거의 영향을 주지 않는다는 것이다. 재해복구시스템을 Async 방식으로 구축하면 기존 운영 서비스는 기존과 동일하게 동작하고, 데이터 복제는 기존 운영 시스템의 서비스와는 별도로 디스크, 서버 및 DBMS 수준의 전송방식에 따라 운영 서비스 이후 독립적으로 동작된다. 즉, 데이터 복제를 수행하기는 하나 그것이 언제 수행되는지는 재해복구를 위한 시스템의 홖경 및 여러 조건에 따라 정하여 진다. 하지만, Sync 방식에 비해 현 시점에서 운영시스템의 100% 데이터 복제를 보장하지는 못한다.

비동기방식(ASync)의 데이터처리 경로

5. 재해복구시스템 구축


 운영 상황에 맞는 재해복구시스템 설계가 완료되면 시스템 구축을 수행하게 된다. 올바른 구축 수행을 위해서는 다음과 같은 순서에 맞추어 구축 계획 및 실행을 검토하여야 한다


재해복구시스템 구축절차

일정 및 방안 수립
  • 실행 전에 주요 계획과 일정(Mile Stone) 및 범위를 확정하여 계획이 수립 되었는지 확인하고 이에 따른 관리를 실시한다.

재해복구 체계구현
  • 사전 준비 : 구축 계획에 따른 재핬복구시스템을 위한 장비의 발주, 네트워크 구성, 기존시스템 복제 방법 및 절차, 담당 인력 및 업무의 분장 등이 준비되고 있는지 확인한다. 
  • 데이터 복제 : 재해복구시스템을 구축하기 위해서는 기존 데이터의 복제가 필요하다. 이를 수행하기 위한 방법에는 재해복구시스템을 주센터에 구축하여 복제 후 재해복구센터로 재해복구시스템을 옮기는 방법과 재해복구시스템을 재해복구센터에 구축 후 복제를 하는 방법이 있다.
  • 기능 점검 : 최초에 데이터 전체를 복제하고 기타 환경 설정이 완료되어 재해복구시 스템이 구축되면, 재해복구 솔루션의 복제 및 복구 기능이 정상 작동하는지를 테스트 하여야 한다.

테스트
  • 테스트 시나리오 작성 : 재해복구 기능 및 데이터 정합성을 세밀하게 테스트할 수 있는 유형별, 상황 별 테스트 시나리오를 작성하여야 한다
  • 단위/통합 테스트 : 운영환경에서 계획된 시나리오에 의한 재해발생, 재해분석보고, 복구시스템으로 전환 등과 같은 절차에 의한 복구 전환 테스트를 실시한다.

운영관리/완료 보고
  • 재해복구 운영 체계에 대한 훈렦 및 운영 매뉴얼, 재해복구 모의훈련 계획서 등의 필요한 문서를 제공하고 인수인계 및 완료보고를 실시한다.


[출처]

정보 시스템 재해복구 지침' 발행처 : 국무조정실, 정보통신부

댓글 없음:

댓글 쓰기