재해 복구 용어 이해 – RTO, RPO, 장애 조치, BCP 등

재해 복구 계획의 중요성 및 주요 용어 이해

재해 복구 계획은 예기치 않은 비상 상황에 대비하기 위해 조직이 반드시 갖춰야 할 필수적인 준비 조치입니다. 특히 IT 업계에서는 재해 발생 시 신속하고 효과적으로 대응하기 위한 계획, 조치, 절차를 문서화하는 것부터 시작합니다.

재해는 그 발생 시점과 유형을 예측하기 어렵습니다. 갑작스럽게 발생하여 개인과 조직 모두에게 재정적 손실, 사용자 경험 저하 등 다양한 어려움을 초래할 수 있습니다. 이러한 상황에서 피해를 최소화하고 운영을 신속하게 복구하기 위해서는 철저한 재해 복구 계획이 필수적입니다.

실용적인 재해 복구 계획은 재해를 완전히 막을 수는 없지만 그 영향을 크게 줄여줍니다. 사용자 경험을 개선하고, 불필요한 비용 발생을 방지하며, 시스템 중단 시간을 최소화하는 데 기여합니다. 재해 발생 시 신속하게 모든 것을 재가동할 수 있도록 계획, 인력, 전략, 장비, 시스템 등을 미리 준비해야 합니다.

이 글에서는 재해 복구의 주요 용어와 함께 재해 복구에 대한 심층적인 이해를 제공하여, 어떠한 어려운 상황에서도 조직이 더욱 강하게 일어설 수 있도록 돕고자 합니다.

재난이란 무엇인가?

재난은 IT 산업을 포함한 모든 분야에서 예기치 않게 발생할 수 있는 사건입니다. 자연재해이거나 인위적인 사건일 수 있으며, 기업 운영을 방해하고 인프라 구조에 심각한 손상을 입힐 수 있습니다.

재난은 조직의 고객, 공급업체, 직원, 파트너 등 모든 이해관계자에게 영향을 미칩니다. 재정적 손실, 기업 평판 하락, 고객 신뢰도 저하, 보안 취약점 노출 등 조직에 다양한 부담을 안겨줍니다. 따라서, 이러한 재난에 대비하여 모든 운영과 데이터를 즉시 복구할 수 있도록 사전 준비가 필요합니다. 고객에게 가능한 한 짧은 시간 안에 모든 서비스를 복구하여 제공할 수 있도록 조직을 준비시켜야 합니다.

재난의 유형은 다양하며 사이버 공격, 사보타주, 테러 공격, 랜섬웨어, 물리적 위협, 허리케인, 지진, 화재, 홍수, 산업 재해, 정전 등이 있습니다.

재해 복구의 의미

재해 복구는 재해 발생 후 정상적인 운영 상태로 돌아가는 전반적인 과정을 의미합니다. 하드웨어, 소프트웨어, 장비, 연결, 네트워크, 전력, 데이터 접근성 등을 복원하는 것을 포함합니다. 재난 발생 전에 조직이 미리 준비할 수 있도록 규칙과 절차를 문서화하여 설정해야 합니다.

만약 조직의 시설이 파괴되었다면, 통신, 운송, 조달, 대체 근무지 등 다른 활동들을 통해 기능을 일부 확장해야 할 수도 있습니다.

재해 복구 계획이 중요한 이유

재해 복구 계획은 자연재해든 인재든 모든 IT 산업에서 필수적으로 준비해야 합니다. 계획을 원활하게 실행하기 위해 적절한 인력과 도구가 필요한 위치에 있는지 확인해야 합니다.

재해 복구 계획이 왜 중요한지 좀 더 자세히 알아보겠습니다.

피해 최소화

재난은 예측 불가능합니다. 언제, 어떻게 발생할지 누구도 알 수 없습니다. 그러나 사전에 준비를 함으로써 인프라에 대한 피해를 최소화할 수 있습니다. 예를 들어, 홍수가 자주 발생하는 지역에서는 중요한 문서나 장비들을 높은 층에 배치하여 피해를 예방할 수 있습니다. 사이버 공격으로부터 데이터를 보호하기 위해서는 필수 데이터를 미리 백업해두어야 합니다.

서비스 복원

잘 설계된 재해 복구 계획은 모든 서비스를 정상 상태로 빠르고 쉽게 복원할 수 있도록 돕습니다. 이는 짧은 시간 안에 거의 모든 주요 자산과 서비스를 복구할 수 있다는 것을 의미합니다.

운영 중단 최소화

미래에 어떤 일이 일어날지 정확히 알 수는 없습니다. 하지만 효과적인 복구 계획을 갖추고 있다면 재난 발생 시 운영 중단에 대한 걱정을 크게 덜 수 있습니다. 인프라를 통해 최소한의 중단으로 운영을 계속할 수 있게 됩니다.

훈련 및 준비

IT 인프라는 많은 직원들이 함께 운영합니다. 모든 직원은 비상 상황 발생 시 필요한 조치를 즉시 취할 수 있도록 재해 복구에 대한 지식을 갖추고 있어야 합니다. 적절한 준비는 조직 구성원들의 스트레스 수준을 낮춰줄 뿐만 아니라 예상치 못한 상황에서 필요한 조치를 취할 수 있도록 직원들을 교육하는 데도 도움이 됩니다.

이제 재해 복구의 주요 용어들을 살펴봄으로써 재해 복구에 대한 이해를 높여보겠습니다.

RTO (복구 시간 목표)

RTO(복구 시간 목표)는 재해 발생 후 조직이 업무를 재개해야 하는 목표 시간입니다. 이는 조직의 사업 특성에 따라 설정되며, 재정적 손실을 최소화하고 운영을 유지하는 데 중요한 역할을 합니다.

RTO를 설정할 때는 시스템 중단이 조직에 미치는 다양한 영향을 고려해야 합니다. 재해 이후에도 사업 운영을 지속하기 위한 실행 가능한 전략을 수립하는 데 사용됩니다. 고객들은 애플리케이션에 문제가 발생했을 때, 서비스가 다시 정상화되는 데 얼마나 걸리는지 알고 싶어합니다. RTO는 바로 그 질문에 대한 답입니다.

예를 들어, 온라인 거래 회사인 PayPal이나 Pioneer가 예기치 않은 사건에 직면했다고 가정해 봅시다. 이 경우 RTO는 업무를 복구할 수 있을 만큼 충분히 짧아야 합니다. 즉, 재정적 손실이나 데이터 손실을 피하기 위해 RTO를 1-2시간으로 설정하는 것이 적절할 수 있습니다.

RPO (복구 시점 목표)

RPO(복구 시점 목표)는 IT 인프라가 처리할 수 있는 최대 데이터 손실량으로, 시간과 데이터 양 측면에서 정의됩니다.

이해가 어려우신가요? 은행 거래 데이터베이스를 예로 들어보겠습니다. 이 데이터베이스는 이체, 일정, 결제 등 모든 거래를 기록합니다. 재해가 발생했을 때 데이터베이스를 실시간으로 복구해야 한다면 재해 발생 시점과 복구 시점 간의 데이터 차이는 0이 되어야 합니다.

일부 회사는 백업 데이터에서 모든 정보를 복구하는 데 24시간이 걸릴 수도 있지만, 이는 치명적인 결과를 초래할 수 있습니다. RPO 요구 사항에 따라 인프라를 설정하는 것이 중요하며, 백업 빈도 증가, 대기 데이터베이스 추가 등이 포함될 수 있습니다.

장애 조치 (Failover)

장거리 여행 중 갑자기 타이어가 펑크난 상황을 상상해 보세요. 다행히도 예비 타이어와 타이어 교체 도구가 있어서 문제를 해결할 수 있습니다.

장애 조치는 이와 유사하게 작동합니다. 재해 발생 시 백업 연결이 필요하다는 것을 의미합니다. 즉, 장애 조치는 재해 발생 시 정보를 복구 시스템으로 전환하는 데 사용할 수 있는 네트워크와 시스템을 보유하는 것을 의미합니다.

장애 조치는 인프라 또는 하드웨어 장애 발생 시에도 모든 서비스가 원활하게 운영되도록 합니다. 이를 통해 조직은 데이터 및 수익 손실을 방지하고, 최종 사용자의 서비스 중단을 예방할 수 있습니다. 수동으로 구성하거나 자동으로 작동하도록 설정하여 데이터를 대기 서버로 이동시킬 수 있습니다.

장애 복구 (Failback)

장애 복구는 재해 상황이 해결된 후 원래 시스템을 복구하는 프로세스입니다. 공격 발생 시 기업은 모든 워크로드를 가상 머신(VM) 복제본이나 백업 시스템으로 이전하는 장애 조치 작업을 수행합니다.

하지만 다음 복귀 단계를 간과해서는 안 됩니다. 모든 것을 복구하고 운영을 재개한 후에는 모든 워크로드를 원래 VM 또는 시스템으로 다시 전송해야 합니다. 작업 부하를 원래 작업 공간이나 시스템으로 반환하는 이 전체 프로세스를 장애 복구라고 합니다. 장애 복구는 사이버 공격 후 “돌아가는” 과정입니다.

장애 복구는 기업의 계획된 유지 보수에도 사용됩니다. 장애 복구는 항상 장애 조치 후에 수행된다는 점을 기억해야 합니다. 즉, 장애 조치는 필수 데이터 복구의 첫 번째 단계이고, 장애 복구는 두 번째 단계입니다. 이 프로세스는 클라우드-클라우드, 온프레미스-온프레미스, 온프레미스-클라우드 또는 이들의 조합으로 설정할 수 있습니다.

DR (재해 복구)

재해 복구(DR)는 특정 시간 내에 자산을 복구하기 위한 계획을 미리 수립하는 프로세스입니다.

DR은 조직이 예기치 않은 사건에 신속하게 대응하고 모든 서비스를 복구할 수 있는 능력을 제공합니다. 또한, 예상치 못한 사건 발생 시 즉각적으로 취해야 할 조치에 대한 지침이 포함된 공식 문서입니다.

BCP (사업 연속성 계획)

BCP(사업 연속성 계획)는 IT 인프라가 서버, 모바일 기기, 개인용 컴퓨터 및 네트워크 등 IT 중단 상황에 대처하기 위한 전략을 설정할 수 있도록 돕는 재해 복구 계획 중 하나입니다.

BCP는 조직이 핵심 사업 요구 사항을 충족하기 위해 엔터프라이즈 소프트웨어와 생산성을 재구축하기 위한 계획을 세우는 데 도움을 준다는 점에서 재해 복구와 약간 다릅니다. 기업은 사이버 공격이나 자연 재해와 같은 잠재적인 위협에 대처하기 위해 복구 시스템을 구축합니다. BCP는 자산을 보호하고 모든 서비스가 중단 이후 신속하게 다시 작동할 수 있도록 설계되었습니다.

BCM (사업 연속성 관리)

BCM(사업 연속성 관리)은 비즈니스 프로세스에 대한 위협으로부터 보호하도록 특별히 설계된 위험 관리 프로세스입니다. BCM은 BCP의 다음 단계로, 비즈니스의 모든 구성원이 계획에 즉각적으로 대응하고 모든 필수 요소를 복구할 수 있도록 복구 계획을 검증합니다.

BCM은 외부 및/또는 내부 위협에 직면했을 때 인프라 위험을 식별하는 관리 프레임워크 역할을 합니다. 정기적인 테스트를 통해 프레임워크가 효율적으로 작동하는지 확인하여 예측 가능성을 높이고, 위험을 줄이고, 향후 공격에 대한 계획을 조정하도록 합니다.

BIA (사업 영향 분석)

BIA(사업 영향 분석)는 비즈니스의 생존 가능성을 분석하기 위해 핵심 시스템, 운영 및 프로세스를 식별하는 프로세스입니다. 이는 운영 중단으로 인한 재해가 조직에 미치는 영향을 파악하는 데 도움이 됩니다.

BIA는 강력한 복구 전략을 수립하는 데 유용한 핵심 정보를 수집하기 위해 공격이 실제로 발생하기 전에 그 결과를 예측합니다. 또한, 장비 교체 비용, 현금 흐름 손실, 이익 감소, 급여 손실 등 장애로 인한 비용을 식별하는 데 도움이 됩니다.

BIA 보고서를 작성할 때는 사업과 관련된 중요한 프로세스, 다양한 영역에 대한 중단 영향, 허용 기간, 허용 가능한 수준, 재정적 비용 등을 고려해야 합니다.

콜 트리 (Call Tree)

콜 트리는 비상 상황에서 연락해야 할 직원 목록을 작성하는 프로세스입니다. 이는 트리 구조를 따르는 절차입니다.

예를 들어, 재난 발생 시 한 사람이 긴급 메시지를 전달하여 작은 그룹의 구성원들에게 연락하면, 그 구성원들이 다시 각 그룹에 개별적으로 연락합니다. 이러한 방식으로 모든 직원은 위협에 대한 정보를 전달받고 할당된 작업을 시작하여 모든 기능과 프로세스를 제시간에 복구할 수 있습니다. 콜 트리 목록을 만드는 것은 간단하지만, 실시간으로 적용하는 것은 혼란을 야기할 수 있습니다.

모든 비상 담당자가 항상 경계 상태를 유지할 수 있도록 정기적인 콜 트리 활동을 수행해야 합니다. 또한 정기적인 테스트를 통해 성능에 심각한 영향을 미칠 수 있는 변경되거나 누락된 전화번호를 식별할 수 있습니다.

콜 트리에는 긴급 상황에서 지침을 전달하는 데 사용할 정보가 포함되어 있습니다. 수동으로 수행할 수도 있지만, 오늘날 디지털 환경에서는 자동화된 도구를 사용하여 프로세스를 가속화하고 구성원에게 알릴 수 있습니다.

지휘 센터 / 통제 센터

지휘 센터 또는 통제 센터는 위기 발생 시 복구 계획에 대한 명령 및 통제 역할을 하기 위해 특별히 준비된 가상 또는 실제 시설입니다. 재해 발생 시 시스템과 기능을 관리하기 위해 팀과 통신합니다.

과거에는 기업이 위기에 대처하기 위해 적절한 접근 방식 없이 지휘 센터에 의존했습니다. 오늘날, 조직들은 즉각적인 대응을 핵심 역량으로 전환하기 위해 제어 센터를 설계합니다.

재해가 감지되면 지휘 센터는 신속하게 복구 단계로 이동합니다. 또한 서비스, 언론, 배달 등에 대한 보고 지점 역할을 수행합니다. 또한, 이러한 시나리오에서 다양한 분야의 인력을 모으는 역할을 합니다.

사고 대응

사고 대응은 공격에 대처하기 위해 제공되는 대응 유형입니다. 네트워크와 데이터 보안을 효과적으로 유지하기 위해 적절한 절차와 인력을 통해 수행됩니다.

조직이 예기치 않은 사건에 대비한 사고 대응 계획을 갖고 있다면 실시간으로 위협으로부터 데이터를 보호할 수 있습니다. 사고 대응 전문가들은 항상 문제에 주의를 기울이고 사고 발생 시 신속하게 대응합니다. 그들은 보안 침해를 막기 위한 특정 조치를 취하며, 재해 복구 과정에서 한 단계도 놓치지 않도록 합니다.

가장 먼저 해야 할 일은 중요한 데이터를 파악하고 안전을 위해 클라우드 또는 원격 위치에 저장하는 것입니다. 사고 대응 계획을 정기적으로 업데이트하여 현재 인프라 요구 사항과 진화하는 사이버 위협에 대처해야 합니다.

백업 (Backup)

백업 솔루션은 IT 인프라가 데이터 사본을 유지하고 안전하게 저장할 수 있도록 도와줍니다. 데이터베이스 손상, 실수로 인한 모든 데이터 삭제 또는 기타 문제에 직면했을 때 데이터를 신속하게 복원하고 서비스를 계속 사용할 수 있도록 백업을 준비해야 합니다.

이 과정은 비정상적인 사건 발생 후에도 모든 데이터에 쉽게 접근할 수 있도록 파일을 복제하고 안전한 장소에 저장하는 것을 포함합니다. 사이트가 손상되더라도 데이터를 복원할 수 있도록 여러 위치에 데이터를 백업하는 것이 도움이 됩니다.

회복탄력성 (Resilience)

재해 복원력은 커뮤니티, 주, 조직 및 개인이 재해에 저항하거나 손상없이 견딜 수 있는 능력입니다. 서비스와 시스템을 손상시키지 않으면서 재난에 대처할 수 있는 능력을 의미합니다.

조직은 위험으로 인한 막대한 스트레스에 대처할 준비가 되어 있어야 합니다. 누군가가 와서 구조해주기를 기다리는 대신, 더 나은 계획을 통해 손실을 최소화할 수 있는 능력을 갖춰야 합니다. 이는 재난을 수용하고 IT 인프라를 효과적으로 복구하는 데 도움이 됩니다.

여기서 주요 목표는 필요할 때마다 적시에 필수 기능과 구조를 보존하고 복원하는 것입니다. 재난에 강한 조직이 되려면 사전 준비, 위험 예측, 변화에 대한 적응력, 공유 및 학습 능력, 다양한 부문 통합 능력, 위험 수준 관리 능력 등을 갖추고 있어야 합니다.

SLA (서비스 수준 계약)

SLA(서비스 수준 계약)는 비상 시 서비스 복원에 걸리는 예상 시간을 최종 사용자에게 명시하는 재해 계획입니다.

SLA는 고객의 데이터가 안전하고 손상되거나 제3자와 공유되지 않는다는 것을 보장합니다. 또한 최종 사용자 문제에 대한 단일 연락 창구 역할을 합니다.

모든 IT 인프라는 고객에게 SLA에 대한 보증을 제공합니다. 따라서 최종 사용자와 사전에 의사소통해야 합니다.

SPOF (단일 실패 지점)

SPOF(단일 실패 지점)는 다른 많은 시스템이나 애플리케이션이 연결되는 장비, 개인, 자원 또는 애플리케이션의 일부입니다.

이러한 장비나 자원이 다운되면 시스템에 연결된 모든 필수 요소도 함께 다운됩니다. 따라서 전체 프로세스와 사업 운영에 영향을 미치게 됩니다.

따라서, 조직이 운영을 계속하려면 이러한 문제에 대처하기 위한 전략이 필요합니다. 가장 먼저 할 일은 더 큰 영향을 미칠 수 있는 단일 장비나 시스템을 식별하는 것입니다. 그 다음, 사업 영향 분석을 수행하고 위험 평가 점수를 얻어 앞으로 발생할 수 있는 상황을 파악해야 합니다. 문제가 발생하기 전에 미리 조사하고 찾아내야 합니다.

모든 SPOF 목록을 작성한 후에는 복구 프로세스에 따라 분류해야 합니다. 각각의 SPOF를 세 가지 범주로 분류합니다.

적은 시간과 예산으로 쉽게 직접 복구할 수 있는 항목.
복구가 어렵지만 복구 프로세스를 개발할 수 있는 항목.
다운되면 복구할 방법이 없는 항목.

각 범주에 따라 적절히 조치를 취해야 합니다.

시스템 복구

하드웨어 오류 발생 시 특정 시스템 또는 서버를 원래 상태로 복원하는 복구 프로세스를 실행해야 합니다. 전체 시스템을 복구하려면 복구 요구 사항, 백업, 펌웨어 호환성, 하드웨어 호환성을 미리 준비해야 합니다.

시스템 복구는 시스템을 이전 설정과 동일한 상태로 재설정하는 프로세스입니다. 이를 통해 시스템에 설치된 소프트웨어나 애플리케이션으로 인한 바이러스 감염을 제거할 수 있습니다.

이 프로세스에는 인위적이거나 자연적인 중단에 대비하여 데이터 가용성을 보장하기 위한 IT 인프라의 복구 계획을 설정하고 따르는 과정이 포함됩니다.

시스템 복원

시스템 복원은 특정 파일과 정보를 적절한 시점에 이전 상태로 복원할 수 있는 복구 도구입니다.

시스템 복원을 사용하면 레지스트리 키, 설치된 프로그램, 드라이버, 시스템 파일 등을 이전 버전으로 복원할 수 있습니다. 이는 많은 재난 발생 시 매우 유용합니다.

테스트 계획

테스트 계획은 테스트 전략, 견적, 자원, 마감일, 목표 및 일정에 대한 정보를 담고 있는 문서입니다. 이는 하드웨어 및 소프트웨어의 안전을 보장하기 위한 테스트를 실행하기 위한 청사진 역할을 합니다.

여기에는 재난 이후를 관리하기 위해 계획된 절차와 단계에 따라 다양한 테스트를 실행하는 것이 포함됩니다. 조직이 올바른 행동 과정을 따르고 있는지 확인하기 위해 정기적인 테스트를 수행해야 합니다. 이러한 방식으로 IT 인프라는 취약점을 파악하고 재해 상황에 대비할 수 있습니다.

결론

재난은 언제 발생할지 예측하기 어렵습니다. 따라서 적절한 안전 및 보안 조치는 모든 비즈니스에 필수적입니다.

재해 복구 용어에 대한 이해는 공격 및 재해에 대처하는 데 도움이 됩니다. 또한 사전에 준비를 통해 예기치 않은 상황으로부터 인프라를 보호할 수 있습니다. 효과적인 실시간 재해 복구 전략을 수립함으로써 수백만 달러의 비용을 절감하고 고객의 신뢰를 얻을 수 있습니다.