RTO, RPO 그리고 SLA 란?
※ RTO (Recovery Time Objective, 복구 시간 목표)
RTO: 시스템, 애플리케이션, 또는 데이터가 장애(예: 서버 다운, 디스크 실패) 후 복구되는 데 걸리는 목표 시간. 즉, "얼마나 빨리 복구할 수 있나?"를 나타냅니다.
비즈니스 연속성(BC)과 SLA(Service Level Agreement) 달성의 핵심. 예: 전자상거래 서버가 다운되면 매출 손실, RTO가 짧을수록 손실 최소화.
- RTO는 다운타임(서비스 중단 시간)을 제한해 비즈니스 손실(예: 매출 감소)을 최소화합니다. 백업 시스템에서 RTO가 짧을수록 SLA(SLTF 99.9%) 준수와 고객 신뢰가 높아집니다.
- ex.) 자전거를 타다 넘어졌을 때, "얼마나 빨리 다시 일어나서 타고 가는가?" (예: 20분 내 재시작).
※ RPO (Recovery Point Objective, 복구 지점 목표)
RPO: 장애 발생 전 마지막 백업 시점과 장애 시점 간의 데이터 손실 허용 시간. 즉, "얼마나 많은 데이터를 잃어도 괜찮나?"를 나타냅니다.
데이터 손실 최소화, 특히 금융/의료 데이터에서 중요. 예: RPO 15분 → 최대 15분 데이터 손실 허용.
- RPO는 데이터 손실 규모를 제한해 중요한 정보(예: 거래 로그, 고객 데이터)를 보호합니다. 백업 주기(예: 15분마다 백업)를 결정하며, RTO와 함께 DR(재해 복구) 계획의 기반입니다.
- ex.) 넘어지기 전에 찍은 사진이 "얼마나 최근 것인가?" (예: 15분 전 사진). 그 사진 이후의 기억(데이터)은 잃어버릴 수 있지만, 그 전은 복구 가능.
※ SLA (Service Level Agreement, 서비스 수준 계약)
SLA: 서비스 제공자와 고객 간의 계약으로, 서비스 품질(가용성, 성능, 복구 시간 등)을 보장하는 문서입니다. RTO, RPO를 포함해 SLTF(가용성 99.9%), SPTF(성능 지연 200ms) 등을 명시.
- SLA는 서비스 기대치를 명확히 하고, 미달성 시 책임(예: 크레딧)과 보상을 규정합니다. 백업 시스템에서 SLA는 고객 신뢰와 규제 준수(ISO 27001)를 유지하는 기준입니다.
- ex.) 친구와의 약속처럼 "내일 5시에 만나자" (SLA)라고 하면, 지각 시 "미안하다, 다음에 커피 사줄게" (보상). RTO/RPO는 "5시까지 도착" (복구 시간)과 "4시 45분에 출발" (데이터 손실 최소) 같은 세부 약속.
(1) SLTF (Service Level Target for Availability, 가용성 목표)
- 정의: 시스템이 정상 작동하는 시간 비율(예: 99.9% = 연간 8.76시간 다운타임 허용).
- 의미: 시스템 가용성을 보장, 다운타임을 최소화.
- SLA 내용: 백업 시스템에서 SLTF 99.9%는 VTL/PTL 가동 시간, RAID 6/FC SAN으로 안정성 유지.
- 예시: "학교가 1년 중 365일 중 364.9일만 쉬지 않고 문을 여는 것." (99.9% = 0.1일 = 약 2.4시간 다운 허용).
(2) SPTF (Service Performance Target for Latency, 성능 지연 목표)
- 정의: 데이터 액세스/전송 지연 시간(예: 200ms 이하).
- 의미: 서비스 응답 속도 보장, 사용자 경험 향상.
- SLA 내용: 백업 시스템에서 SPTF 200ms는 백업 쿼리 시간, 고속 FC HBA(QLogic QLE2742, 64Gbps)로 지연 최소화.
- 예시: "친구에게 문자 보내면 0.2초 내 답장 받기." (200ms = 200분의 1초, 느리면 짜증 남).
● 표 요약
| RTO |
복구 시간 목표 (20분 내 복구) |
다운타임 최소화, 손실 방지 |
넘어진 자전거를 20분 내 다시 타고 가기 |
PowerEdge R760 랜섬웨어 복구, NetWorker로 VTL 복원 |
RTO 20분 목표, SLTF 99.9% 지원 |
| RPO |
복구 지점 목표 (15분 전 데이터 복구) |
데이터 손실 최소화 |
넘어지기 전 15분 전 사진으로 기억 복원 |
PowerEdge R960 디스크 고장, Avamar로 15분 전 백업 복구 |
RPO 15분 목표, 데이터 무결성 보장 |
| SLA |
서비스 수준 계약 (가용성, 복구 시간 보장) |
서비스 품질 약속, 책임 규정 |
친구와의 약속 "5시 만나기", 지각 시 보상 |
NetWorker 백업 SLA: SLTF 99.9%, RPO 15분, RTO 20분, 미달 시 크레딧 |
전체 SLA 지원, SLTF 99.9%, SPTF 200ms |
백업 시스템 예시
- 상황: 랜섬웨어 공격으로 PowerEdge R760 서버 다운.
- SLTF 99.9%: RAID 6으로 1년 중 99.9% 가동, 다운타임 8.76시간 이하.
- SPTF 200ms: FC 64Gbps로 백업 쿼리 응답 200ms 이하.
- RTO 20분: NetWorker로 20분 내 재가동.
- RPO 15분: Avamar로 15분 전 데이터 복구.
- 결과: SLA 준수, 손실 최소화.