상세 컨텐츠

본문 제목

RTO, RPO 그리고 SLA - 용어정리①

IT/인프라

by royalroader0303 2025. 10. 29. 15:06

본문

RTO, RPO 그리고 SLA  란?

 

RTO (Recovery Time Objective, 복구 시간 목표)

RTO: 시스템, 애플리케이션, 또는 데이터가 장애(: 서버 다운, 디스크 실패) 복구되는 데 걸리는 목표 시간. , "얼마나 빨리 복구할 수 있나?"를 나타냅니다.

비즈니스 연속성(BC) SLA(Service Level Agreement) 달성의 핵심. : 전자상거래 서버가 다운되면 매출 손실, RTO가 짧을수록 손실 최소화.

 

 

  • RTO는 다운타임(서비스 중단 시간)을 제한해 비즈니스 손실(예: 매출 감소)을 최소화합니다. 백업 시스템에서 RTO가 짧을수록 SLA(SLTF 99.9%) 준수와 고객 신뢰가 높아집니다.
  • ex.) 자전거를 타다 넘어졌을 때, "얼마나 빨리 다시 일어나서 타고 가는가?" (예: 20분 내 재시작).

 

 

RPO (Recovery Point Objective, 복구 지점 목표)

 

RPO: 장애 발생 전 마지막 백업 시점과 장애 시점 간의 데이터 손실 허용 시간. , "얼마나 많은 데이터를 잃어도 괜찮나?"를 나타냅니다.

데이터 손실 최소화, 특히 금융/의료 데이터에서 중요. : RPO 15분 → 최대 15분 데이터 손실 허용.

 

  • RPO는 데이터 손실 규모를 제한해 중요한 정보(예: 거래 로그, 고객 데이터)를 보호합니다. 백업 주기(예: 15분마다 백업)를 결정하며, RTO와 함께 DR(재해 복구) 계획의 기반입니다.
  • ex.) 넘어지기 전에 찍은 사진이 "얼마나 최근 것인가?" (예: 15분 전 사진). 그 사진 이후의 기억(데이터)은 잃어버릴 수 있지만, 그 전은 복구 가능.

 

 

SLA (Service Level Agreement, 서비스 수준 계약)

SLA: 서비스 제공자와 고객 간의 계약으로, 서비스 품질(가용성, 성능, 복구 시간 등)을 보장하는 문서입니다. RTO, RPO를 포함해 SLTF(가용성 99.9%), SPTF(성능 지연 200ms) 등을 명시.

 

 

  • SLA는 서비스 기대치를 명확히 하고, 미달성 시 책임(예: 크레딧)과 보상을 규정합니다. 백업 시스템에서 SLA는 고객 신뢰와 규제 준수(ISO 27001)를 유지하는 기준입니다.
  • ex.) 친구와의 약속처럼 "내일 5시에 만나자" (SLA)라고 하면, 지각 시 "미안하다, 다음에 커피 사줄게" (보상). RTO/RPO는 "5시까지 도착" (복구 시간)과 "4시 45분에 출발" (데이터 손실 최소) 같은 세부 약속.

(1) SLTF (Service Level Target for Availability, 가용성 목표)

  • 정의: 시스템이 정상 작동하는 시간 비율(예: 99.9% = 연간 8.76시간 다운타임 허용).
  • 의미: 시스템 가용성을 보장, 다운타임을 최소화.
  • SLA 내용: 백업 시스템에서 SLTF 99.9%는 VTL/PTL 가동 시간, RAID 6/FC SAN으로 안정성 유지.
  • 예시: "학교가 1년 중 365일 중 364.9일만 쉬지 않고 문을 여는 것." (99.9% = 0.1일 = 약 2.4시간 다운 허용).

(2) SPTF (Service Performance Target for Latency, 성능 지연 목표)

  • 정의: 데이터 액세스/전송 지연 시간(예: 200ms 이하).
  • 의미: 서비스 응답 속도 보장, 사용자 경험 향상.
  • SLA 내용: 백업 시스템에서 SPTF 200ms는 백업 쿼리 시간, 고속 FC HBA(QLogic QLE2742, 64Gbps)로 지연 최소화.
  • 예시: "친구에게 문자 보내면 0.2초 내 답장 받기." (200ms = 200분의 1초, 느리면 짜증 남).

 

 

 

● 표 요약

RTO 복구 시간 목표 (20분 내 복구) 다운타임 최소화, 손실 방지 넘어진 자전거를 20분 내 다시 타고 가기 PowerEdge R760 랜섬웨어 복구, NetWorker로 VTL 복원 RTO 20분 목표, SLTF 99.9% 지원
RPO 복구 지점 목표 (15분 전 데이터 복구) 데이터 손실 최소화 넘어지기 전 15분 전 사진으로 기억 복원 PowerEdge R960 디스크 고장, Avamar로 15분 전 백업 복구 RPO 15분 목표, 데이터 무결성 보장
SLA 서비스 수준 계약 (가용성, 복구 시간 보장) 서비스 품질 약속, 책임 규정 친구와의 약속 "5시 만나기", 지각 시 보상 NetWorker 백업 SLA: SLTF 99.9%, RPO 15분, RTO 20분, 미달 시 크레딧 전체 SLA 지원, SLTF 99.9%, SPTF 200ms

 

백업 시스템 예시

  • 상황: 랜섬웨어 공격으로 PowerEdge R760 서버 다운.
    • SLTF 99.9%: RAID 6으로 1년 중 99.9% 가동, 다운타임 8.76시간 이하.
    • SPTF 200ms: FC 64Gbps로 백업 쿼리 응답 200ms 이하.
    • RTO 20분: NetWorker로 20분 내 재가동.
    • RPO 15분: Avamar로 15분 전 데이터 복구.
  • 결과: SLA 준수, 손실 최소화.

 

관련글 더보기