Production readiness

운영 전략 관리표

배포 후 안정성은 모니터링 도구의 존재가 아니라 장애를 감지하고, 제한하고, 복구하는 의사결정 기준이 있는지로 판단합니다.

SLO

서비스 목표

API p95, 성공률, 에러 버짓을 먼저 정해야 배포 동결과 개선 우선순위가 명확해집니다.

observe

로그와 지표

NestJS 로그, APM, 브라우저 에러를 같은 요청 ID나 사용자 흐름으로 묶습니다.

protect

트래픽 보호

Rate Limit, Circuit Breaker, Idempotency Key로 과부하와 중복 처리를 방어합니다.

recover

백업과 복구

백업 생성보다 복원 테스트가 중요하며 RTO와 RPO 기준으로 훈련합니다.