서비스 목표
API p95, 성공률, 에러 버짓을 먼저 정해야 배포 동결과 개선 우선순위가 명확해집니다.
배포 후 안정성은 모니터링 도구의 존재가 아니라 장애를 감지하고, 제한하고, 복구하는 의사결정 기준이 있는지로 판단합니다.
API p95, 성공률, 에러 버짓을 먼저 정해야 배포 동결과 개선 우선순위가 명확해집니다.
NestJS 로그, APM, 브라우저 에러를 같은 요청 ID나 사용자 흐름으로 묶습니다.
Rate Limit, Circuit Breaker, Idempotency Key로 과부하와 중복 처리를 방어합니다.
백업 생성보다 복원 테스트가 중요하며 RTO와 RPO 기준으로 훈련합니다.