p95 지연시간, 5xx 비율, 처리량을 수집해 SLI와 SLO로 운영 목표를 잡는다.
OBSERVABILITY
운영 안정성은 메트릭, 로그, 트레이스를 한 흐름으로 묶을 때 올라간다
배포된 NestJS 애플리케이션은 상태를 수치화하고, 이상 징후를 알림으로 연결해야 빠르게 복구할 수 있다.
JSON 로그와 requestId, userId, traceId로 장애 시점의 원인을 검색 가능하게 만든다.
여러 서비스로 이어지는 요청 경로를 따라 병목과 실패 위치를 찾는다.
운영 기준: Error Budget 소진 속도가 빠르면 새 기능 배포보다
안정화와 성능 개선을 우선한다.