OBSERVABILITY

운영 안정성은 메트릭, 로그, 트레이스를 한 흐름으로 묶을 때 올라간다

배포된 NestJS 애플리케이션은 상태를 수치화하고, 이상 징후를 알림으로 연결해야 빠르게 복구할 수 있다.

Metrics

p95 지연시간, 5xx 비율, 처리량을 수집해 SLI와 SLO로 운영 목표를 잡는다.

Logs

JSON 로그와 requestId, userId, traceId로 장애 시점의 원인을 검색 가능하게 만든다.

Tracing

여러 서비스로 이어지는 요청 경로를 따라 병목과 실패 위치를 찾는다.

운영 기준: Error Budget 소진 속도가 빠르면 새 기능 배포보다 안정화와 성능 개선을 우선한다.