NestJS 관측성은 신호를 운영 판단으로 묶는 구조다

메트릭은 상태를 숫자로 보고, 로그와 트레이스는 원인을 좁히며, 알림은 롤백·증설·수정 같은 행동으로 이어집니다.

Metrics

상태를 숫자로 본다

p95 지연시간, 5xx 비율, 처리량을 SLI/SLO와 연결합니다.

Logs

requestId, userId, traceId로 장애 시점의 맥락을 찾습니다.

Tracing

서비스 사이 요청 흐름에서 병목과 실패 위치를 분리합니다.

Action

Error Budget 소진이 빠르면 기능보다 안정화를 우선합니다.

신호

대표 질문

운영 판단

지연시간

p95가 SLO를 넘는가

성능 개선 또는 배포 중단

5xx 비율

최근 배포 이후 증가했는가

롤백 또는 핫픽스

trace span

어느 의존성이 병목인가

DB, 외부 API, 코드 경로 분리 대응