Observability

NestJS 관측성 운영 구조

운영 안정성은 수집, 연결, 판정, 조치가 이어질 때 생긴다. 지표만 모으는 것이 아니라 배포 판단까지 이어야 한다.

Metrics 상태를 숫자로 본다

p95 지연시간, 5xx 비율, 처리량을 SLI/SLO와 연결한다.

Logs 원인을 검색한다

requestId, userId, traceId로 장애 시점의 맥락을 찾는다.

Tracing 경로를 따라간다

여러 서비스로 이어진 요청에서 병목과 실패 위치를 찾는다.

Action 배포 판단으로 연결

Error Budget 소진이 빠르면 기능보다 안정화를 우선한다.

신호
대표 질문
운영 판단
지연시간
p95가 SLO를 넘는가
성능 개선 또는 배포 중단
5xx 비율
최근 배포 이후 증가했는가
롤백 또는 핫픽스
trace span
어느 의존성이 병목인가
DB, 외부 API, 코드 경로 분리 대응