NestJS · Observability

모니터링과 로그 시스템의 신호 설계

모니터링은 대시보드를 많이 만드는 일이 아니라, 사용자가 겪는 실패를 latency, error, saturation, business event로 빠르게 좁히는 신호 체계다.

01

핵심 지표

HTTP p95 latency, 5xx 비율, DB 지연, queue backlog부터 정의한다.

02

로그 표준화

service, route, status, user scope, correlation id를 공통 필드로 둔다.

03

분산 추적

외부 API와 DB 호출이 같은 trace 안에 연결되도록 instrumentation 한다.

04

알림 조정

사용자 영향이 없거나 자동 회복되는 이벤트는 알림 소음을 줄인다.

RED
요청 서비스 지표 Rate, Errors, Duration으로 HTTP 상태를 관찰
API 서버 기본
USE
자원 상태 지표 Utilization, Saturation, Errors로 CPU, memory, DB pool 확인
병목 분석
Trace
호출 흐름 gateway, service, DB, 외부 API 지연 위치를 연결
샘플링 정책 필요
Alert
행동 가능한 알림 SLO 위반이나 사용자 실패율 증가에 반응
단순 로그 ERROR는 부족

대시보드 · 상관관계 · 알림 품질 점검

대시보드 지금 장애가 사용자에게 영향을 주는지 먼저 보인다.
상관관계 로그와 trace, metric을 같은 요청 기준으로 좁힐 수 있다.
알림 품질 받은 사람이 취할 조치가 없는 알림은 제거한다.
보존 기간 운영 로그와 감사 로그의 저장 기간이 목적별로 다르다.