핵심 지표
HTTP p95 latency, 5xx 비율, DB 지연, queue backlog부터 정의한다.
모니터링은 대시보드를 많이 만드는 일이 아니라, 사용자가 겪는 실패를 latency, error, saturation, business event로 빠르게 좁히는 신호 체계다.
HTTP p95 latency, 5xx 비율, DB 지연, queue backlog부터 정의한다.
service, route, status, user scope, correlation id를 공통 필드로 둔다.
외부 API와 DB 호출이 같은 trace 안에 연결되도록 instrumentation 한다.
사용자 영향이 없거나 자동 회복되는 이벤트는 알림 소음을 줄인다.