지표는 요청 경로를 따라 원인 후보로 좁힌다

p95가 올라갔을 때 숫자를 나열하지 말고 Route, Provider, DB, Runtime, Infra 순서로 의심 지점을 줄입니다.

Route

endpoint별 p95, error, interceptor timing을 봅니다.

Provider

직렬화, 계산, 외부 API 시간을 분리합니다.

pool wait, query time, slow query를 봅니다.

Runtime

heap, GC, CPU, event loop delay를 봅니다.

Infra

release, autoscale, 트래픽 변화와 맞춥니다.

나쁜 신호

모든 계층 지표가 동시에 올라가면 원인보다 결과가 섞인 상태입니다.

판단 순서

가장 바깥 Route에서 시작해 한 계층씩 안쪽으로 좁힙니다.

핵심: route에서 시작해 DB와 runtime 중 어느 쪽인지 한 단계씩 좁힌다.