지표는 병목 가설로 바뀔 때 행동 가능한 정보가 된다

대시보드 숫자를 그대로 보지 말고, 어떤 병목을 의심해야 하는지 연결해야 프로파일링 대상이 정해집니다.

p95 latency

모든 route인지 일부 route인지 나누고 trace를 봅니다.

CPU 높음

JSON 변환, 암호화, 동기 반복문을 의심합니다.

Memory 증가

요청 후 남는 객체와 무한 캐시를 확인합니다.

DB wait

pool 대기와 slow query를 함께 봅니다.

Error rate

배포 버전, 의존성, timeout 경계를 나눕니다.

Prom

시간대별 변화를 수집하고 질의합니다.

Grafana

route, status, dependency별 대시보드를 만듭니다.

Alert

사용자 영향 전에 기준 초과를 알립니다.

Profile

가설이 좁혀진 뒤 코드 레벨 증거를 잡습니다.

판단 순서: 증상 → 가설 → 확인 도구 → 조치.