지표에서 프로파일링으로 좁히기
운영 판단표p95 latency 상승모든 route가 느리면 인프라나 공통 의존성을, 일부 route만 느리면 코드 경로를 의심합니다.trace와 route별 histogramCPU 높음JSON 변환, 암호화, 동기 반복문처럼 이벤트 루프를 오래 잡는 코드를 찾습니다.CPU profile, flamegraphMemory 증가요청이 끝나도 객체가 남거나 캐시가 무한 증가하는지 봅니다.heap snapshotDB wait 증가인스턴스 증가가 connection pool 대기와 slow query를 만들었는지 봅니다.DB metrics, query logError rate 상승특정 배포 버전, 특정 의존성, timeout 경계가 원인인지 나눕니다.APM trace, log correlation
PromPrometheus수집과 질의로 시간대별 변화를 봅니다.GrafanaGrafanaroute, status, dependency별 대시보드를 만듭니다.AlertAlertmanager사용자 영향이 생기기 전에 기준 초과를 알립니다.ProfileProfiling가설이 좁혀진 뒤 코드 레벨 증거를 잡습니다.