METRIC MAP

좋은 메트릭은 증상과 원인을 분리해 준다

TPS나 CPU 하나만 보지 말고 사용자 지연, DB 내부 대기, SQL, 리소스, 커넥션 풀을 함께 읽는다.

SymptomCauseBaseline
loadTPS / QPS처리량 급락은 병목 또는 장애의 입구 신호
uxLatency사용자 경험과 직접 연결되는 최상위 증상
aasActive SessionsCPU 사용인지 비 idle 대기인지 wait class로 분해
sqlSlow Query긴 쿼리와 짧지만 빈번한 쿼리를 구분
lockLock Wait블로커와 긴 트랜잭션을 먼저 확인
ioLogical / Physical I/O접근 경로 문제와 저장 장치 병목을 분리
poolPool PendingDB 병목인지 애플리케이션 점유 문제인지 확인
replicaReplication Lag읽기 정합성, 장애 전환, 백업 부하 영향 확인

핵심: 절대 숫자보다 평소 기준선에서 얼마나 벗어났는지가 먼저다.