Baseline
정상
평소 범위 안에서 움직이며 즉시 조치는 필요하지 않다.
Warning
경고
병목이 시작되는 구간이다. 원인 확인과 튜닝을 시작한다.
Critical
위험
가용성과 일관성에 영향이 갈 수 있어 즉시 개입한다.
자원 포화
CPU, 메모리, 디스크가 한계에 얼마나 가까운가
CPU 70% / 메모리 80%
디스크 사용률 75% 이상이면 공간 계획을 점검한다.
CPU 90% / 메모리 95%
디스크 90% 이상이면 공간 확보나 스케일 조치가 우선이다.
동시성 압박
세션과 락 대기가 처리 한계를 얼마나 밀어붙이는가
세션 수와 락 대기가 평소 범위 안에서 안정적
세션 60% / Lock Wait 5건+
커넥션 풀과 긴 트랜잭션 여부를 확인한다.
세션 80% / Lock Wait 20건+
교착 상태, 장기 점유 트랜잭션, 접근 순서를 즉시 점검한다.
응답 지연
느린 쿼리가 일시적 현상인지, 병목의 시작인지
슬로우 쿼리가 드물고 응답 시간이 기준선에 가깝다
Slow Query 10건/분
실행 계획 변화나 특정 시간대 부하를 조사한다.
Slow Query 50건/분
문제 SQL을 특정하고 튜닝 또는 우회 조치를 바로 시행한다.
복제·캐시 이상
읽기 성능과 복제 지연이 데이터 서비스 품질을 흔드는가
캐시 적중률과 복제 지연이 평소 범위에서 유지된다
Hit Ratio 97% 미만 / Lag 5초+
버퍼 크기와 네트워크 부하를 함께 확인한다.
Hit Ratio 95% 미만 / Lag 30초+
읽기 부하 분산, 복제 복구, 장애 전환 준비가 필요하다.