운영 기준선

임계치는 숫자 목록이 아니라 상태를 격상시키는 운영 규칙이다

평소 기준선에서 벗어난 메트릭이 경고와 위험 구간으로 넘어가면, 관찰 수준도 함께 추세 확인 → 원인 조사 → 즉시 개입으로 올라간다.

Baseline 정상
평소 범위 안에서 움직이며 즉시 조치는 필요하지 않다.
Warning 경고
병목이 시작되는 구간이다. 원인 확인과 튜닝을 시작한다.
Critical 위험
가용성과 일관성에 영향이 갈 수 있어 즉시 개입한다.
자원 포화
CPU, 메모리, 디스크가 한계에 얼마나 가까운가
평소 사용률과 증감 추세를 기준선으로 유지
CPU 70% / 메모리 80% 디스크 사용률 75% 이상이면 공간 계획을 점검한다.
CPU 90% / 메모리 95% 디스크 90% 이상이면 공간 확보나 스케일 조치가 우선이다.
동시성 압박
세션과 락 대기가 처리 한계를 얼마나 밀어붙이는가
세션 수와 락 대기가 평소 범위 안에서 안정적
세션 60% / Lock Wait 5건+ 커넥션 풀과 긴 트랜잭션 여부를 확인한다.
세션 80% / Lock Wait 20건+ 교착 상태, 장기 점유 트랜잭션, 접근 순서를 즉시 점검한다.
응답 지연
느린 쿼리가 일시적 현상인지, 병목의 시작인지
슬로우 쿼리가 드물고 응답 시간이 기준선에 가깝다
Slow Query 10건/분 실행 계획 변화나 특정 시간대 부하를 조사한다.
Slow Query 50건/분 문제 SQL을 특정하고 튜닝 또는 우회 조치를 바로 시행한다.
복제·캐시 이상
읽기 성능과 복제 지연이 데이터 서비스 품질을 흔드는가
캐시 적중률과 복제 지연이 평소 범위에서 유지된다
Hit Ratio 97% 미만 / Lag 5초+ 버퍼 크기와 네트워크 부하를 함께 확인한다.
Hit Ratio 95% 미만 / Lag 30초+ 읽기 부하 분산, 복제 복구, 장애 전환 준비가 필요하다.
운영 반응
숫자보다 중요한 것은 어느 상태로 넘어갔는가다
추세 관찰 기준선을 유지하는지 본다.
원인 조사 AWR·ASH·Slow Query로 병목을 좁힌다.
즉시 개입 공간 확보, 튜닝, 장애 대응 절차를 바로 시작한다.