ALERT DESIGN

알림 기준은 고정 숫자보다 기준선 이탈로 잡는다

업무 시간, 배치 시간, 복제 구조에 따라 정상 범위가 다르므로 경고는 변화율과 지속 시간을 함께 사용한다.

WarningCriticalAction
watch

Warning

평소 상위 분위수 초과, 추세 급변, 짧은 지연 증가를 감지한다.

page

Critical

사용자 오류, timeout, 포화 상태가 일정 시간 지속될 때 울린다.

runbook

Action

알림마다 확인 쿼리, 대시보드 링크, 롤백/완화 절차를 붙인다.

좋음Lock wait 증가 + blocker query 링크 + 최근 배포 정보
나쁨CPU 80%처럼 맥락 없는 단일 숫자 알림