ALERT DESIGN
알림 기준은 고정 숫자보다 기준선 이탈로 잡는다
업무 시간, 배치 시간, 복제 구조에 따라 정상 범위가 다르므로 경고는 변화율과 지속 시간을 함께 사용한다.
WarningCriticalAction
Warning
평소 상위 분위수 초과, 추세 급변, 짧은 지연 증가를 감지한다.
Critical
사용자 오류, timeout, 포화 상태가 일정 시간 지속될 때 울린다.
Action
알림마다 확인 쿼리, 대시보드 링크, 롤백/완화 절차를 붙인다.
좋음Lock wait 증가 + blocker query 링크 + 최근 배포 정보
나쁨CPU 80%처럼 맥락 없는 단일 숫자 알림