SLI · SLO · Runbook

운영 신호는 알림과 복구 절차로 번역되어야 한다

SLI/SLO는 목표 수치에서 끝나지 않습니다. 현재 신호가 목표를 넘으면 알림이 열리고, 알림은 로그·트레이스·복구 선택지로 이어집니다.

01

목표 설정

사용자 경험과 가까운 SLI와 허용 SLO를 먼저 합의합니다.

p95 · 5xx · availability
02

수집과 대시보드

메트릭, 로그, traceId를 같은 배포 버전과 시간축에 묶습니다.

dashboard
03

알림과 원인 단서

예산 소진과 임계값 초과를 담당자, 증상, 관련 로그로 보냅니다.

alert + context
04

복구 선택

롤백, 증설, 쿼리 수정 중 사용자 영향을 가장 작게 줄입니다.

runbook action

p95

SLO300ms 이하
대시보드구간별 지연
알림 조건10분 평균 초과
런북 행동느린 span과 DB 쿼리 확인

5xx

SLO1% 미만
대시보드배포 버전별 오류율
알림 조건급증 또는 예산 소진
런북 행동최근 배포 롤백 검토

가용성

SLO99.9%
대시보드헬스 체크
알림 조건연속 실패
런북 행동스케일 조정 또는 장애 전환

Budget burn

예산 소진 속도가 빠르면 신규 배포를 멈추고 안정화를 우선합니다.

Trace context

알림에서 traceId와 requestId로 로그와 느린 span까지 이동합니다.

Recovery update

복구 후 임계값, 대시보드, 런북을 갱신해 다음 대응 시간을 줄입니다.