Runbook

SLO 운영 신호

메트릭은 상태를 알려주고, 로그와 트레이스는 원인을 좁히며, 알림은 대응이 필요한 순간을 팀에 전달한다.

SLI와 SLO

goal
p95 320ms
5xx 0.8%
성공률 99.4

로그

context
requestId한 요청 묶음
userId영향 범위
traceId호출 경로 연결

알림

action
SLO목표 이탈 오류급증 구간 지연p95 상승

트레이싱

path
API Auth DB Queue
1

목표 설정

SLI와 SLO로 정상 범위를 먼저 합의한다.

2

신호 수집

메트릭, JSON 로그, 트레이스를 같은 요청 키로 연결한다.

3

알림 판단

증상이 목표를 넘을 때 담당 채널과 런북으로 이어진다.

4

복구 선택

롤백, 스케일 조정, 쿼리 개선 중 사용자 영향이 작은 길을 고른다.

판정표
Budget burn 빠르게 줄면 신규 배포를 늦춘다.
Root cause 로그와 트레이스로 실패 구간을 좁힌다.
Recovery 롤백, 스케일, 쿼리 개선 중 영향이 작은 길을 고른다.