목표 설정
사용자 경험과 가까운 SLI와 허용 SLO를 먼저 합의합니다.
p95 · 5xx · availabilitySLI/SLO는 목표 수치에서 끝나지 않습니다. 현재 신호가 목표를 넘으면 알림이 열리고, 알림은 로그·트레이스·복구 선택지로 이어집니다.
사용자 경험과 가까운 SLI와 허용 SLO를 먼저 합의합니다.
p95 · 5xx · availability메트릭, 로그, traceId를 같은 배포 버전과 시간축에 묶습니다.
dashboard예산 소진과 임계값 초과를 담당자, 증상, 관련 로그로 보냅니다.
alert + context롤백, 증설, 쿼리 수정 중 사용자 영향을 가장 작게 줄입니다.
runbook action예산 소진 속도가 빠르면 신규 배포를 멈추고 안정화를 우선합니다.
알림에서 traceId와 requestId로 로그와 느린 span까지 이동합니다.
복구 후 임계값, 대시보드, 런북을 갱신해 다음 대응 시간을 줄입니다.