관측성 장애 대응 루프

SLI / SLO

p95 지연시간, 5xx 비율, 가용성처럼 운영 목표를 숫자로 정합니다.

target

Prometheus와 CloudWatch가 현재 상태와 추세를 빠르게 표시합니다.

signal

JSON 로그에 requestId, traceId, userId를 남겨 원인을 검색합니다.

근거

서비스를 건너간 요청 경로와 병목 span을 찾아 복구 지점을 좁힙니다.

경로

알림 대응 신호: 알림은 사람을 깨우는 장치가 아니라 대응 행동을 고르는 신호여야 합니다. SLO와 오류 예산이 그 우선순위를 정합니다.