관측성 개선 루프

관측성 장애 대응 루프

모니터링, 로그, 트레이스는 각각 따로 보는 화면이 아니라 장애 판단을 빠르게 만드는 한 흐름입니다.

01

SLI / SLO

p95 지연시간, 5xx 비율, 가용성처럼 운영 목표를 숫자로 정합니다.

target
02

Metrics

Prometheus와 CloudWatch가 현재 상태와 추세를 빠르게 표시합니다.

signal
03

Logs

JSON 로그에 requestId, traceId, userId를 남겨 원인을 검색합니다.

근거
04

Tracing

서비스를 건너간 요청 경로와 병목 span을 찾아 복구 지점을 좁힙니다.

경로

알림 대응 신호: 알림은 사람을 깨우는 장치가 아니라 대응 행동을 고르는 신호여야 합니다. SLO와 오류 예산이 그 우선순위를 정합니다.