SLI / SLO
p95 지연시간, 5xx 비율, 가용성처럼 운영 목표를 숫자로 정합니다.
target모니터링, 로그, 트레이스는 각각 따로 보는 화면이 아니라 장애 판단을 빠르게 만드는 한 흐름입니다.
p95 지연시간, 5xx 비율, 가용성처럼 운영 목표를 숫자로 정합니다.
targetPrometheus와 CloudWatch가 현재 상태와 추세를 빠르게 표시합니다.
signalJSON 로그에 requestId, traceId, userId를 남겨 원인을 검색합니다.
근거서비스를 건너간 요청 경로와 병목 span을 찾아 복구 지점을 좁힙니다.
경로알림 대응 신호: 알림은 사람을 깨우는 장치가 아니라 대응 행동을 고르는 신호여야 합니다. SLO와 오류 예산이 그 우선순위를 정합니다.