수집한 신호는 대응 판단으로 이어져야 한다

메트릭, 로그, 트레이스, 알림은 따로 보는 도구가 아니라 장애를 발견하고 원인을 좁히는 하나의 루프입니다.

SLI/SLO

운영 목표 정의

p95 latency, 5xx 비율, 가용성처럼 판단에 쓸 지표를 먼저 정합니다.

목표 없는 그래프 방지

metrics

/metrics와 Prometheus로 성능 변화와 예산 소진을 봅니다.

증상 조기 감지

logs

JSON 로그에 requestId, userId, traceId를 남겨 검색 가능한 기록으로 만듭니다.

재현 경로 확보

alerts

알림은 담당자, 심각도, 롤백 또는 완화 절차와 함께 설계합니다.

행동 가능한 알림

운영 신호 검수

장애 알림 하나에서 대시보드, 관련 로그, 트레이스, 배포 버전까지 이동할 수 있어야 합니다.