관측성은 대시보드가 아니라 복구 행동까지 닫힌 루프다

수집한 신호는 원인 진단, 알림, 복구 선택으로 이어질 때 운영 도구가 됩니다.

1 Collect

같은 시간축으로 모은다

latency, 5xx, requestId, traceId를 배포 버전과 묶습니다.

2 Diagnose

대시보드 수치에서 로그와 trace span으로 내려갑니다.

3 Alert

예산 소진, 오류 급증, 병목을 담당 채널로 보냅니다.

4 Recover

롤백, 증설, 코드 수정 중 사용자 영향을 가장 줄이는 일을 고릅니다.

신호

보는 것

원인 단서

첫 대응

Metrics수치 이상

p95, 5xx, CPU, queue

배포 직후 변화와 용량 포화

scale 조정 또는 rollback

Logs오류 패턴

requestId, userId, error code

특정 route와 배포 버전

재현 요청과 예외 수정

Tracing느린 구간

span duration, external call

DB/API 병목 위치

쿼리 또는 호출 경로 개선

완료 조건

어떤 알림이 어떤 런북을 열고 어떤 복구를 선택하는지 연결되어야 합니다.