Observability loop

관측성은 수집에서 복구까지 닫힌 루프여야 한다

메트릭, 로그, 트레이스는 대시보드에 모이는 데서 끝나지 않고 알림, 런북, 복구 실행, 기준 보정으로 다시 돌아와야 운영 도구가 됩니다.

01

Collect

/metrics, JSON 로그, trace span을 같은 시간축으로 모읍니다.

Prometheus · logger
02

Dashboard

p95, 5xx, saturation, 배포 버전을 한 화면에서 비교합니다.

Grafana · SLO board
03

Alert

목표 초과와 예산 소진을 담당 채널과 심각도로 보냅니다.

Alertmanager
04

Runbook / Recover

로그와 traceId로 원인을 좁히고 롤백, 증설, 쿼리 개선을 선택합니다.

rollback · scale · fix

Metrics

수집latency, 5xx, CPU
대시보드SLO와 예산
알림 기준임계값 초과
복구 행동스케일 조정

Logs

수집requestId, userId
대시보드오류 패턴
알림 기준동일 오류 급증
복구 행동배포 버전 확인

Tracing

수집span, traceId
대시보드느린 구간
알림 기준DB/API 병목
복구 행동쿼리 또는 호출 개선

복구 결과는 다시 수집 기준으로 들어간다

장애 대응 후에는 알림 임계값, 대시보드 패널, 로그 필드, 런북 절차를 업데이트해 다음 장애 탐지 시간을 줄입니다.