Collect
/metrics, JSON 로그, trace span을 같은 시간축으로 모읍니다.
Prometheus · logger메트릭, 로그, 트레이스는 대시보드에 모이는 데서 끝나지 않고 알림, 런북, 복구 실행, 기준 보정으로 다시 돌아와야 운영 도구가 됩니다.
/metrics, JSON 로그, trace span을 같은 시간축으로 모읍니다.
Prometheus · loggerp95, 5xx, saturation, 배포 버전을 한 화면에서 비교합니다.
Grafana · SLO board목표 초과와 예산 소진을 담당 채널과 심각도로 보냅니다.
Alertmanager로그와 traceId로 원인을 좁히고 롤백, 증설, 쿼리 개선을 선택합니다.
rollback · scale · fix장애 대응 후에는 알림 임계값, 대시보드 패널, 로그 필드, 런북 절차를 업데이트해 다음 장애 탐지 시간을 줄입니다.