운영 목표 정의
p95 latency, 5xx 비율, 가용성처럼 판단에 쓸 지표를 먼저 정합니다.
목표 없는 그래프 방지메트릭, 로그, 트레이스, 알림은 따로 보는 도구가 아니라 장애를 발견하고 원인을 좁히는 하나의 루프입니다.
p95 latency, 5xx 비율, 가용성처럼 판단에 쓸 지표를 먼저 정합니다.
목표 없는 그래프 방지
/metrics와 Prometheus로 성능 변화와 에러 예산 소진을
봅니다.
JSON 로그에 requestId, userId, traceId를 남겨 검색 가능한 기록으로 만듭니다.
재현 경로 확보알림은 담당자, 심각도, 롤백 또는 완화 절차와 함께 설계합니다.
행동 가능한 알림장애 알림 하나에서 대시보드, 관련 로그, 트레이스, 배포 버전까지 이동할 수 있어야 합니다.