메트릭
응답 시간, 오류율, CPU/메모리 같은 신호를 시계열로 추적한다.
모니터링은 단순 그래프 수집이 아니라 요청 지연, 오류율, 리소스 사용량을 목표치와 연결해 대응 기준을 만든다.
응답 시간, 오류율, CPU/메모리 같은 신호를 시계열로 추적한다.
요청 ID와 사용자 흐름을 남겨 문제가 난 상황을 재구성한다.
SLO나 에러 버짓 기준을 넘을 때 팀이 대응할 수 있게 알려준다.
관측 시스템은 장애 후 보고서용이 아니라, 사용자가 느끼기 전에 이상 신호를 발견하기 위한 운영 도구다.