관측성 점검 루프

관측성 데이터 활용

모니터링은 그래프 수집으로 끝나지 않습니다. SLO, 알림, 로그 검색, 트레이스 분석, 런북 실행이 하나의 대응 루프로 이어져야 합니다.

01

SLO

p95 지연 시간, 5xx 비율, 가용성 목표를 배포 판단 기준으로 삼습니다.

02

메트릭

CPU보다 요청 수, 에러율, DB 지연, 큐 적체처럼 사용자 영향 지표를 우선합니다.

03

로그

JSON 로그에 requestId, userId, route, status를 남겨 검색 가능한 증거를 만듭니다.

04

트레이스

마이크로서비스나 외부 API 호출이 느릴 때 span으로 병목 위치를 찾습니다.