대시보드 신호latency, error, saturation, traffic이 서비스/endpoint 단위로
보이고 최근 배포 버전과 함께 비교됩니다.로그 검색requestId나 userId로 structured log와 trace를 같이 열어 느린
provider나 실패한 dependency를 찾습니다.알림 품질장애 리허설에서 알림이 너무 늦거나 너무 자주 오지 않는지
확인하고 임계값 변경 기록을 남깁니다.
SLI 로그 trace 관측 점검
질문: SLI, structured log, trace가 같은 requestId로 장애 질문에 답하는가
순서: 지표 정의 -> Nest interceptor/logger/trace 수집 -> 알림 임계값과 runbook 리허설
위험: 대시보드만 있고 로그/trace가 연결되지 않으면 장애 중 어느 provider가 느린지 찾는 시간이 길어집니다.