이상 감지
error rate, p95 latency, CPU, memory, event loop delay가 기준을 넘으면 알림을 냅니다.
성능 점검 루프
Prometheus metric, p95 latency, event loop lag, heap snapshot, clinic flame을 한 루프로 묶어 원인 추정과 수정 효과를 확인합니다.
error rate, p95 latency, CPU, memory, event loop delay가 기준을 넘으면 알림을 냅니다.
route label, dependency latency, slow query log로 병목 계층을 먼저 분리합니다.
clinic doctor, clinic flame, heap snapshot으로 CPU와 memory 병목을 증거로 남깁니다.
수정 배포 뒤 같은 부하 조건에서 metric과 flamegraph가 개선됐는지 비교합니다.