성능 점검 루프

성능 개선 재측정

Prometheus metric, p95 latency, event loop lag, heap snapshot, clinic flame을 한 루프로 묶어 원인 추정과 수정 효과를 확인합니다.

Alert

이상 감지

error rate, p95 latency, CPU, memory, event loop delay가 기준을 넘으면 알림을 냅니다.

Narrow

원인 좁히기

route label, dependency latency, slow query log로 병목 계층을 먼저 분리합니다.

Profile

프로파일 캡처

clinic doctor, clinic flame, heap snapshot으로 CPU와 memory 병목을 증거로 남깁니다.

Verify

재측정

수정 배포 뒤 같은 부하 조건에서 metric과 flamegraph가 개선됐는지 비교합니다.