알림 기준
평균 대신 p95, 오류율, 큐 길이처럼 사용자가 느끼는 지표로 시작합니다.
모니터링은 이상 신호를 잡고, 프로파일링은 코드 경로를 좁히며, 배포 후 같은 지표로 개선 여부를 판정합니다.
평균 대신 p95, 오류율, 큐 길이처럼 사용자가 느끼는 지표로 시작합니다.
부하 재현 중 CPU flame, heap snapshot, trace 중 필요한 것만 잡습니다.
수정 후 같은 트래픽 조건에서 latency와 리소스 사용량을 다시 비교합니다.
임계값 초과와 영향 라우트를 묶습니다.
CPU, I/O, DB, 메모리 중 하나로 좁힙니다.
Clinic, inspect, APM trace를 선택합니다.
병목 함수나 쿼리만 작게 바꿉니다.
카나리와 롤백 기준을 함께 둡니다.
알림 기준과 대시보드를 보정합니다.
incident note: signal -> hypothesis -> profile -> fix -> compare -> alert tuning
프로파일 결과만 남기지 말고 어떤 지표가 어떤 코드 변경으로 개선됐는지 기록해야 다음 병목을 더 빨리 좁힐 수 있습니다.