성능 개선 루프

알림은 프로파일 캡처와 재측정으로 닫는다

모니터링은 이상 신호를 잡고, 프로파일링은 코드 경로를 좁히며, 배포 후 같은 지표로 개선 여부를 판정합니다.

SLO

알림 기준

평균 대신 p95, 오류율, 큐 길이처럼 사용자가 느끼는 지표로 시작합니다.

Profile

캡처 조건

부하 재현 중 CPU flame, heap snapshot, trace 중 필요한 것만 잡습니다.

Release

재측정

수정 후 같은 트래픽 조건에서 latency와 리소스 사용량을 다시 비교합니다.

1

알림

임계값 초과와 영향 라우트를 묶습니다.

2

분류

CPU, I/O, DB, 메모리 중 하나로 좁힙니다.

3

캡처

Clinic, inspect, APM trace를 선택합니다.

4

수정

병목 함수나 쿼리만 작게 바꿉니다.

5

배포

카나리와 롤백 기준을 함께 둡니다.

6

튜닝

알림 기준과 대시보드를 보정합니다.

incident note: signal -> hypothesis -> profile -> fix -> compare -> alert tuning
재발 방지

프로파일 결과만 남기지 말고 어떤 지표가 어떤 코드 변경으로 개선됐는지 기록해야 다음 병목을 더 빨리 좁힐 수 있습니다.