Incident Flow

장애 진단은 사용자 영향에서 실행 계획으로 내려간다

처음부터 SQL 하나를 찍지 말고 영향 범위와 DB 내부 대기를 차례로 좁힌다.

1Impact어떤 API와 사용자군이 느린지 확인한다.

2DB Time응답 지연이 DB 내부 시간 증가와 맞는지 본다.

3Wait락, I/O, CPU, 커넥션 대기를 분리한다.

4SQL상위 후보의 실행 횟수와 총 시간을 확인한다.

5Fix & Check인덱스, 배치 중지, 트랜잭션 축소 후 지표 회복을 본다.