Operational Diagnosis

TCP 상태는 원인 확정이 아니라 진단의 출발점이다

TIME_WAIT, CLOSE_WAIT, SYN_RECV 같은 상태는 의심 후보를 좁혀 준다. 실제 원인은 양쪽 관측과 패킷 흐름으로 확인한다.

TIME_WAIT짧은 연결이 많음정상 상태일 수 있다. outbound 포트 고갈이면 연결 재사용과 포트 범위를 확인한다.
CLOSE_WAIT내 앱이 close하지 않음지속 증가하면 소켓 정리 누락, 예외 경로, 풀 반환 실패를 의심한다.
SYN_RECV핸드셰이크 미완료SYN flood, 네트워크 손실, backlog 포화, 서버 accept 지연을 함께 본다.
Pool Wait연결 풀이 꽉 참풀 크기만 키우기 전에 하위 서비스 처리량과 timeout, backpressure를 본다.
Read Timeout연결 후 응답 지연서버 처리, downstream 호출, HOL blocking, 재시도 폭주를 확인한다.
Retransmit재전송 증가패킷 손실, 혼잡, 무선/터널 구간, MTU 문제를 의심한다.
1. 상태 확인ss, netstat, 커널 카운터
2. 양쪽 로그 대조클라이언트와 서버 시간축 맞춤
3. 패킷으로 검증재전송, FIN/RST, SYN backlog 확인