헬스 체크는 alive와 ready를 분리해야 오판이 줄어든다
프로세스가 살아 있는 것과 새 요청을 받을 준비가 된 것은 다르다. 두 신호를 섞으면 장애 전환이 흔들린다.
1 ProbeHTTP/TCP/gRPC 확인관측할 신호 선택
2 Threshold연속 실패 누적일시 오류로 제외하지 않음
3 Drain새 요청 차단기존 연결은 정리
4 Recoverhealthy threshold 통과서서히 복귀
상태
의미
나쁜 설정
liveness
프로세스가 살아 있음
DB 장애까지 죽음으로 판정
readiness
새 요청 처리 가능
warming 중에도 트래픽 수신
startup
초기화 시간이 긴 앱 보호
초기 지연을 장애로 오판