LB 선택 기준

로드 밸런서는 분산보다 실패 처리 정책이 먼저다

로드 밸런서는 요청 분배보다 헬스 체크, 연결 고정, 제외·복귀 조건을 잘못 잡을 때 장애를 크게 만듭니다.

Health

상태 확인

TCP alive만 보지 말고 DB, cache 같은 필수 의존성까지 포함할지 정합니다.

Algorithm

분산 방식

round-robin, least connections, weight는 지연 시간과 긴 요청 비율에 따라 다릅니다.

Session

세션 유지

sticky session이 필요한지, 아니면 세션 저장소를 외부화할지 먼저 결정합니다.

Failover

장애 제외

연속 실패 수, drain, warm-up 없이 복귀시키면 장애가 반복될 수 있습니다.

헬스 체크 깊이

헬스 체크는 너무 얕으면 장애를 못 보고, 너무 깊으면 작은 지연에도 서버를 뺍니다.

장애 기준

느린 서버가 계속 선택되면 p95 지연, 5xx, pending connection이 함께 뜁니다.

분산 정책 검수

한 대를 내렸을 때 drain, retry, 재투입 순서를 로그와 지표로 설명할 수 있어야 합니다.