로드 밸런서는 분산보다 실패 처리 정책이 먼저다
로드 밸런서는 요청 분배보다 헬스 체크, 연결 고정, 제외·복귀 조건을 잘못 잡을 때 장애를 크게 만듭니다.
상태 확인
TCP alive만 보지 말고 DB, cache 같은 필수 의존성까지 포함할지 정합니다.
분산 방식
round-robin, least connections, weight는 지연 시간과 긴 요청 비율에 따라 다릅니다.
세션 유지
sticky session이 필요한지, 아니면 세션 저장소를 외부화할지 먼저 결정합니다.
장애 제외
연속 실패 수, drain, warm-up 없이 복귀시키면 장애가 반복될 수 있습니다.
헬스 체크는 너무 얕으면 장애를 못 보고, 너무 깊으면 작은 지연에도 서버를 뺍니다.
느린 서버가 계속 선택되면 p95 지연, 5xx, pending connection이 함께 뜁니다.
한 대를 내렸을 때 drain, retry, 재투입 순서를 로그와 지표로 설명할 수 있어야 합니다.