Failover

장애 조치는 새 Primary 선택보다 안전한 전환 절차가 핵심이다

선거와 승격만으로 끝나지 않고, split brain 방지와 클라이언트 경로 갱신이 함께 필요하다.

1Detect헬스체크와 timeout으로 Primary 이상을 판단한다.

2Fence옛 Primary가 다시 쓰기를 받지 못하게 차단한다.

3Promote복제 지점이 가장 안전한 Replica를 기준점으로 올린다.

4Redirect앱 연결 문자열, 프록시, DNS가 새 경로를 가리킨다.

5Rejoin복구된 노드를 Replica로 붙이고 데이터 차이를 확인한다.

비동기 복제에서는 RPO와 rollback 가능성을 문서화해야 한다.