FAILOVER
Failover는 감지, 선거, 승격, 재연결의 순서로 진행된다
장애 조치는 자동이어도 순간 이동이 아니다. 새 기준점을 정하는 동안 쓰기 중단과 재시도가 필요할 수 있다.
Detect
Elect
Promote
감지
Primary heartbeat 실패 또는 timeout
선거
가장 적절한 Replica를 새 기준점 후보로 선택
승격
새 Primary가 쓰기 권한을 얻음
재연결
클라이언트와 나머지 Replica가 새 경로를 따름
RTO
얼마나 빨리 다시 쓰기를 받을 수 있는가?
RPO
장애 직전 쓰기를 얼마나 잃지 않을 수 있는가?
Retry
드라이버와 앱이 중복/실패 요청을 안전하게 처리해야 한다.