recovery runbook

데드락 탐지는 고리를 찾고 복구는 손실을 선택한다

예방하지 않는 시스템은 주기적으로 대기 관계를 검사해야 합니다. 탐지는 멈춘 집합을 찾는 일이고, 복구는 종료·롤백·선점 중 어떤 비용을 감수할지 정하는 운영 결정입니다.
데드락 탐지·복구 판단표
상황 탐지 기준 복구 선택 운영 비용
single instance wait-for graph의 cycle cycle 안의 프로세스 종료 작업 손실과 재시작 비용
multi instance Available, Allocation, Request 행렬 자원 선점 또는 rollback 체크포인트와 보상 작업 필요
low frequency 장애 빈도와 영향도 기록 타조 전략과 수동 처리 장애 시간은 길어질 수 있음
critical service 대기 시간, 보유 자원, 피해 범위 희생 대상 기준으로 자동 해제 공정성과 사용자 영향 조정
victim 우선순위, 작업량, 보유 자원 수로 희생 대상을 고릅니다.
rollback 체크포인트가 있어야 상태를 되돌리고 자원을 반납할 수 있습니다.
preempt 회수 가능한 자원과 불가능한 자원을 구분해야 합니다.
audit 탐지 주기와 복구 결과를 로그로 남겨 재발 지점을 좁힙니다.