운영 루프

운영 전략 루프

실전 프로젝트의 마지막 단계는 단위·통합·E2E 테스트를 배포 파이프라인에 묶고, SLO와 RTO/RPO를 기준으로 장애 대응과 개선을 반복하는 것이다.

verify

Jest, Supertest, Playwright

서비스 단위 테스트, API 통합 테스트, 가입부터 파일 편집까지의 사용자 시나리오를 자동화한다.

품질 확보
ship

Docker 이미지와 CI/CD

빌드와 테스트 통과 후 컨테이너 레지스트리에 이미지를 올리고 스테이징 검증 뒤 운영에 배포한다.

반복 배포
measure

SLO와 알림

API p95 지연 시간, 에러율, WebSocket 연결 수, DB 쿼리 시간을 대시보드와 알림 기준에 연결한다.

관찰 가능성
protect

Rate limit, breaker, key

급증 트래픽은 요청 제한으로, 외부 장애는 Circuit Breaker로, 중복 요청은 Idempotency Key로 막는다.

트래픽 방어
recover

백업 복원과 롤백

RTO와 RPO에 맞춰 데이터베이스 복원 테스트, 이미지 롤백, 장애 공지 절차를 문서화한다.

서비스 복구