ROBOTS SITEMAP

robots와 sitemap 역할

robots.txt는 크롤러 접근 경로를 제어하고 sitemap은 발견해야 할 URL 목록을 제공하지만, 색인 제외는 noindex/canonical까지 함께 봐야 정확하다.

01

robots 확인

User-agent별 Allow/Disallow 규칙으로 크롤러가 접근할 수 있는지 먼저 본다.

크롤링 통과 기준
02

sitemap 발견

정적 또는 동적 sitemap.xml에서 canonical URL과 lastmod를 제공한다.

discovery
03

페이지 메타

페이지의 robots meta, canonical, status code가 색인 후보 여부를 결정한다.

index signal
04

검색 콘솔 검증

실제 수집 상태, 제외 사유, canonical 선택 결과를 도구로 확인한다.

observability
Disallow only
크롤링 차단, 색인 제거 보장 아님 이미 알려진 URL은 내용 없이 색인에 남을 수 있다.
noindex와 다름
noindex
색인 제외 신호 크롤러가 페이지를 볼 수 있어야 noindex meta를 읽을 수 있다.
robots 차단과 충돌
canonical
대표 URL 선택 힌트 중복 페이지가 있을 때 어느 URL을 대표로 볼지 알려준다.
duplicate control
dynamic sitemap
DB/MDX 기반 URL 목록 생성 삭제된 URL과 비공개 URL이 남지 않도록 source of truth와 동기화한다.
오래된 URL 점검

배포 전 검증

금지 경로 admin, preview, private route가 sitemap에 들어가지 않는지 본다.
상태 코드 sitemap URL이 200인지, canonical 대상도 200인지 확인한다.
Search Console 제외가 의도된 것인지 오류인지 보고서에서 구분한다.