SEO 크롤러 설정 기준
robots는 접근 규칙, sitemap은 발견 경로다
검색 엔진은 먼저 허용 범위를 확인하고, 사이트맵에서 색인 후보
URL을 더 빠르게 찾습니다.
보안 경계는 별도
robots.txt는 선의의 크롤러에게 주는 안내문입니다. 민감한 URL은
인증, 권한, 서버 응답으로 막아야 합니다.
01 크롤러 진입
Search Bot
도메인에 접근해 크롤링 규칙을 찾습니다.
02 규칙 확인
/robots.txt
Allow, Disallow, Sitemap 지시어를 읽습니다.
03 발견 경로
/sitemap.xml
중요 URL과 갱신 힌트를 모읍니다.
04 URL 큐
/posts/a
허용된 페이지를 후보 목록에 올립니다.
05 색인 판단
Index
내용 품질과 메타데이터까지 함께 평가합니다.
정적public/robots.txt와 public/sitemap.xml로 충분합니다.
동적App Router의 robots.ts, sitemap.ts에서 도메인별 URL을
생성합니다.
운영배포 도메인, trailing slash, noindex 정책을 함께
맞춥니다.
robots.txt가 하는 일
Disallow: /admin
크롤러에게 가지 말아야 할 경로를 알려줍니다.
sitemap.xml이 하는 일
<loc>/docs</loc>
발견해야 할 URL 목록과 갱신 힌트를 제공합니다.
막는 방법이 아님
401 / 403
비공개 데이터는 서버에서 인증과 권한 검사를 통과해야만
내려줍니다.