robots.txt 설정하기

페이지를 하나 만들어서 테스트 해 보려고 하는데, 아무래도 검색사이트 로봇이 가져갈 것 같았다. (특히 구글이놈!!)

오픈이 되도 딱히 문제는 없지만 그래도 찝찝하니 robots.txt 라도 해 놓자.

robots.txt란

검색엔진 로봇이 페이지를 정보를 가져갈 수 있게 혹은 없게 하자는 일종의 규약입니다. (안지켜도 된다는..)

검색엔진 로봇이 크롤링을 통해 자기네 서비스에서 검색결과를 반영하지요.

robots.txt 파일을 만들어서 최상단(/)에 넣어 놓으면 됩니다. 참 쉽죠.

올렸다면 https://도메인/robots.txt 접속하면 나와야 합니다. (예: https://playon.tistory.com/robots.txt)

티스토리는 티스토리 자체에 들어 있어서 제가 넣은것도 아니고 넣지도 못합니다.

파일 내용의 예를 들어보면,

User-agent: *

Allow: /
Disallow: /member/
Disallow: /admin/
Disallow: /*.xls$

요런 내용이 있을 때, User-agent, Disallow, Allow 을 볼 수 있는데요.

위 내용을 보면 모든 검색엔진 로봇(User-agent: *)을 모든 페이지를 허용(Allow: /) 하지만,

/member/ 와 /admin/ 그리고 .xls로 끝나는 파일은 허용하지 않겠다는 내용입니다.

그럼 제가 원하는 모든 검색엔진 로봇이 가져가지 못하게 하려면 아래처럼 해주면 되겠죠.

User-agent: *
Disallow: /

robots.txt를 설정한다고 해서 검색엔진 로봇이 크롤링을 못하는게 아닙니다.

강제성이 없어 걍 무시하고 크롤링해 갈 수 있습니다.

정말 중요한 페이지는 로그인 등과 같이 인증 후 접근이 가능하게 제작해야 하겠습니다.

만약 robots.txt 파일이 없다면 모든 크롤링을 허용하는 것과 같습니다.

(내용이 없으면 기본적으로 허용입니다.)

만약 크롤링 거부와 검색결과에 나오고 싶지 않은 페이지가 있다면 robots.txt 와 페이지 안 <head> 안에 <meta name="robots" content="noindex, nofollow"> 를 넣어 주시면 됩니다.

robots.txt 소개 - Search Console 고객센터

도움이 되었나요? 어떻게 하면 개선할 수 있을까요? 예아니요

support.google.com