페이지를 하나 만들어서 테스트 해 보려고 하는데, 아무래도 검색사이트 로봇이 가져갈 것 같았다. (특히 구글이놈!!)
오픈이 되도 딱히 문제는 없지만 그래도 찝찝하니 robots.txt 라도 해 놓자.
robots.txt란
검색엔진 로봇이 페이지를 정보를 가져갈 수 있게 혹은 없게 하자는 일종의 규약입니다. (안지켜도 된다는..)
검색엔진 로봇이 크롤링을 통해 자기네 서비스에서 검색결과를 반영하지요.
robots.txt 설정하기
robots.txt 파일을 만들어서 최상단(/)에 넣어 놓으면 됩니다. 참 쉽죠.
올렸다면 https://도메인/robots.txt 접속하면 나와야 합니다. (예: https://playon.tistory.com/robots.txt)
티스토리는 티스토리 자체에 들어 있어서 제가 넣은것도 아니고 넣지도 못합니다.
파일 내용의 예를 들어보면,
User-agent: *
Allow: /
Disallow: /member/
Disallow: /admin/
Disallow: /*.xls$
요런 내용이 있을 때, User-agent, Disallow, Allow 을 볼 수 있는데요.
- User-agent: 검색엔진 로봇을 말합니다.
- Disallow: 허용하지 않을 페이지를 설정합니다.
- Allow: 허용할 페이지를 설정합니다.
위 내용을 보면 모든 검색엔진 로봇(User-agent: *)을 모든 페이지를 허용(Allow: /) 하지만,
/member/ 와 /admin/ 그리고 .xls로 끝나는 파일은 허용하지 않겠다는 내용입니다.
그럼 제가 원하는 모든 검색엔진 로봇이 가져가지 못하게 하려면 아래처럼 해주면 되겠죠.
User-agent: *
Disallow: /
robots.txt 주의사항
robots.txt를 설정한다고 해서 검색엔진 로봇이 크롤링을 못하는게 아닙니다.
강제성이 없어 걍 무시하고 크롤링해 갈 수 있습니다.
정말 중요한 페이지는 로그인 등과 같이 인증 후 접근이 가능하게 제작해야 하겠습니다.
만약 robots.txt 파일이 없다면 모든 크롤링을 허용하는 것과 같습니다.
(내용이 없으면 기본적으로 허용입니다.)
만약 크롤링 거부와 검색결과에 나오고 싶지 않은 페이지가 있다면 robots.txt 와 페이지 안 <head> 안에 <meta name="robots" content="noindex, nofollow"> 를 넣어 주시면 됩니다.
https://support.google.com/webmasters/answer/6062608?hl=ko&ref_topic=6061961
'개발 > 기타' 카테고리의 다른 글
인스타그램 API 연동하기(feat. 내 홈페이지에) #1 (11) | 2020.01.06 |
---|---|
클립보드: 복사 & 붙여넣기를 편하게 (1) | 2019.11.22 |
Hyper : 예쁜 터미널 프로그램 (3) | 2019.10.09 |
한글날기념 네이버 무료폰트(나눔 손글씨 시리즈) (0) | 2019.10.08 |
쿠키런폰트 무료 배포 (0) | 2019.09.26 |