본문 바로가기
인터넷 IT 관련

크롤링 차단 : 로봇 배제 표준 파일 확인하는 방법

by 곰스타일 2023. 5. 3.
728x90
반응형
SMALL
크롤링 차단 (=크롤러의 접근 제어)
로봇 배제 표준 파일 확인하는 방법

 

로봇 배제 표준 파일(robots.txt)은 웹사이트의 루트 디렉토리에 위치하는 파일로, 검색 엔진 크롤러나 웹 스크래퍼 등의 로봇이 해당 사이트의 어느 부분을 수집할 수 있는지 제어하는 파일입니다. 이 파일을 사용하여 크롤러의 접근을 제어하고 있을 경우, 웹사이트 소유자는 그 내용을 명시하고 있을 것입니다.

 

 

크롤러가 허용되는 디렉토리와 파일의 경로를 확인하려면, 해당 웹사이트의 도메인 이름 뒤에 "/robots.txt"를 입력하여 접근할 수 있습니다. 예를 들어, "https://www.example.com/robots.txt"를 입력하여 해당 웹사이트의 로봇 배제 표준 파일을 확인할 수 있습니다.

하지만 로봇 배제 표준 파일이 존재하지 않을 수도 있으며, 허용된 디렉토리나 파일을 정확히 지정하지 않은 경우가 있을 수도 있습니다. 이러한 경우, 해당 웹사이트 소유자의 허가 없이 크롤링하는 것은 부적절하며, 법적인 문제가 발생할 수 있으므로 주의해야 합니다. 크롤링을 진행할 때는 항상 로봇 배제 표준 파일을 확인하고, 웹사이트 소유자의 허가를 받은 후에 진행해야 합니다.

 

Google 크롤러 접근 제어

예를들어 구글링을 크롤링하는 것은 구글의 서비스 이용 약관에서 금지되어 있습니다. 따라서 합법적인 방법으로는 구글링을 크롤링할 수 없습니다. 또한, 로봇 배제 표준 파일을 사용하여 크롤러의 접근을 제어하고 있기 때문에 크롤러의 접근이 차단될 수 있습니다. 크롤링을 하려면 해당 사이트의 이용약관을 확인하고, 허용되는 경우에만 수행해야 합니다.

 

Naver 크롤러 일부 페이지에 대해 크롤링 허용

네이버는 일부 페이지에 대해 크롤링을 허용하고 있지만, 대부분의 페이지에서는 크롤링을 금지하고 있습니다. 네이버는 로봇 배제 표준 파일을 사용하여 자신들의 검색 엔진 봇 외에는 크롤링을 차단하고 있습니다. 따라서 네이버에서 크롤링을 하려면 사전에 권한을 얻어야 하며, 네이버 API를 사용하거나 스크래핑 허가를 받아야 합니다. 하지만 이 또한 일부 페이지에 대해서만 가능하며, 그 외의 페이지에서는 불법적인 스크래핑으로 간주될 수 있습니다. 따라서 네이버에서 크롤링을 하기 전에 반드시 해당 페이지의 크롤링 정책을 확인하고, 합법적인 방법으로 진행해야 합니다.

네이버에 /robots.txt 메모장의 내용


해당 robots.txt 파일의 내용은 다음과 같습니다.

  • User-agent: * : 모든 크롤러에 대한 규칙을 설정합니다.
  • Disallow: / : 모든 경로에 대한 접근을 차단합니다.
  • Allow : /$ : '/' 경로에 대해서만 허용합니다.


즉, 네이버는 모든 크롤러의 접근을 차단하고, '/' 경로에 대해서만 허용하고 있습니다.

이는 네이버의 메인 페이지에 대한 접근은 허용하고, 그 외의 페이지는 접근이 차단되어 있다는 것을 의합니다.

 

 

예시) 근로복지공단 웹사이트

https://www.comwel.or.kr/comwel/paym/insu/srch.jsp 웹은 크롤링을 차단하고 있나?

해당 웹페이지에서는 robots.txt 파일이 존재하지 않아, 웹사이트의 크롤링 정책을 확인할 수 없습니다. 따라서, 해당 웹사이트의 크롤링 정책을 확인하시려면 웹사이트 관리자나 담당자에게 문의하시는 것이 좋습니다.

근로복지 공단 사업장 관리번호 찾기 페이지 캡처 화면

 

 

그러나, 일반적으로 국내 웹사이트에서는 크롤링을 허용하지 않는 경우가 많기 때문에, 웹사이트의 이용 약관 등을 꼼꼼히 확인하고, 웹사이트 관리자의 허가를 받지 않은 경우에는 크롤링을 하지 않는 것이 바람직합니다.

728x90
반응형
LIST

댓글