본문 바로가기

728x90

SMALL

크롤링2

크롤링 차단 : 로봇 배제 표준 파일 확인하는 방법 크롤링 차단 (=크롤러의 접근 제어) 로봇 배제 표준 파일 확인하는 방법 로봇 배제 표준 파일(robots.txt)은 웹사이트의 루트 디렉토리에 위치하는 파일로, 검색 엔진 크롤러나 웹 스크래퍼 등의 로봇이 해당 사이트의 어느 부분을 수집할 수 있는지 제어하는 파일입니다. 이 파일을 사용하여 크롤러의 접근을 제어하고 있을 경우, 웹사이트 소유자는 그 내용을 명시하고 있을 것입니다. 크롤러가 허용되는 디렉토리와 파일의 경로를 확인하려면, 해당 웹사이트의 도메인 이름 뒤에 "/robots.txt"를 입력하여 접근할 수 있습니다. 예를 들어, "https://www.example.com/robots.txt"를 입력하여 해당 웹사이트의 로봇 배제 표준 파일을 확인할 수 있습니다. 하지만 로봇 배제 표준 파일이 .. 2023. 5. 3.

파이썬으로 웹 크롤링, 데이터 엑셀 저장하기 파이썬으로 웹사이트 크롤링하여 엑셀에 데이터를 기입하는 방법은 다음과 같습니다. 1. requests와 Beautiful Soup 라이브러리 설치 requests는 HTTP 요청을 보내기 위한 라이브러리이며 Beautiful Soup는 HTML, XML 등의 마크업 언어에서 데이터를 추출하기 위한 라이브러리입니다. pip install requests pip install beautifulsoup4 2. 웹 페이지에서 데이터 추출하기 requests 라이브러리를 사용하여 웹 페이지에 GET 요청을 보내고 Beautiful Soup 라이브러리를 사용하여 HTML 페이지를 파싱합니다. import requests from bs4 import BeautifulSoup url = 'https://www.exam.. 2023. 5. 3.

이전 1 다음

728x90

LIST

티스토리툴바