본문 바로가기
728x90
반응형
SMALL

파이썬3

웹 크롤링 코드 작성 예시 (근로복지공단) 만약 한국 근로복지공단 사이트에서 사업장 관리번호 찾기를 통해 사업장명을 검색하고 검색 결과에 따라서 엑셀에 특정 데이터 값을 저장하는 크롤링을 하고 싶은데 어떻게 해야할까? 한국 근로복지공단 사이트에서 크롤링을 하기 위해서는, Python과 Beautiful Soup, Requests 등의 라이브러리를 이용해서 웹 페이지의 HTML 코드를 가져오고, 원하는 정보를 추출할 수 있도록 파싱하는 작업이 필요합니다. 아래는 예시 코드입니다. import requests from bs4 import BeautifulSoup import pandas as pd # 검색할 사업장 관리번호 리스트 business_ids = ['1234567890', '2345678901', '3456789012'] # 결과 저장할 .. 2023. 5. 3.
크롤링 차단 : 로봇 배제 표준 파일 확인하는 방법 크롤링 차단 (=크롤러의 접근 제어) 로봇 배제 표준 파일 확인하는 방법 로봇 배제 표준 파일(robots.txt)은 웹사이트의 루트 디렉토리에 위치하는 파일로, 검색 엔진 크롤러나 웹 스크래퍼 등의 로봇이 해당 사이트의 어느 부분을 수집할 수 있는지 제어하는 파일입니다. 이 파일을 사용하여 크롤러의 접근을 제어하고 있을 경우, 웹사이트 소유자는 그 내용을 명시하고 있을 것입니다. 크롤러가 허용되는 디렉토리와 파일의 경로를 확인하려면, 해당 웹사이트의 도메인 이름 뒤에 "/robots.txt"를 입력하여 접근할 수 있습니다. 예를 들어, "https://www.example.com/robots.txt"를 입력하여 해당 웹사이트의 로봇 배제 표준 파일을 확인할 수 있습니다. 하지만 로봇 배제 표준 파일이 .. 2023. 5. 3.
파이썬으로 웹 크롤링, 데이터 엑셀 저장하기 파이썬으로 웹사이트 크롤링하여 엑셀에 데이터를 기입하는 방법은 다음과 같습니다. 1. requests와 Beautiful Soup 라이브러리 설치 requests는 HTTP 요청을 보내기 위한 라이브러리이며 Beautiful Soup는 HTML, XML 등의 마크업 언어에서 데이터를 추출하기 위한 라이브러리입니다. pip install requests pip install beautifulsoup4 2. 웹 페이지에서 데이터 추출하기 requests 라이브러리를 사용하여 웹 페이지에 GET 요청을 보내고 Beautiful Soup 라이브러리를 사용하여 HTML 페이지를 파싱합니다. import requests from bs4 import BeautifulSoup url = 'https://www.exam.. 2023. 5. 3.
728x90
반응형
LIST