본문 바로가기
인터넷 IT 관련

파이썬으로 웹 크롤링, 데이터 엑셀 저장하기

by 곰스타일 2023. 5. 3.
728x90
반응형
SMALL


파이썬으로 웹사이트 크롤링하여 엑셀에 데이터를 기입하는 방법은 다음과 같습니다.

1. requests와 Beautiful Soup 라이브러리 설치


requests는 HTTP 요청을 보내기 위한 라이브러리이며

Beautiful Soup는 HTML, XML 등의 마크업 언어에서 데이터를 추출하기 위한 라이브러리입니다.

 

pip install requests

pip install beautifulsoup4


2. 웹 페이지에서 데이터 추출하기
requests 라이브러리를 사용하여 웹 페이지에 GET 요청을 보내고

Beautiful Soup 라이브러리를 사용하여 HTML 페이지를 파싱합니다.


import requests

from bs4 import BeautifulSoup

 

url = 'https://www.example.com'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

 

3.추출한 데이터 엑셀 파일에 저장하기
pandas 라이브러리를 사용하여 추출한 데이터를 엑셀 파일에 저장합니다.

import pandas as pd

 

data = ['data1', 'data2', 'data3']

df = pd.DataFrame(data, columns=['Column'])

df.to_excel('data.xlsx', index=False)


위의 코드를 조합하여 크롤링한 데이터를 엑셀 파일에 저장하는 코드를 작성할 수 있습니다. 단, 크롤링하는 사이트에서 robots.txt 등으로 크롤링을 금지하고 있다면, 사이트 운영자의 허락을 받고 크롤링을 진행해야 합니다.

 

* 웹사이트 크롤링시 주의해야할 점

 

웹사이트 크롤링을 할 때 주의해야 할 점은 다음과 같습니다.

1) 법적 제약사항

웹사이트에서 크롤링하는 것이 법적으로 금지된 경우가 있습니다.

이러한 경우에는 저작권 침해 등의 법적 문제가 발생할 수 있으므로 사전에 확인하고 크롤링을 진행해야 합니다.

2) 로봇 배제 표준 (Robots.txt) 파일

웹사이트에서 로봇 배제 표준 파일을 사용하여 크롤러의 접근을 제어하는 경우가 있습니다.

이 파일을 무시하고 크롤링을 시도할 경우 웹사이트 접근이 차단될 수 있습니다.

3) 무분별한 요청

웹사이트에서 크롤링을 하는 경우에는 서버에 부하를 줄 수 있으므로 무분별한 요청은 피해야 합니다.

대부분의 웹사이트에서는 일정 시간 내에 너무 많은 요청을 보내는 경우 차단될 수 있습니다.

4) 불필요한 정보 수집

크롤링을 하는 경우, 필요한 정보만을 수집하는 것이 중요합니다.

불필요한 정보를 수집하는 경우에는 저장 용량이 낭비되고 분석이 어려워질 수 있습니다.

5) 크롤링한 데이터 활용

크롤링한 데이터를 사용할 때는 원작자의 권리를 존중하고, 법적인 문제가 발생하지 않도록 주의해야 합니다.

또한 데이터를 활용할 때 개인정보 보호법 등 관련 법률을 준수해야 합니다.

 

 

728x90
반응형
LIST

댓글