Django + Web

Jingi·2024년 4월 12일

Web

목록 보기

23/40

웹 크롤링

파이썬으로 웹 페이지에 있는 정보를 가져오는 방법

누군가 업로드해 둔 데이터를 다운
누군가 만들어 둔 API Server를 활용하요 정보 받기
사람이 검색하는 것처럼 파이썬이 자동으로 검색 후 결과를 수집하는 방법

웹 크롤링이란

여러 웹 페이지를 돌아다니며 원하는 정보를 모으는 기술
원하는 정보를 추출하는 스크래핑(Scraping) 과 여러 웹 페이지를 자동으로 탐색하는 크롤링의 개념을 합쳐 웹 크롤링이라고 부름
웹사이트들을 돌아다니며 필요한 데이터를 추출하여 활용할 수 있도록 자동화된 프로세스

웹 크롤링 프로세스

웹 페이지 다운로드
- 해당 웹 페이지의 HTML, CSS, JavaScript 등의 코드를 가져오는 단계
페이지 파싱
- 다운로드 받은 코드를 분석하고 필요한 데이터를 추출하는 단계
링크 추출 및 다른 페이지 탐색
- 다른 링크를 추출하고, 다음 단계로 이동하여 원하는 데이터를 추출하는 단계
데이터 추출 및 저장
- 분석 및 시각화에 사용하기 위해 데이터를 처리하고 저장하는 단계

준비단계

필수 라이브러리 설치
- requests : HTTP 요청을 보내고 응답을 받을 수 있는 모듈
- BeautifulSoup : HTML 문서에서 원하는 데이터를 추출하는 데 사용되는 파이썬 라이브러리
- Selenium : 웹 애플리케이션을 테스트하고 자동화하기 위한 파이썬 라이브러리
  - 웹 페이지의 동적인 콘텐츠를 가져오기 위해 사용함
pip install requests beautifulsoup4 selenium

데이터 분석에서 백엔드까지...

이전 포스트

[Django] REST API 1

다음 포스트

[Django] REST API 2

0개의 댓글