Django + Web

Jingi·2024년 4월 12일

Web

목록 보기
23/40
post-thumbnail

웹 크롤링

파이썬으로 웹 페이지에 있는 정보를 가져오는 방법

  • 누군가 업로드해 둔 데이터를 다운
  • 누군가 만들어 둔 API Server를 활용하요 정보 받기
  • 사람이 검색하는 것처럼 파이썬이 자동으로 검색 후 결과를 수집하는 방법

웹 크롤링이란

  • 여러 웹 페이지를 돌아다니며 원하는 정보를 모으는 기술
  • 원하는 정보를 추출하는 스크래핑(Scraping) 과 여러 웹 페이지를 자동으로 탐색하는 크롤링의 개념을 합쳐 웹 크롤링이라고 부름
  • 웹사이트들을 돌아다니며 필요한 데이터를 추출하여 활용할 수 있도록 자동화된 프로세스

웹 크롤링 프로세스

  • 웹 페이지 다운로드
    • 해당 웹 페이지의 HTML, CSS, JavaScript 등의 코드를 가져오는 단계
  • 페이지 파싱
    • 다운로드 받은 코드를 분석하고 필요한 데이터를 추출하는 단계
  • 링크 추출 및 다른 페이지 탐색
    • 다른 링크를 추출하고, 다음 단계로 이동하여 원하는 데이터를 추출하는 단계
  • 데이터 추출 및 저장
    • 분석 및 시각화에 사용하기 위해 데이터를 처리하고 저장하는 단계

준비단계

  • 필수 라이브러리 설치
    • requests : HTTP 요청을 보내고 응답을 받을 수 있는 모듈
    • BeautifulSoup : HTML 문서에서 원하는 데이터를 추출하는 데 사용되는 파이썬 라이브러리
    • Selenium : 웹 애플리케이션을 테스트하고 자동화하기 위한 파이썬 라이브러리
      • 웹 페이지의 동적인 콘텐츠를 가져오기 위해 사용함
  • pip install requests beautifulsoup4 selenium
profile
데이터 분석에서 백엔드까지...

0개의 댓글