파이썬을 활용한 데이터 분석 및 웹 크롤링

황상진·2022년 7월 22일
0

Web

목록 보기
2/3
post-thumbnail

파이썬을 활용한 데이터 분석 및 웹 크롤링

목표

  • 데이터 분석의 기초 공부
  • 데이터 분석을 위해 필요한 필수적인 python 라이브러리 사용 방법 학스
  • 주어진 데이터를 분석하고 시각화

데이터 분석

  • 데이터 분석이란 데이터를 수집하고 분류하여 시각적으로 표현하는 과정을 의미

데이터 분석을 위한 개발 환경

  • Google Colab
  • Pycharm
  • Repl.it
  • OpenCV

Vector

  • 벡터란 크기와 방향을 모두 가진 물리적 양

Matrix

  • N행, M열로 나열된 실수의 2차원 배열

Web Crawling

  • 웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어
import requests
# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의 웹 사이트 소스코드를 추출합니다
html = request.text.strip()
print(html)

웹사이트 HTML 추출

import requests
from bs4 import BeautifulSoup

# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get
('http://www.dowellcomputer.com/main.jsp')

# 접속한 이후의웹 사이트 소스코드를 추출합니다.
html = request.text

# HTML 소스코드를 파이썬 BeatifulSoup 객체로 변환합니다.
soup = BeautifulSoup(html, 'html.parser')

# <a> 태그를 포함하는 요소를 추출합니다.
links = soup.select('td > a')

# 모든 링크에 하나씩 접근합니다.
for link in links:
  # 링크가 href 속성을 가지고 있다면
  if link.has_attr('href'):
    # href 속성의 값으로 notice라는 문자가 포함되어 있다면
    if link.get('href').find('notice') != -1:
      print(link.text)
  • 만약 크롤링은 막는 웹이라면
  1. headers = {'User-Agent': ''} 값을 바꿔줘라
  2. Selenum 활용한 웹 크롤링
profile
Web FrontEnd Developer

0개의 댓글