파이썬을 활용한 데이터 분석 및 웹 크롤링

황상진·2022년 7월 22일

py web

Web

목록 보기

2/3

파이썬을 활용한 데이터 분석 및 웹 크롤링

목표

데이터 분석의 기초 공부
데이터 분석을 위해 필요한 필수적인 python 라이브러리 사용 방법 학스
주어진 데이터를 분석하고 시각화

데이터 분석

데이터 분석이란 데이터를 수집하고 분류하여 시각적으로 표현하는 과정을 의미

데이터 분석을 위한 개발 환경

Google Colab
Pycharm
Repl.it
OpenCV

Vector

벡터란 크기와 방향을 모두 가진 물리적 양

Matrix

N행, M열로 나열된 실수의 2차원 배열

Web Crawling

웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어

import requests
# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의 웹 사이트 소스코드를 추출합니다
html = request.text.strip()
print(html)

웹사이트 HTML 추출

import requests
from bs4 import BeautifulSoup

# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get
('http://www.dowellcomputer.com/main.jsp')

# 접속한 이후의웹 사이트 소스코드를 추출합니다.
html = request.text

# HTML 소스코드를 파이썬 BeatifulSoup 객체로 변환합니다.
soup = BeautifulSoup(html, 'html.parser')

# <a> 태그를 포함하는 요소를 추출합니다.
links = soup.select('td > a')

# 모든 링크에 하나씩 접근합니다.
for link in links:
  # 링크가 href 속성을 가지고 있다면
  if link.has_attr('href'):
    # href 속성의 값으로 notice라는 문자가 포함되어 있다면
    if link.get('href').find('notice') != -1:
      print(link.text)

만약 크롤링은 막는 웹이라면

headers = {'User-Agent': ''} 값을 바꿔줘라

Selenum 활용한 웹 크롤링

황상진

Web FrontEnd Developer

이전 포스트

01. How does the Internet work?

다음 포스트

파이썬을 활용한 데이터 분석 및 웹 크롤링

Web

파이썬을 활용한 데이터 분석 및 웹 크롤링

데이터 분석

데이터 분석을 위한 개발 환경

Vector

Matrix

Web Crawling

웹사이트 HTML 추출

01. How does the Internet work?

웹 접근성 IR 기법

0개의 댓글