스파르타코딩 왕초보 시작반 3주차 내용(3-4 ~ 3-15)

Dongwoo Kim·2021년 7월 24일
0

파이썬 기초와 패키지를 통한 웹 스크래핑, DB 저장

파이썬 기초문법

#변수 정의, 바로 = 으로 정의한다.
n = 1

#함수 정의, {}로 구분하지 않고 :과 들여쓰기로 범위 구분한다.
def sum(a, b):
	return a+b

패키지를 이용하여 여러가지 기능을 편하게 사용할 수 있다.

DB의 종류에는 sql과 nosql이 있으며, sql은 큰 표를 만들어 내용을 채우는 것이라면, nosql은 한 줄씩 새로운 정보를 추가해 나가는 방법이다. 시작반에서는 nosql을 사용할 예정이다.

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://www.genie.co.kr/chart/top200?ditc=D&ymd=20200403&hh=23&rtm=N&pg=1',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

trs = soup.select('#body-content > div.newest-list > div > table > tbody > tr')

for tr in trs:
    title = tr.select_one('td.info > a.title.ellipsis').text.strip()
    rank = tr.select_one('td.number').text[0:2]
    artist = tr.select_one('td.info > a.artist.ellipsis').text
    print(rank, title, artist)

request, beautifulsoup 이라는 패키지를 통해서
웹페이지의 특정 부분을 지정하여, 파이선 문법으로 반복하여 긁어오는 작업을 할 수 있었다. 이를 웹 스크래핑이라 부르고, 결과는 DB에 저장 할 수 있다.

profile
水滴石穿

0개의 댓글

관련 채용 정보