3주차 코딩 개발 일지 (3-8 ~ 3-9 )

영현·2022년 3월 15일

스파르타클럽 코딩일지 3주차

목록 보기

2/4

☑️ 웹스크래핑(크롤링)

크롤링 기본 세팅

import requests
from bs4 import BeautifulSoup

✽ 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

✽ HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
✽ soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
✽ 이제 코딩을 통해 필요한 부분을 추출
soup = BeautifulSoup(data.text, 'html.parser')

#코딩 시작

select_one

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

title = soup.select_one('#old_content > table > tbody > tr:nth-child(2) > td.title > div > a')

print(title['href'])  → []라고 라이브러리 인건 아님, 코드 개발자가 설정해 놓은 것

☞ /movie/bi/mi/basic.naver?code=171539

영화 제목 가져와보기

✔︎ 태그 안의 텍스트를 찍고 싶을 땐 → 태그.text
✔︎ 태그 안의 속성을 찍고 싶을 땐 → 태그['속성']

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

✽ select를 이용해서, tr들을 불러오기
movies = soup.select('#old_content > table > tbody > tr')

✽ movies (tr들) 의 반복문을 돌리기
for movie in movies:  		→ movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
        print (a_tag.text)  → a의 text를 찍어본다.

beautifulsoup 내 select에 미리 정의된 다른 방법

✽ 선택자를 사용하는 방법 (copy selector)
soup.select('태그명')
soup.select('.클래스명')
soup.select('#아이디명')

soup.select('상위태그명 > 하위태그명 > 하위태그명')
soup.select('상위태그명.클래스명 > 하위태그명.클래스명')

✽ 태그와 속성값으로 찾는 방법
soup.select('태그명[속성="값"]')

✽ 한 개만 가져오고 싶은 경우
soup.select_one('위와 동일')

✦ 크롬개발자 도구 참조
1. 원하는 부분에서 마우스 오른쪽 클릭 → 검사
2. 원하는 태그에서 마우스 오른쪽 클릭
3. Copy → Copy selector로 선택자를 복사할 수 있음

랭킹만 출력

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')


✽ 한 줄씩 selector로 몇 개 복사하다보면 공통 부분과 바뀌는 부분을 구별할 수 있다.
→ :를 기점으로 앞쪽이 공통으로 사용하는 것을 알 수 있다.
#old_content > table > tbody > tr:nth-child(2)
#old_content > table > tbody > tr:nth-child(3)
#old_content > table > tbody > tr:nth-child(4)

(#old_content > table > tbody > tr) 이 부분을 ↓ 여기에 넣어준다.
trs = soup.select('#old_content > table > tbody > tr')
✔︎ select는 결과가 리스트로 나옴


✽ 타이틀 부분만 selector를 추출해도
#old_content > table > tbody > tr:nth-child(2) > td.title > div > a

for tr in trs:
    a_tag = tr.select_one('td.title > div > a')
    print(a_tag)

타이틀 텍스트만 출력
-None이라고 출력되는 부분이 있는데 구분선을 나타냄
-text만 출력하기 위해서는 None을 제외하는 if문을 설정해주어야함

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

#old_content > table > tbody > tr:nth-child(2) > td.title > div > a
trs = soup.select('#old_content > table > tbody > tr')

for tr in trs:
    a_tag = tr.select_one('td.title > div > a')
    if a_tag is not None:   → a_tag가 None이 아닐 때
        title = a_tag.text  → title은 a_tag의 텍스트이다.
        print(title)        → title을 출력, title 텍스트만 출력됨

☑️Quiz_웹스크래핑 연습

아래와 같이 출력되면 됨 (순위, 제목, 별점)

☑️Quiz_완성

import requests
from bs4 import BeautifulSoup

# URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
soup = BeautifulSoup(data.text, 'html.parser')

# select를 이용해서, tr들을 불러오기
movies = soup.select('#old_content > table > tbody > tr')

# movies (tr들) 의 반복문을 돌리기
for movie in movies:
    # movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
        rank = movie.select_one('td:nth-child(1) > img')['alt'] # img 태그의 alt 속성값을 가져오기
        title = a_tag.text                                      # a 태그 사이의 텍스트를 가져오기
        star = movie.select_one('td.point').text                # td 태그 사이의 텍스트를 가져오기
        print(rank,title,star)

~~어려워서 머리 터지는 중이라 때려치고 싶다 진짜.....~~

영현

이전 포스트

3주차 코딩 개발 일지 (3-3 ~ 3-7)

다음 포스트

3주차 코딩 개발 일지 (3-8 ~ 3-9 )

스파르타클럽 코딩일지 3주차

3주차 코딩 개발 일지 (3-3 ~ 3-7)

3주차 코딩 개발 일지 (3-10 ~ 3-14 )

0개의 댓글