[Python] [크롤링] 기본개념 3

doyeonlee·2022년 2월 7일
0

개발일지 2022

목록 보기
9/16
post-thumbnail

기본개념

doc

for movie in movies:
    # movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
        rank = movie.select_one('td:nth-child(1) > img')['alt'] # img 태그의 alt 속성값을 가져오기
        title = a_tag.text                                      # a 태그 사이의 텍스트를 가져오기
        star = movie.select_one('td.point').text                # td 태그 사이의 텍스트를 가져오기
        doc = {
            'rank' : rank,
            'title' : title,
            'star' : star
        }
        db.movies.insert_one(doc)

doc 만들어서 insert 하기


strip()

크롤링 시, 공백 문자열을 없애기 위해서는
strip()을 쓰면된다.

만약, text 없애고 양끝 간격을 맞추고 싶다면

ex)

~.text[0:2].strip()
# 0번째부터 2번째까지 지움

해주면 된다.


크롤링 다시 연습하자

profile
느려도 천천히 꼼꼼하게 !

0개의 댓글