- BeautifulSoup
- newspaper3k
from bs4 import BeautifulSoup
#- HTML 문서를 문자열 html로 저장합니다.
html = '''
<html>
<head>
</head>
<body>
<h1> 장바구니
<p id='clothes' class='name' title='라운드티'> 라운드티
<span class = 'number'> 25 </span>
<span class = 'price'> 29000 </span>
<span class = 'menu'> 의류</span>
<a href = 'http://www.naver.com'> 바로가기 </a>
</p>
<p id='watch' class='name' title='시계'> 시계
<span class = 'number'> 28 </span>
<span class = 'price'> 32000 </span>
<span class = 'menu'> 악세서리 </span>
<a href = 'http://www.facebook.com'> 바로가기 </a>
</p>
</h1>
</body>
</html>
'''
#- BeautifulSoup 인스턴스를 생성
#- 두번째 매개변수는 분석할 분석기(parser)의 종류
soup = BeautifulSoup(html, 'html.parser')
soup.select('태그명')
soup.select('태그명 .class #id)
뉴스 데이터를 크롤링하기 위해 만들어진 패키지
주어진 문서에서 단어별로 문서의 연관성을 알고싶을 때 사용
⇒ 각 단어가 문서에 대한 정보를 얼마나 가지고 있는가.
1. TF: 문서에 특정 단어가 몇 번 나왔는지
마지막 날이다! 앞으로는 Going Deeper를 진행한다. 중간에 그만둘까 생각을 한 적 있었는데 어찌저찌 하다보니 그래도 절반 가까이 오게 됐다. 잘할 수 있을까 싶을 때가 많았는데 그래도 페이스대로 나름 잘하고 있다고 생각한다. 프로그래머스 레벨 1도 끝낸 만큼 자료구조 알고리즘 책 하나를 완독하고 레벨 2도 찬찬히 풀어봐야겠다. 시간 정말 빠르다..