3주차에는 Python,웹 크롤링,DB 대해 배웠다.
파이썬은 기본문법과 웹 크롤링라이브러리(BeautifulSoup) 사용법과, mongoseDB 연결과 데이터 입출력하는법을 배웠다.
아래는 지니에서 노래제목, 순위, 가수이름을 크롤링한것이다.
1 바라만 본다 MSG워너비 (M.O.M)
2 Next Level aespa
3 신호등 이무진
4 Weekend 태연 (TAEYEON)
5 치맛바람 (Chi Mat Ba Ram) 브레이브걸스 (Brave girls)
...
문제가 생겼다.
14위에 19금 노래인 Peaches에서 19금 이라는 SPAN태그가 나오는 것이다.
일반적인 노래
구글링해본 결과 .decompose() 이라는 함수를 사용하면 해결 할 수 있을 것 같았다.
.decompose()로 span 태그를 제거 후 text를 뽑아 냈다.