[파이썬] BeautifulSoup4(bs4) 크롤링 후 html 태그 제거

susu·2022년 5월 3일
0

인터넷에 나와있는 여러 방법을 시도해보며 하루가 지나고...
드디어 오늘 데이터를 받아오는 데에 성공~!

[<span>액션 및 어드벤처         </span>, <span>아시아 액션 영화 </span>, <span>클래식 액션 및 어드벤처 </span>, <span>액션 코미디 </span>, <span>액션 스릴러 </span>, <span>모험 </span>, <span>만화 및 슈퍼 히어로 영화 </span>, <span>웨스턴 </span>, <span>스파이 액션 및 어드벤처 </span>, <span>범죄 및 모험 </span>, <span>야외 액션 및 모험 </span>, <span>무술 영화 </span>, <span>군사 액션 및 모험 </span>, <span>애니메이션 </span>, <span>성인 애니메이션 </span>, <span>애니메이션 액션 </span>, <span>애니메이션 코미디 </span>, <span>애니메이션 드라마 </span>, <span>애니메이션 등장물 </span>, <span>일본 애니메이션 SF </span>, <span>일본 애니메이션 공포 </span>, <span>일본 애니메이션 판타지 </span>, <span>애니메이션 시리즈 </span>, <span>어린이 및 가족 영화 </span>, <span>0 ~ 2 세 영화 </span>, <span>2 ~ 4 세 영화 </span>

Selector을 타고 들어가 얻어낸 결과 리스트의 일부다.
나는 span 태그를 제우고 내부 항목만 결과로 얻어내고 싶었다.

for data in table:
    print(data.text)

실행 결과

션 및 어드벤처         
아시아 액션 영화 
클래식 액션 및 어드벤처 
액션 코미디 
액션 스릴러 
모험 
만화 및 슈퍼 히어로 영화 
웨스턴 
스파이 액션 및 어드벤처 
범죄 및 모험 
야외 액션 및 모험 
무술 영화 
군사 액션 및 모험 
애니메이션 
성인 애니메이션 
애니메이션 액션 
애니메이션 코미디 
애니메이션 드라마 
애니메이션 등장물 
일본 애니메이션 SF 
일본 애니메이션 공포 
일본 애니메이션 판타지 
애니메이션 시리즈 
어린이 및 가족 영화 
0 ~ 2 세 영화 
2 ~ 4 세 영화 

휴..
import re 해서 정규표현식도 써봤고,
strip 이용해 함수도 구상해보고 하루종일 고민했는데도 자꾸 에러가 났는데 너무 뜬금없고 간단하게 해결이 돼서 어이가 하나도 없었다. 하하~!
그래도 나랑 같은 고민을 하는 사람들이 있을 거라 생각하기 때문에 기록해둔다.

profile
블로그 이사했습니다 ✈ https://jennairlines.tistory.com

0개의 댓글