"맥북프로" 로 검색한 목록을 뷰티풀수프로 꺼내 보겠다.글목록을 가져올때 현재 페이지와 글 갯수를 지정할 수 있더라... 물론 50개 이상은 불가능하다.글 갯수를 50개로 하고 텍스트에 2020을 포함하는 목록만 취득하였다. 이렇게 하면 맥북프로 2020 판매글을 찾을
네이버 스포츠 야구 메인페이지의 "야구 경기 일정결과" 부분을 크롤링 하고싶다.아... SSG 졌네 ㅠㅠ
일단 순위 페이지로 이동 원하는 데이터가 있는 곳을 찍자  를 import 하자.텍스트의 일부가 되는 문자열을 입력흠.....................limit 인자를 이용하도록 하자.정리가 안
실질적인 크롤링 보다 BeautifulSoup 에 할애하는 시간이 훠\~~얼씬 많다. 대충 보니 문서의 3분의 1정도 읽은것 같아 보이는데 최대한 빨리 빡집중 해서 정리해 보도록 하겠다. 얼마나 시간이 걸릴지는 나도 모른다...다시 한번 볼 기회가 생겨 영광(?)이다.
선택된 soup 의 상위 엘리먼트를 취득한다.왼쪽, 오른쪽에 있는 엘리먼트를 취득한다. 일단 소스부터 보면서 ㄱㄱㄱ근데 문제가 생겼다.그래서... 확인해 보았다.그 말은 곧 sibling 은 엘리먼트만 횡단하는게 아닌 특정 문자열에도 적용이 되는 것 같다.단순히 봐선
첫 목표는 네이버 검색화면 난 리듬게임을 좋아하니 검색어에 이지투온을 검색해 보겠다. 여기서 뭘 뽑아낼지를 고민한다. 난 어디까지나 텍스트 자료수집과 웹사이트 정보를 목적으로 하니 제목과 접속 URL을 취득하도록 하겠다. 개발자 도구를 연다(맥OS의 경우 Optio
.contents 는 선택된 soup 의 하위 엘리먼트(내용)을 전부 가져온다. 소스를 한번 쳐 보자.html 태그를 전부 제거한 문자열만 리턴해준다. 생각외로 쓰임새가 많을 것 같다.선택된 soup 의 하위 엘리먼트(내용)을 iteratable object 로 리턴한
본격적인 크롤링 기본을 디립따 파보는 시간을 가져 볼 것이다. "뷰티풀수프 문서" https://www.crummy.com/software/BeautifulSoup/bs4/doc.ko/ 를 정독하며 정리한 글인데 전부다 볼 예정이다. 엄청나게 많아 보이지만 그