# beautifulsoup

56개의 포스트

python 시작

import requestsfrom bs4 import BeautifulSoupfrom pymongo import MongoClientclient = MongoClient('localhost', 27017)db = client.dbspartaheaders = {'Use

약 19시간 전
·
0개의 댓글
post-thumbnail

[python] #11. 평화로운 중고나라 키워드 검색 목록 뽑아내자

"맥북프로" 로 검색한 목록을 뷰티풀수프로 꺼내 보겠다.글목록을 가져올때 현재 페이지와 글 갯수를 지정할 수 있더라... 물론 50개 이상은 불가능하다.글 갯수를 50개로 하고 텍스트에 2020을 포함하는 목록만 취득하였다. 이렇게 하면 맥북프로 2020 판매글을 찾을

4일 전
·
0개의 댓글
post-thumbnail

[python] #10. KBO 오늘경기 결과 크롤링 해보자

네이버 스포츠 야구 메인페이지의 "야구 경기 일정결과" 부분을 크롤링 하고싶다.아... SSG 졌네 ㅠㅠ

4일 전
·
0개의 댓글
post-thumbnail

[python] #9. 네이버 KBO 순위표 크롤링 하기

일단 순위 페이지로 이동 원하는 데이터가 있는 곳을 찍자 ![](https://images.velog.io/images/exoluse/post/f0b27df1-84a2-469f-a48b-18f0c62c3180/%E1%84%89%E1%85%B3%E1%84%8F%E1%8

4일 전
·
0개의 댓글
post-thumbnail

[python] #8. BeautifulSoup - find (2)

.parents는 선택된 soup 의 부모 엘리먼트를 쭉~찾아 가는 기능이다. 기존에 다뤘던 기능들과 사실상 차이가 없다.이전 BeautifulSoup 포스팅을 참조해 볼 수 있다.https://velog.io/@exoluse/series/python-web-

5일 전
·
0개의 댓글
post-thumbnail

[python] #7. BeautifulSoup - find (1)

먼저 find_all 을 다시 보도록 하자.그럼 find 는?find_all 과 find 의 결과가 다르다...find 를 이용하여 class 속성값이 title 인 p 태그 구하기find 를 이용하여 body 태그 밑의 b 태그 중 vel 이라는 속성값을 가지는 태그

5일 전
·
0개의 댓글
post-thumbnail

[python] #6. BeautifulSoup - find_all (2)

태그 내의 텍스트만 가지고 컨트롤해 볼 예정이다.text 값에 해당하는 엘리먼트를 리턴한다.최상단에 re(정규표현식... 인가?) 를 import 하자.텍스트의 일부가 되는 문자열을 입력흠.....................limit 인자를 이용하도록 하자.정리가 안

5일 전
·
0개의 댓글
post-thumbnail

[python] #5. BeautifulSoup - find_all (1)

실질적인 크롤링 보다 BeautifulSoup 에 할애하는 시간이 훠\~~얼씬 많다. 대충 보니 문서의 3분의 1정도 읽은것 같아 보이는데 최대한 빨리 빡집중 해서 정리해 보도록 하겠다. 얼마나 시간이 걸릴지는 나도 모른다...다시 한번 볼 기회가 생겨 영광(?)이다.

5일 전
·
0개의 댓글
post-thumbnail

[python] #4. BeautifulSoup - 인접 엘리먼트 구하기

선택된 soup 의 상위 엘리먼트를 취득한다.왼쪽, 오른쪽에 있는 엘리먼트를 취득한다. 일단 소스부터 보면서 ㄱㄱㄱ근데 문제가 생겼다.그래서... 확인해 보았다.그 말은 곧 sibling 은 엘리먼트만 횡단하는게 아닌 특정 문자열에도 적용이 되는 것 같다.단순히 봐선

6일 전
·
0개의 댓글
post-thumbnail

[python] #3. 네이버 검색 결과 목록을 뽑자

첫 목표는 네이버 검색화면 난 리듬게임을 좋아하니 검색어에 이지투온을 검색해 보겠다. 여기서 뭘 뽑아낼지를 고민한다. 난 어디까지나 텍스트 자료수집과 웹사이트 정보를 목적으로 하니 제목과 접속 URL을 취득하도록 하겠다. 개발자 도구를 연다(맥OS의 경우 Optio

7일 전
·
0개의 댓글
post-thumbnail

[python] #2. BeautifulSoup - 컨텐츠 읽기 기본

.contents 는 선택된 soup 의 하위 엘리먼트(내용)을 전부 가져온다. 소스를 한번 쳐 보자.html 태그를 전부 제거한 문자열만 리턴해준다. 생각외로 쓰임새가 많을 것 같다.선택된 soup 의 하위 엘리먼트(내용)을 iteratable object 로 리턴한

2021년 10월 9일
·
0개의 댓글
post-thumbnail

[python] #1. BeautifulSoup - 설치와 태그 기본 읽기

본격적인 크롤링 기본을 디립따 파보는 시간을 가져 볼 것이다. "뷰티풀수프 문서" https://www.crummy.com/software/BeautifulSoup/bs4/doc.ko/ 를 정독하며 정리한 글인데 전부다 볼 예정이다. 엄청나게 많아 보이지만 그

2021년 10월 8일
·
0개의 댓글
post-thumbnail

[3] 스파르타 코딩클럽 웹개발 강의 3주차

웹개발 3주차 강의를 듣고.. 지난 주 추석 때 들으려 했던 3주차 미루고 미뤄지다 결국 이번주 끝에 와서야 마무리 되었다. 학교 lms강의와 나의 게으름이 합쳐지며 시간 내에 듣지 못할 뻔 했다. > 이번 3주차에는 OpenApi 복습과 파이썬 기초, MongoD

2021년 10월 1일
·
0개의 댓글
post-thumbnail

3일차 웹크롤링, 스크래핑

웹크롤링이란?구글이나 네이버같은 검색엔진이 내 사이트를 퍼가는 행위스크래핑이란?웹페이지의(순위)목록정보 들을 스크랩해 오는 것.(공부할 때, 스크래핑을 웹크롤링이라 지칭한다.)크롤링을 위해서 필요한 2가지는? request 로 정보목록을 요청하고수많은 정보중에 필요한

2021년 9월 15일
·
1개의 댓글

내일배움캠프 D+1

Crawling할때는 정보를 찾아서 활용한다는 점에서 재밌었지만 flask는 조금 복잡한게 없지않아 있어 이해하는데에 시간이 오래 걸렸다. Crawling 2.Pymongo from pymongo import MongoClient client =

2021년 9월 14일
·
0개의 댓글
post-thumbnail

Toy 프로젝트 - 웹크롤링 part 03

썸네일이미지 출처: https://www.pngwing.com/ko/search?q=cgvpart 01, part 02 순서대로 모두 이어지는 내용이다.이 포스팅은 part 03 으로 마지막 파트이다. '블랙위도우'로 예시를 들고 있다.part 01, part

2021년 8월 8일
·
0개의 댓글
post-thumbnail

Toy 프로젝트 - 웹크롤링 part 02

썸네일이미지 출처: https://www.pngwing.com/ko/search?q=cgv : 이전 포스팅에서까지 url을 뽑았다. 이제부터는 구체적인 전략을 말하겠다. 해당 영화 url에서 댓글, 날짜, 사용자 크롤링 예정댓글 페이지 수에 따른 구분댓글 페이

2021년 8월 8일
·
0개의 댓글
post-thumbnail

Toy 프로젝트 - 웹크롤링 part 01

오늘은 기술블로그 느낌이 나도록 웹크롤링 예제를 보여주려고 한다. CGV 홈페이지에서 특정 영화의 댓글들을 크롤링하는 예제이다. k-digital training 에서는 'Toy 프로젝트'라는 이름으로 개인 프로젝트로 진행하였다. 개발자들이나 웹 관련 종사자들이

2021년 8월 8일
·
0개의 댓글
post-thumbnail

python BeautifulSoup을 이용해 이미지주소 가져오기

크롤링을 하려는 대상이 태그에 담긴 내용이 아니라 태그의 속성에 있는 이미지주소일 경우, 예를 들어서 class "1a" 를 가진 span 태그의 하위 img 태그의 src속성인 "https://www. ~ . " 의 내용을 가져오고 싶을 때 사용하는 방법.

2021년 8월 4일
·
0개의 댓글
post-thumbnail

python BeautifulSoup을 이용한 크롤링

BeautifulSoup을 이용해 저번에 크롤링을 한 것을 포스팅 한 적이 있다. 그 당시 크롤링 하던 대상에 업데이트 된 내용이 있어서 다시 크롤링을 시행할 겸 저번보다 정리된 내용을 기록용으로 써봄.f = open("", 'w')안에 저장할파일명 예시로 file1로

2021년 8월 3일
·
0개의 댓글