OpenCV | Web Crawling | 프로젝트2 : step2

박나연·2020년 9월 13일
0

2020summer

목록 보기
8/8

1 일정 날짜 기준까지만 불러오기

게시글이 너무 많으면 모든 사진을 불러오기 원치 않을 수 있기 때문에 그럴때는 며칠까지의 자료만 불러오도록 함
그렇게 하기위해 href 속 title 에 해당하는 날짜를 가져옴



2 모든 게시글 사진 불러오기

다양한 방법으로 날짜 데이터를 크롤링 하려했지만 매번 실패했고, 그냥 모든 게시글을 불러오기로 했다. 1000개 이상의 게시글을 올린 계정들은 시간이 오래 걸려서 약 200개 게시물을 가진 계정으로 실습함

처음에 스크롤을 끝까지 다 내린 후 다운받는 형식으로 했다가 뒤에 있는 30 개 사진만 받아 져서 다시

스크롤을 한번내리고다운, 또 내리고 다운 받는 방식으로 하니까 어쩌다 보니 처음 24개의 게시물만 반복적으로 다운 받아지게 됨

그래서 다시한번 스크롤을 다내리고 다운받도록 해봄

그런데 또 마지막 게시글 30개 정도만 다운받아짐

스크롤을 다 내리게 되면

크롤링 할 수록 Nnq7C weEfm 클래스가 제한적으로 몇개씩만 보여지는 것을 볼 수 있다. 그래서 스크롤을 다 내렸을때, 마지막 30개 정도의 게시물 이미지만 다운받아 진 것이다.

그래서 스크롤을 할때 마다 몇개의 이미지가 제한적으로 보여지는 지 알아내 번갈아 가며 스크롤과 이미지 다운을 실시하거나, 제한적으로 보여지는 것을 막을 방법을 찾아야 할 것 같다.


3 사진 색상 검출하기

잠시 ..! 개강을 했다.. !

profile
Data Science / Computer Vision

0개의 댓글