크롤링 by. python, goormide

Debug-Life ·2022년 12월 27일
0

DP(가제) 어플 개발

목록 보기
6/11
post-thumbnail

코딩 국룰은 뭐다? 유지보수 편하고 최대한 빠르고 안정적으로 만들면 되는거! 이 움짤 처럼.아래 토끼 사진 클릭.

IMAGE ALT TEXT HERE

zum 실시간 검색어 크롤링

1.컨테이너 생성

구름 ide (링크)에서 python을 이용해 크롤링 시작. 좌측 상단 IDE 들어가서 Python으로 컨테이너를 만들고 시작.

2. 실시간 검색어를 크롤링 해보는게 목적

3. Beautifulsoup 예제코드로 테스트

code example 부분 복사해서 구름 ide 터미널에 붙여서 실행.
Beautifulsoup code example 링크

이렇게 에러가 남.

  • 터미널에 pip install bs4 입력 후 자동 설치. 후 python index.py로 다시 실행.
  • 아래 사진처럼 테스트 예제 성공했고 이제 zum을 크롤링 해보자

4. 개발자 모드에서 실시간 검색어 부분 규칙찾기

2번 항목의 사진에서 송중기 부분을 클릭하니 이렇게 나옴.

  • 1위부터 10위까지 모두 a태그로 감싸져 있음.
  • span은 1,2,3,4 같은 순위만 나오고 실제로는 a 태그로 감싸져 있음.
    저걸 가져와야함. Beautifulsoup 이란 라이브러리를 이용할거임. --> 링크
  • 공식문서에서 select 부분에 attribute로 찾을예정임. 왜냐면 zum사이트에서 실시간 순위의 공통점이기 때문에. (공식문서 링크)

5. 예제에 맞춰서

  • index.py의 soup.find_all('a) 대신에 soup.select('a[href]') 로 변경
  • 출력해주는 부분도 필요하기 떄문에 print(soup.get_text()) 함수로 가져온다.
  • 결과화면

6. 텍스트 파일로 저장하기.

  • 구글에 python write text file로 검색후 예제 코드를 붙여넣으면

  • 터미널에 출력되지 않고 사진의 3번처럼 파일이 생성됨

이렇게


7. Image 크롤링 방법



출처 및 참고 - 조코딩님 유튜브

profile
인생도 디버깅이 될까요? 그럼요 제가 하고 있는걸요

0개의 댓글