스크래핑 & 크롤링

최다슬·2022년 1월 23일
0

📝Study

목록 보기
7/11
  1. scraping(설치도구 : cheerio) : 다른 사이트 정보를 한번 가져오는것
  • api로 해당 사이트 html(url주소) 가지고 오는것

  • 언제 사용?

  • 링크를 공유하면 밑에 자동적으로 사이트 이미지가 미리보기로 가지고올때

    • <div></div> 안에 넣어서 미리보기가 가능해지면서 시작 -> 현재는 og: 으로 해당하는 서비스를 오픈그래프 통해서 가지고올수있게끔 바뀜
    • 수업때는 createBoard API만들때 https://myshopping.com 로 시작하는 내용부분을 뽑아내서 실제 그 주소에 있는것을 요청해서 가지고올때 사용(axios.get 사용) => html 코드를 text형태로 가지고와지므로(og:title / got:image / og:contents etc..) cost result 변수로 담아서 따로따로 저장 -> 저장된것을 DB에 넣음(title, contents, og) -> 브라우저에서 게시글 상세보기페이지로 접속하면 (fetchBoard) DB에서 저장되어있는 title, contents, og 를 꺼내오게되는것(get 방식)
      • cherrop : 우리가 필요한 og 데이터만 쉽게 가지고올수있는 도구
  • 어떻게?


(출처 : 네이버(www.naver.com))


  • head의 meta 태그안에 존재

  • 라이브러리 설치 08-01 폴더

    • yarn init : package.json 설치

      • "type" : "module" 추가
    • yarn add axios : axios 설치

    • yarn add cheerio : cheerio 설치

  • $ : cheerio

  • attr : 속성

  • ?. 앞에것 있으면 실행, 없으면 뒤에것 실행

  1. crawling(puppteer) : 다른 사이트 정보를 꾸준히 가져오는것(정기적으로 가지고옴)
  • 특정 사이트의 가격정보 등을 꾸준히 가져올때 사용
  • 위법되는 사례 존재하니 조심히! -> 가져온 데이터로 돈을 벌때
  • 라이브러리 설치
    • yarn add puppteer 설치

0개의 댓글