스크래핑 & 크롤링

최다슬·2022년 1월 23일

📝Study

목록 보기

7/11

api로 해당 사이트 html(url주소) 가지고 오는것
언제 사용?
링크를 공유하면 밑에 자동적으로 사이트 이미지가 미리보기로 가지고올때
- <div></div> 안에 넣어서 미리보기가 가능해지면서 시작 -> 현재는 og: 으로 해당하는 서비스를 오픈그래프 통해서 가지고올수있게끔 바뀜
- 수업때는 createBoard API만들때 https://myshopping.com 로 시작하는 내용부분을 뽑아내서 실제 그 주소에 있는것을 요청해서 가지고올때 사용(axios.get 사용) => html 코드를 text형태로 가지고와지므로(og:title / got:image / og:contents etc..) cost result 변수로 담아서 따로따로 저장 -> 저장된것을 DB에 넣음(title, contents, og) -> 브라우저에서 게시글 상세보기페이지로 접속하면 (fetchBoard) DB에서 저장되어있는 title, contents, og 를 꺼내오게되는것(get 방식)
  - cherrop : 우리가 필요한 og 데이터만 쉽게 가지고올수있는 도구
어떻게?
- curl https://www.naver.com => 변수에 저장
- vs코드에선 axios.get("https://www.naver.com) => 변수에 저장
- og(opengraph) : 미리보기 부분 (각각의 페이지마다 다름)

(출처 : 네이버(www.naver.com))

head의 meta 태그안에 존재
라이브러리 설치 08-01 폴더
- yarn init : package.json 설치
  - "type" : "module" 추가
- yarn add axios : axios 설치
- yarn add cheerio : cheerio 설치
$ : cheerio
attr : 속성
?. 앞에것 있으면 실행, 없으면 뒤에것 실행