Crawling - #1 Crawling

임다이·2023년 11월 10일
0

Crawling

목록 보기
2/3

수집 데이터 형태
  • 정형 데이터(Structured)
    데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중 수치만으로 의미파악이 쉬운 데이터
    ex) 관계 DB, 스프레드시트, CSV,...

  • 반정형 데이터(Semi-Structured)
    고정된 필드에 저장된 데이터는 아니지만, 메타 데이터 및 스키마를 포함하는 데이터
    ex) XML, HTML, 텍스트, JSON,...

  • 비정형 데이터(Unstructured)
    고정된 필드에 저장되어 있지 않는 데이터
    ex) 소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트,...

  • 데이터 수집은 어디서?
    인터넷 안에 있는 웹사이트

웹 크롤링(Web Crawling)

웹 사이트의 내용에 접근하여 원하는 정보를 추출해 해는 행위


  • 웹 페이지에서 데이터 수집할 때 생각할 것
    • Web Page가 어떤 구조(HTML)로 되어 있는가
    • 어떻게(CSS Selector) 원하는 데이터를 추출할 것인가

  • 웹 크롤링싀 순서
    Web Site의 HTML문서 요청 → 크롤러를 이용하여 데이터 추출 → 추출한 데이터를 가공 및 저장
  • 웹 크롤링을 위한 라이브러리

    → 접근할 웹 페이지의 데이터를 요청/응답 받기 위한 라이브러리

    → HTML문서에서 원하는 데이터를 추출하기 쉽게 해주는 라이브러리

profile
개발자 임다이입니다~!

0개의 댓글