수집 데이터 형태
- 정형 데이터(Structured)
데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중 수치만으로 의미파악이 쉬운 데이터
ex) 관계 DB, 스프레드시트, CSV,...
- 반정형 데이터(Semi-Structured)
고정된 필드에 저장된 데이터는 아니지만, 메타 데이터 및 스키마를 포함하는 데이터
ex) XML, HTML, 텍스트, JSON,...
- 비정형 데이터(Unstructured)
고정된 필드에 저장되어 있지 않는 데이터
ex) 소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트,...
- 데이터 수집은 어디서?
인터넷 안에 있는 웹사이트
웹 크롤링(Web Crawling)
웹 사이트의 내용에 접근하여 원하는 정보를 추출해 해는 행위
- 웹 페이지에서 데이터 수집할 때 생각할 것
- Web Page가 어떤 구조(HTML)로 되어 있는가
- 어떻게(CSS Selector) 원하는 데이터를 추출할 것인가
- 웹 크롤링싀 순서
Web Site의 HTML문서 요청 → 크롤러를 이용하여 데이터 추출 → 추출한 데이터를 가공 및 저장
- 웹 크롤링을 위한 라이브러리
→ 접근할 웹 페이지의 데이터를 요청/응답 받기 위한 라이브러리
→ HTML문서에서 원하는 데이터를 추출하기 쉽게 해주는 라이브러리