빅데이터 개요
빅데이터 수집
빅데이터 수집 : 웹 크롤링
빅데이터 수집 : 공공데이터, sns, API, RSS
RSS
url 복사해서 여기서 데이터 수집
웹크롤링
정적 크롤링
아무것도 누르지 않아도 댓글 데이터가 전부 보임
동적 크롤링
더보기 버튼 눌러야만 전체 댓글 데이터를 볼 수 있는 경우
Python의 웹 스크래핑 라이브러리
크롤링 저작권
웹페이지 구성 기술
데이터 꺼내올때 css선택자 사용
웹 콘텐츠 요청
urllib 패키지
글자를 500자만 들고오겠다는 뜻 read(읽어올데이터수)
urllib.parse 모듈
이미지 다운로드
RSS 요청
requests 패키지
**method, url은 기본 정해져있고 kwags는 가변인수(어떤 변수일지 모름)