2023.01.17 빅데이터

차유빈·2023년 1월 18일
0

빅데이터 개요


빅데이터 수집


빅데이터 수집 : 웹 크롤링

  • HTTP(HyperText Transfer Protocol) : 웹상에서 클라이언트와 서버간에 정보를 주고 받을 수 있는 통신규약(프로토콜)


빅데이터 수집 : 공공데이터, sns, API, RSS

RSS

url 복사해서 여기서 데이터 수집




웹크롤링

정적 크롤링
아무것도 누르지 않아도 댓글 데이터가 전부 보임

동적 크롤링
더보기 버튼 눌러야만 전체 댓글 데이터를 볼 수 있는 경우

Python의 웹 스크래핑 라이브러리

  • BeautifulSoup (정적)
  • Scrapy (정적)
  • selenium (동적)

크롤링 저작권


웹페이지 구성 기술

데이터 꺼내올때 css선택자 사용


웹 콘텐츠 요청

  • urllib 패키지를 활용한 웹페이지요청
  • requests 패키지를 활용한 웹페이지요청

urllib 패키지


예외처리


decode() 함수 실습


웹페이지 인코딩 체크

글자를 500자만 들고오겠다는 뜻 read(읽어올데이터수)


urllib.parse 모듈


이미지 다운로드

방법 1

방법 2


RSS 요청

  • 파라미터를 주고 특정 지역 등을 골라서 기상 정보 가져오기


requests 패키지

**method, url은 기본 정해져있고 kwags는 가변인수(어떤 변수일지 모름)

GET

POST


profile
chacha's 프로그래밍 공부

0개의 댓글