[파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문] 1. 크롤링과 스크레이핑

ssu_hyun·2022년 4월 9일
0

ML/DL

목록 보기
3/3
post-thumbnail

1-1. 데이터 다운로드

  • 웹 사이트 데이터 다운로드
  • 파이썬 네트워크 라이브러리 urllib

urllib

  • urllib 라이브러리
    • 파이썬의 웹 정보 추출 방법
    • HTTP 또는 FTP로 데이터를 다운받을 수 있다.
    • URL을 다루는 모듈을 모아 놓은 패키지

urllib.request

  • 웹 사이트에 있는 데이터 접근 기능 제공
  • 인증, 리다이렉트, 쿠키(Cookie)처럼 인터넷을 이용한 다양한 요청,처리 지원

웹 사이트 파일 다운로드

urlretrieve()

  • url을 통해 파일 직접 다운로드
   # 라이브러리 읽어 들이기 --- (※1)
   import urllib.request
   
   # URL과 저장 경로 지정하기
   url = "http://uta.pw/shodou/img/28/214.png"
   savename = "test.png"
   
   # 다운로드 --- (※2)
   urllib.request.urlretrieve(url, savename)
   print("저장되었습니다...!")


urlopen()

  • 파일에 저장하는 방법
  • 데이터를 파이썬 메모리 위에 올리는 방법 (= 변수에 저장해 활용할 수 있게함)
   import urllib.request 
   
   # URL과 저장 경로 지정하기
   url = "http://uta.pw/shodou/img/28/214.png"
   savename = "test2.png"
   
   # 다운로드 --- (※1)
   mem = urllib.request.urlopen(url).read() #이미지 파일
   
   # 파일로 저장하기 --- (※2)
   with open(savename, mode="wb") as f: # wb : 이미지형식이므로 binary로 저장 
       f.write(mem)  # 다운로드한 바이너리 데이터를 파일에 저장
       print("저장되었습니다...!")


웹 사이트 데이터 추출

0개의 댓글