텍스트 데이터 전처리 활용 - 2

boks·2024년 4월 26일
0

자연어 처리

목록 보기
2/14
post-thumbnail

웹 스크래핑/파싱 실습

Google Colab 개발 환경

사용하는데 있어서 여러가지 장점을 지닌 구글 코랩 활용하기

웹 스크래핑과 파싱 실습

requests

  • 파이썬 HTTP 라이브러리
  • html등의 웹페이지를 쉽게 읽을 수 있는 라이브러리

requests.get()

  • 형태

    requests.get('페이지주소')

  • 잘 작동하는지 확인

# requests 예제 1
import requests
r = requests.get('https://httpbin.org/basic-auth/user/pass', auth=('user', 'pass'))
r.text

-> httpbin.org 사이트는 공짜로 잘 작동하는지 확인하는 사이트
-> 뭔가 반환했다면 문제없이 잘 작동하는것

BeautifulSoup

  • 파싱하는 과정
  • HTML및 XML형태의 파일에서 데이터 추출 쉽게 가능
  • CSS를 사용해서 파싱이 쉽게 가능

비쥬얼코드 화면 크게/작게 : 'Ctrl' + '+' /'Ctrl' + '+''Ctrl' + '-'

profile
설계엔지니어의 변신

0개의 댓글