EDA(11) 웹 데이터 분석(with Beautiful Soup), Regular Expression

Jio.B·2023년 7월 6일
0

Beautiful Soup


BS basic

  • 연결하기

  • 태그 확인

  • find( )

  • find all( )

  • 특정 태그 확인

  • 텍스트 추출 : text, string, get_text( )

  • 링크 주소 추출


bs 예제(1-1.) 네이버 금융

  1. bs4 연결하기, http 상태확인

  1. find( ), find_all( ) 이용해서 원하는 내용 추출

bs 예제(1-2.) 네이버 금융

  1. bs4 연결하기, http 상태확인

  1. select_one( ) 이용해서 원하는 내용 추출
    baseURL과 exchangeLIST 분리, 병합

  1. 링크주소 재결합(baseURL + exchangeLIST)

  1. 엑셀파일로 저장

bs 예제(2) 위키백과 문서정보

(페이지에서 주소값을 다루는 부분을 중점적으로 학습)

  1. 불러오기

  1. for문으로 내용 가져오기

  1. 텍스트 사이에 섞여있는 태그를 공백으로 바꾸기

[참고] 파이썬 list 복습

  • append( ) : 리스트 맨 뒤에 값을 추가
  • pop( ) : 리스트 맨 뒤에서부터 자료를 하나씩 삭제
  • extend( ) : 제일 뒤에 자료 추가
  • remove( ) : 자료를 통째로 삭제
  • insert( ) : 원하는 위치에 자료를 삽입
  • 슬라이싱 [ n : m ] = n번째부터 m-1번째 까지
  • isinstance( ) : 자료형 True/False로 객체 반환
  • Regular Expression 기초

0개의 댓글

관련 채용 정보