[AIFFEL] 22.Feb.25 - Crawling

Deok Jong Moon·2022년 2월 25일
0
post-thumbnail
post-custom-banner

오늘의 학습 리스트

  • 인터넷 브라우저를 통해 웹 사이트에 방문

    • 이 웹 사이트들은 실은 HTML(HyperText Markup Language) 이라는 마크업 언어로 작성된 문서로 구성
  • HTML 태그 문법 정리해보자

    • <태그명 속성명1="속성값1" 속성명2="속성값2"> 컨텐츠 </태그명>
    • 간혹 <태그명/> 도 있는데 이건 닫히는 태그 필요없는 것들(예 : <br/>)
  • pandas.Series.str.replace()

    • regex 임포트하지도 않고 regex 글자처럼 쓰길래 찾아봤더니
    • regex= 파라미터가 기본으로 True로 되어 있다.
    • df['news'] = df['news'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

미니프로젝트

(사실 오늘 노드는 Fundamental로 진행됐지만 exploration 같았다)

  • 웹사이트 텍스트 크롤링
  • 크롤링 데이터 정제
    • html tag 같은 거 제외하기
    • 토큰화
      • 한국어 형태소 분석기(Mecab, KonLPY) 등을 쓰면 형태소(?) 단위로 토큰화 됨
    • 궁극적으로 tf-idf 벡터로 토큰화된 단어들 바꾸기
      • 그런데 tf-idf로 바꾸기 전에 CountVectorizer()로 sparse matrix를 생성했다.(그거를 다시 tf-idf 벡터로 바꿈)
  • 모델 생성 및 훈련
    • 이 때 나이브 베이즈 분류기 사용(왜 콕 찝어 이걸 사용했는지는 모르겠음)
    • 이 때 훈련은 카테고리 분류로 이루어진다.
  • 예측
    • 예측하려는 뉴스 기사 string 준비
    • 해당 string을 위와 같은 전처리 동일하게 해주기(함수 만들어서 사용하면 됨)
    • 그리고 예측
profile
'어떻게든 자야겠어'라는 저 아이를 닮고 싶습니다
post-custom-banner

0개의 댓글