moondeokjong.log

moondeokjong.log

[AIFFEL] 22.Feb.25 - Crawling

Deok Jong Moon·2022년 2월 25일

오늘의 학습 리스트

인터넷 브라우저를 통해 웹 사이트에 방문
- 이 웹 사이트들은 실은 HTML(HyperText Markup Language) 이라는 마크업 언어로 작성된 문서로 구성
HTML 태그 문법 정리해보자
- <태그명 속성명1="속성값1" 속성명2="속성값2"> 컨텐츠 </태그명>
- 간혹 <태그명/> 도 있는데 이건 닫히는 태그 필요없는 것들(예 : <br/>)
pandas.Series.str.replace()
- regex 임포트하지도 않고 regex 글자처럼 쓰길래 찾아봤더니
- regex= 파라미터가 기본으로 True로 되어 있다.
- df['news'] = df['news'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

미니프로젝트

(사실 오늘 노드는 Fundamental로 진행됐지만 exploration 같았다)

웹사이트 텍스트 크롤링
크롤링 데이터 정제
- html tag 같은 거 제외하기
- 토큰화
  - 한국어 형태소 분석기(Mecab, KonLPY) 등을 쓰면 형태소(?) 단위로 토큰화 됨
- 궁극적으로 tf-idf 벡터로 토큰화된 단어들 바꾸기
  - 그런데 tf-idf로 바꾸기 전에 CountVectorizer()로 sparse matrix를 생성했다.(그거를 다시 tf-idf 벡터로 바꿈)
모델 생성 및 훈련
- 이 때 나이브 베이즈 분류기 사용(왜 콕 찝어 이걸 사용했는지는 모르겠음)
- 이 때 훈련은 카테고리 분류로 이루어진다.
예측
- 예측하려는 뉴스 기사 string 준비
- 해당 string을 위와 같은 전처리 동일하게 해주기(함수 만들어서 사용하면 됨)
- 그리고 예측

'어떻게든 자야겠어'라는 저 아이를 닮고 싶습니다

이전 포스트

[딥러닝수학] 미적분_3

다음 포스트

[딥러닝수학] 벡터

0개의 댓글