220719(화) TIL

재은·2022년 7월 19일
0

멋사 AI 6기

목록 보기
26/36

오늘 뭘 했니?

  1. 데이콘 뉴스토픽 분류 경진대회 데이터(연합뉴스 타이틀 주제 분류)로 데이터 전처리 및 시각화 https://dacon.io/competitions/official/235747/overview/description
    실습파일 : 1103-klue-preprocessing-eda-input

  2. 데이콘 뉴스토픽 분류 경진대회 데이터 벡터화, 전처리, 교차검증, 머신러닝 학습, 예측 및 제출
    실습파일: 1104-klue-ml-ensemble-cv-input

  3. (코랩실습) 데이콘 뉴스토픽 분류 경진대회 데이터 KoLNPy 실습
    실습파일: (코랩)1105-klue-ml-konlpy-parameter-search-input.ipynb의 사본

뭘 배웠니?(new)

  • 정규표현식을 이용하여 문자 전처리
💡 BOW는 출현 빈도만 고려하지만 TF-IDF는 특정 문서 내에서 단어 빈도가 높을수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을수록 높아지기 때문에 다른 날 잘 나오지 않는 특식 메뉴를 찾는 데 사용하기 적절하다.

KoLNPy 실습

형태소 분석 및 품사 태깅 — KoNLPy 0.6.0 documentation

https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

  • Mecab: 윈도우에서는 설치가 되지 않는다.
  • Kkma: 정확도가 높다.
  • Twitter: 캐주얼한 문장에 좋다.
  • Hannanum: 자바에서 쓸 수 있다.

부족한 것

  • merge 또헷갈리네 증말
  • join

  • apply로도 해보자
  • lambda x:x 자기자신 반환
  • 정규표현식

  • 깊복 얕복?

3F

사실(Fact) : 자연어처리에 대해서 배웠고 실전실습을 했으며, KoLNPy에 대해 알아보았다.
느낌(Feeling) : 국어 지식이 딸리네…
교훈(Finding) : 복습해서 최대한 잘 따라가야겠다..!

profile
데린이여요

0개의 댓글