Count-based Representation

TaeWoo Lee / Kris·2022년 3월 2일

Code States [AI_09] Section4

목록 보기

5/12

자연어(Natural Language)

자연어 혹은 자연 언어는 사람들이 일상적으로 쓰는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념

자연어처리(Natural Language Processing, NLP)

자연어를 컴퓨터로 처리하는 기술
텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합

NLP 응용사례

텍스트 요약
자동 질의응답 시스템
대화 시스템
기계번역

벡터화 : 컴퓨터는 자연어 자체를 받아들일 수 없음으로 컴퓨터가 이해할 수 있도록 벡터로 만들어주어야 함

등장횟수 기반 : 단어가 문서에 등장하는 횟수
Bag-of-Words(TF)
- 단어들의 순서는 고려하지 않고 단어들의 빈도만 고려한 수치화 표현 방법
- CountVectorizer
TF-IDF
- TF : 특정 단어의 등장 빈도
- IDF : 특정 단어가 나타나는 문서 수
- TF-IDF : 많이 등장하는 단어들에게는 일종의 패널티를 주어서 단어 빈도의 스케일을 맞춰주는 기법
분포 기반 : 타겟 단어 주변에 있는 단어를 기반
- Word2Vex
  - 단어를 바로 벡터로 변환
  - 벡터로 바꾸어야 유사도 같은 계산이 가능함
- fastText
  - n의 값에 따라 단어가 얼마나 분리되는지 결정

전처리

내장메소드
- 대소문자 통일, 구두점 없앰
정규표현식
- 특정 규칙이 있는 문자열 집합을 추출할 때 자주 사용되는 기법
불용어 처리
- 분석에 도움이 되지 않는 단어
통계적 트리밍
- 단어(토큰)의 분포를 나타냈을 때 전체 분포 중 몇%(예: 0.01%) 아래까지는 분석에 사용하지 않도록 삭제하는 방법이다.
어간 추출
- 주로 속도가 중요할때 (단어를 자름)
표제어 추출
- 사전의 기본 형태

TaeWoo Lee / Kris

일단 저지르자! 그리고 해결하자!

이전 포스트

Hyperparameter

다음 포스트

Distributed Representation

0개의 댓글