[멋사][AI] 텍스트분석과 자연어처리

티나(Tina)·2022년 12월 13일
0

멋사AI

목록 보기
41/41

자연어 처리 활용

  • 스팸메일분류, 뉴스기사 분류
  • 고객센터 비슷한 문의끼리 모으기
  • 뉴스 기사로 주가 예측
    등등

딥러닝 연습?하기좋은 데이터셋

  • 이미지 : MNIST, FMNIST, cifar10
  • 텍스트 : IMDB, 영화리뷰 데이터셋, 네이버 영화리뷰 데이터셋

<기본용어 >
말뭉치(Corpus) : 특정한 목적을 가지고 수집한 텍스트 데이터
문서(Document) : 문장(Sentence)들의 집합
문장(Sentence) : 여러 개의 토큰(단어, 형태소)으로 구성된 문자열, 마침표, 느낌표 등의 기호로 구분
어휘집합(Vocabulary) : 코퍼스에 있는 모든 문서, 문장을 토큰화 하고 중복을 제거한 토큰의 집합
토큰(Token) : 의미를 가진 가장 작은 단위
토큰화(Tokenization) : 토큰단위로 나누는 것

인공지능에서 벡터 의미

자연어 처리의 4가지 단계 링크
[인공지능 기초] Vector 란?
머신러닝 공부 전 꼭 알아야 할 행렬(Matrix)과 벡터
선형대수학- 스칼라, 벡터, 매트릭스 기초의 이해
벡터(Vector)는 N x 1차원의 행렬(Matrix) 입니다. 즉 하나의 열을 가지며 여러 개의 행만을 가지기 때문에 벡터 내부 데이터의 수가 곧 벡터의 차원(Dimension)이다.

벡터는
row vector (nnx1) = a horizontal vector
column vector (1xnn)= a vertical vector 가 있다. 기본적으로 vector 을 나타낼 때는 column vector을 의미한다.
row vector은 기본적으로 column vector을 정의하고 transpose한 array을 의미한다.


참고링크
딥 러닝을 이용한 자연어 처리 입문 - 조은님추천
빅데이터 활용이 쉬워지는 142가지 데이터셋
텍스트 분석을 위한 파이썬 기초 강의 - 조은님강의
KLUE-benchmark 데이터셋
자연어처리(NLP) 텍스트전처리/벡터화 velog

profile
열심히 사는 중

0개의 댓글