프로그래머스 2021 국민대 여름방학 인공지능 과정 6주차 Day2 TIL
텍스트에 대해 특정 기준 단위로 문장을 나누는 것
문장
단어
형태소
음절
글에서 사전을 만드는 과정에서 필수적인 처리
글(texts)
> 문장(text)
> 토큰(tokens)
> 사전(vocabulary)
texts = texts.split('\n')
tokens = []
tokenized_texts = []
for text in texts:
tokenized_text = text
for token in tokenized_text:
tokens.append(token)
토크나이징하는 기준에 따라서 맞는 토크나이저 함수를 사용
전처리된 텍스트에서 피처를 추출하고 여기에서 벡터 값을 할당하는 것
토큰 집합의 크기를 벡터의 차원으로 하고, 표현하고자 하는 고유 토큰에만 1을 표시하고 나머지에는 0을 표시하는 방법
벡터의 개수 = 토큰의 경우의 수 → 토큰 개수가 늘어나면 벡터의 개수도 늘어남
단어를 밀집 벡터의 형태로 표현
토큰이 많아지더라도 저차원으로 표현 가능함
Embedding(20000, 128, input_length=200)
첫번째 인자(input_dim)
단어 사전의 크기
두번째 인자(output_dim)
단어 인코딩 후 나오는 벡터 크기
input_length
단어의 수(문장의 길이)
참고
AI factory
참고
https://wikidocs.net/22647
참고
https://wikidocs.net/33520
정말 다 있다... 난 갖다 쓰기만 하면된다...
아 그래서 프로젝트 뭐하지ㅡㅡ