자연어처리-토큰나이징과 피처벡터화

noo·2021년 8월 18일

2021 국민대 여름방학 인공지능 과정

목록 보기

20/25

프로그래머스 2021 국민대 여름방학 인공지능 과정 6주차 Day2 TIL

텍스트에 대해 특정 기준 단위로 문장을 나누는 것
문장 단어 형태소 음절

글에서 사전을 만드는 과정에서 필수적인 처리
글(texts) > 문장(text) > 토큰(tokens) > 사전(vocabulary)

texts = texts.split('\n')

tokens = []
tokenized_texts = []

for text in texts:
    tokenized_text = text

    for token in tokenized_text:
        tokens.append(token)

토크나이징하는 기준에 따라서 맞는 토크나이저 함수를 사용

전처리된 텍스트에서 피처를 추출하고 여기에서 벡터 값을 할당하는 것

토큰 집합의 크기를 벡터의 차원으로 하고, 표현하고자 하는 고유 토큰에만 1을 표시하고 나머지에는 0을 표시하는 방법

벡터의 개수 = 토큰의 경우의 수 → 토큰 개수가 늘어나면 벡터의 개수도 늘어남

단어를 밀집 벡터의 형태로 표현

토큰이 많아지더라도 저차원으로 표현 가능함

Embedding(20000, 128, input_length=200)

첫번째 인자(input_dim) 단어 사전의 크기
두번째 인자(output_dim) 단어 인코딩 후 나오는 벡터 크기
input_length 단어의 수(문장의 길이)

정말 다 있다... 난 갖다 쓰기만 하면된다...

아 그래서 프로젝트 뭐하지ㅡㅡ