과기부 AI 수업14[Python](NPL1자연어처리<정수인코딩, 케라스>)

욱이·2024년 5월 1일

과기부 AI 수업 정리

목록 보기

14/20

정수인코딩

- 텍스트 데이터를 숫자로 변환하는 과정

자연어 처리에서 텍스트 데이터를 그대로 사용할 수 없음
-텍스트 데이터를 수치 데이터로 변환하여 연산을 수행

텍스트 데이터를 정수로 인코딩하면, 각 단어를 고유한 값으로 대응
-고유한 값으로 대응시키면, 모델이 단어를 구분할 수 있음

정수 인코딩을 사용하면, 각 단어의 빈도수계산에 용이함
-모델이 학습할 때 단어의 빈도수를 고려하여 가중치를 조절가능

정수 인코딩은 단어의 유사도계산등에 사용
-단어 간의 거리를 계산하여 가까운 단어들끼리 그룹화하거나, 유사한 단어를 찾을 때 사용

분석해서 정수 인코딩 할 데이터 준비

인코딩 원리(명사기준)

konlpy 필요

명사추출을 하려면 Okt 필요

명사추출

빈도수 알아보기(딕셔너리형태 Key와 value)

반복문과 조건문 사용해서 2번이상 나온 단어들만 사용해보기

가장 많이 나온 단어부터 적게 나온 단어순으로 정렬해보기(lambda함수 사용)

빈도수가 많은 순으로 인덱스 순서를 정해보기

만들어놓은 사전을 가지고 하나의 문장을 정수 인코딩 해서 나타내보기

단어들에 해당하는 것을 정수 인코딩