chatbot - 임베딩

Soyoung Park·2022년 10월 31일
0

TIL 가상환경

목록 보기
1/4

가상환경 - 통합개발환경 - 파이참
c ++ X64

Anaconda Powershell Prompt

conda list
conda create –n chatbot python=3.7
conda activate chatbot
conda list

^ 앱 실행전 오른쪽 클릭후 관리자 권한으로 앱 실행해줘야 깔림.

pip install --upgrade tensorflow-cpu

python
import tensorflow as tf -> 이거 입력하고 아무일도 안일어나면 잘 된것임.
exit()

conda list

패키지 설치

pip install konlpy
pip install PyKomoran
pip install gensim
pip install sklearn
pip install seqeval
pip install PyMySQL
pip install openpyxl
pip install pandas xlrd
pip install matplotlib
pip install flask
pip install requests

PyCharm


^ 위와 같은 interpreter 선택

^ test 해보기
오른쪽 클릭후 run'test' 눌러보기

토크나이징 - Kkma


^ Kkam.py 파일 생성 후 코드 입력하고 runtime 돌려보기
'control + shift + f10' or 파일 오른쪽 눌러 run 해주기

^ 명사만 추출해보기

^ 형태소 및 문장으로 분리해 추출해보기

토크나이징 - Komoran


^ 파일 생성 후 코드 입력

토크나이징 - Okt

(Open-source Korean Text Processor)

^ 파일 생성 후 코드 입력


^ 정규화, 어구 추출

^ 정규화, 어구 추출 활용해보기

토크나이징 - 사용자 사전 구축

파일 저장 위치


^ 보내주신 user_dic.tsv 파일 (Notepad++) 다음과 같은 위치에 저장해주기.

^ 그러면 user_dic.tsv 파일이 pycharm 에 자동생성된 것을 확인할 수 있다.

^ 다음과 같이 입력해주면 파일과 연결된 것을 확인 가능.

^ new > directory 해서 examples 안에 다 넣어주었다.

임베딩

텍스트를 자연어 처리 모델에 적용할 수 있게 '언어적인 특성'을 반영하여 단어를 '수치화' 하는 방법을 찾는 것

^ embeding 폴더 생성

자연어 처리 기술에서는 원-핫 인코딩 방법 추천하지 않음. 단어 벡터의 크기가 너무 크기 때문에 특성을 표현할 수 없을 것임.


^ ratings 파일을 살펴보았다.

^ ratings 파일을 embeding 안에 넣어주었다.


^ (1) 파일 생성 후 코드 입력


^ (2) 코드 이어서 입력

^ (3) 코드 추가 입력

^ (4) run 돌려주기 (ctrl + shift + f10)

^ (5) 결과

^ (1) 파일 생성 후 코드 입력 후 run 돌리기

^ (2) 단어 유사도 계산해줌

^ (3) 가장 유사한 단어 추출해줌

^ 추가적으로 더 살펴보기


0개의 댓글