현재 진행중인 산학협력 프로젝트의 주제는 LG AI Research가 주최하는 AI 기반 회의 녹취록 요약 경진대회를 참여하고, 생성된 모델을 바탕으로 Web 구현하는 것으로 정했습니다.자연어 처리 경험이 부족하므로 학습을 통해 채우고자 WikiDocs의 '딥 러닝
모든 문장을 구분해줄 만큼 아주 정확함. 만약 문장 내에 .와 같은 것이 많다면?그 의미를 제대로 파악해 분리해줬음. 아주 good한국어도 한 번 해봄. !!를 분리하긴 했지만 나름 good.한국어에 대한 토큰화 도구로 KSS(Korean Sentence Splitte
언어 모델은 언어라는 현상을 모델링 하고자 단어 시퀀스(또는 문장)에 확률을 할당하는 모델!통계를 이용한 방법과 인공 신경망을 이용한 방법으로 나뉘는데, 최근엔 인공신경망이 더 좋은 성능을 보여준다.단어 시퀀스에 확률을 할당하는 일을 하는 모델. 가장 자연스러운 단어
크게 국소 표현(Local Representation)과 분산 표현(Distributed Representation)으로 나뉜다. 국소는 해당 단어 그 자체만 보고, 특정 값을 매핑해 단어를 표현하고, 분산 방법은 그 단어를 표현하고자 주변을 참고해 단어를 표현한다.예
1) 코사인 유사도 1. 코사인 유사도(Cosine Similarity) 두 벡터 간의 코사인 각도를 이용해 구할 수 있는 두 벡터의 유사도를 의미. 두 벡터의 방향이 완전히 동일하면 1(cos(0) = 1), 180도 반대라면 -1(cos(pi) = -1), 직교하면
LSA는 토픽 모델링을 위한 아이디어를 제공했음. LDA가 LSA를 개선해 토픽 모델링에 좀 더 최적화DTM과 TF-IDF는 빈도 기반 수치화 방법이기 때문에 단어 의미를 고려하지 못하는 한계가 있었음. Latent(잠재된) 의미를 이끌어내는 방법이 LSA. 이를 이해
머신러닝 1) 머신 러닝 이란? 1. 머신러닝이 아닌 접근의 한계 기존의 프로그래밍 방법은 이렇다 기존의 코딩 방식은 짜여진 로직에 걸린다면 제대로 분류를 하는 것이고, 아니면 잘못된 분류를 한다. 기존 고양이의 사진에 대해서 로직이 짜여졌다면 어래와 같은 사진을 제
인공 신경망은 머신 러닝 방법 중 하나. 인공 신경망을 복잡하게 쌓아올린 딥 러닝이 각광받고 있음.구조는 똑같음. activation function이 계단이냐, 시그모이드냐 그 차이.: 값을 보내는 단계와 출력하는 두 단계로만 이뤄짐. 즉 입력과 출력층만 존재단층을
RNN은 Sequence 모델. 즉, 입력과 출력을 시퀀스 단위로 처리. 번역기를 생각해보면, 입력은 단어나 문장이 주어지고, 이를 원하는 국가의 언어로 번역해 준다. 시퀀스 처리를 위해 고안된 모델이 시퀀스 모델.용어는 비슷하지만, 순환 신경망과 재귀 신경망(Recu