# NLP

246개의 포스트
post-thumbnail

[TIL Day58] Natural Language Processing: 단어 임베딩

단어 임베딩 단어의 의미를 어떻게 나타낼 수 있을까? 단어간의 관계를 잘 표현할 수 있어야 좋은 표현방식이다. One-hot encoding 방식은 단어간의 관계를 표현하기 어렵다. 단어의 의미를 나타내기 위해 다음과 같은 것들을 고려해야 한다.

어제
·
0개의 댓글

KoNLPy 설치 에러 해결

한국어 자연어 처리에 사용되는 대표적인 형태소 분석기 중 하나는 KoNLPy이다. KoNLPy를 사용하는 대표적인 방법 아래와 같다. konlpy 설치 불러와서 모델 사용 하지만 여기서 okt=Okt() 부분에서 에러가 발생하는 경우가 많이 있다. 이를 해결하는 방법을 알아보자. 1. JAVA 설치 먼저 평소 JAVA를 사용하지 않던 사람들의 경우...

2일 전
·
0개의 댓글

Tokenizer

토크나이저

2일 전
·
0개의 댓글
post-thumbnail

순환 신경망 RNN (2)

위 주제는 밑바닥부터 시작하는 딥러닝2 4강, CS224d를 바탕으로 작성한 글 입니다.이전 글에서 RNN에 대해서 간단히 알아보는 시간을 가졌다.이전글 보러가기 >> 순환 신경망 RNN(1)오늘은 RNN을 직접 구현해보는 시간!Time RNN 계층 : 순환 구조를 펼

3일 전
·
0개의 댓글
post-thumbnail

[Text Classification] KoBERT로 한국어 텍스트 다중분류하기 - 코드

SKTBrain의 KoBERT를 이용해 Text Classification을 수행해보자.

3일 전
·
0개의 댓글
post-thumbnail

[논문 리뷰] Transformer: Attention Is All You Need

Seq2Seq 모델들은 Encoder의 정보들을 벡터화하여 손실되는 문제가 있어 Decoding 시 개별 토큰과의 관계 파악이 어려움또한, Sequence가 길어지는 경우 Gradient vanishing 문제 발생문제 해결을 위해 Attention value 도입인코

4일 전
·
0개의 댓글
post-thumbnail

순환 신경망 RNN (1)

위 주제는 밑바닥부터 시작하는 딥러닝2 4강, CS224d를 바탕으로 작성한 글 입니다.오늘은 드디어 RNN! 순환 신경망 (Recurrent Neural Network)은 Squential Data처리에 적합한 모델이다.Sequential Data는 데이터와 데이터가

4일 전
·
0개의 댓글

Glove(Global Word Vectors)

Word2Vec에 반기를 든 Glove를 알아보자

4일 전
·
0개의 댓글
post-thumbnail

[TIL Day55] Natural Language Processing: 텍스트 전처리

텍스트 데이터 전처리 - Subword Tokenization

4일 전
·
0개의 댓글
post-thumbnail

[NLP] 한국어 전처리에서 어간 추출은 필수인가?

필자가 종종 받는 질문 중 하나는, lemmatization 또는 stemming을 수행하여 접사 등을 제거한 이후에 텍스트 분류를 적용해야 하는지에 관한 것입니다.…따라서 코퍼스가 부족한 상황에서는 이처럼 lemmatization이나 stemming가 같은 문장에 대

4일 전
·
0개의 댓글
post-thumbnail

[nlp] 사이킷런을 이용한 특징 추출 및 토크나이징

자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다.텍스트 데이터를 수치화하는 방법CountVectorizer

4일 전
·
0개의 댓글
post-thumbnail

KoBERT를 이용한 음절단위 개체명 인식

KoBERT를 이용한 질병 개체명 인식 모델을 만들어보았다.아직 자연어 처리 분야에 대해 공부하는 단계라 부족한 점이 많은 것 같다.KoBERT를 이용한다는 것 자체가 많이 힘들었다. KoBERT를 사용해보기 위해 BERT를 이용해야 했고, 전반 적인 구조를 이해해야

5일 전
·
0개의 댓글
post-thumbnail

word2vec 속도 개선(2)

위 주제는 밑바닥부터 시작하는 딥러닝2 4강, CS224d를 바탕으로 작성한 글 입니다.이전글에서 Embedding과 네거티브 샘플링을 통하여 CBOW 성능을 개선시켰다.이전글 보러가기 word2vec 속도 개선(1)이제 개선된 CBOW 신경망 모델에 PTB 데이터셋을

7일 전
·
0개의 댓글

Attention is all you need

Abstract 기존의 Sequence Transduction Model은 대부분 Encoder Decoder 구조를 포함한 복잡한 RNN이나 CNN으로 구성되어 있음 본 논문에서는 Reccurence와 convolution을 완전히 제거하고 attention mech

2021년 7월 23일
·
0개의 댓글

Named Entity Recognition

Named Entity Recognition(NER)은 번역하면 개체명 인식으로 불린다. 그렇다면 개체명 인식은 무엇을 하는 task인 것일까? 말 그대로 이름을 가진 객체를 인식하겠다는 것이다. jminj는 오늘 회사일을 집에서 수행했다.위와 같은 문장이 우리에게 주

2021년 7월 22일
·
0개의 댓글
post-thumbnail

Machine Reading Comprehension

Cloze Tests는 학생들의 언어 실력을 평가하는 시험에서 사용되는 방식이다. Question은 Passage에서 등장한 word나 entity들을 제거해 만들어진다. 여기에 Machine이 빈칸을 채워 넣는 Task이다.answer A는 주어진 context C에

2021년 7월 22일
·
0개의 댓글
post-thumbnail

word2vec 속도 개선(1)

위 주제는 밑바닥부터 시작하는 딥러닝2 2강, CS224d를 바탕으로 작성한 글 입니다. 이전 글에서 구현한 CBOW모델은 말뭉치에 포함된 어휘 수가 많아지면 계산량도 커진다. 이전글 보러가기 word2vec

2021년 7월 21일
·
0개의 댓글

BlenderBot 2.0: 장기 기억 메모리와 인터넷 검색을 활용한 오픈소스 챗봇

BlenderFackbookAI BlenderBot2.0 글에 대한 정리코드: blenderbot2Facebook에서 만든 장기 기억 메모리와 인터넷 검색을 사용하는 오픈소스 챗봇으로 blender의 두번째 버전이다. 소스와 데이터를 공개했다. 소스: facebookr

2021년 7월 21일
·
0개의 댓글
post-thumbnail

word2vec

위 주제는 밑바닥부터 시작하는 딥러닝2 2강, CS224d를 바탕으로 작성한 글 입니다. 추론 기법 이전에 '통계 기반 기법'에 대해서 다루어 보았는데 이번에는 통계 기반 기법의 문제를 지적하고, 그 대안인 추론 기반 기법의 이점을 설명한다. 통계 기반 기법의 문제점

2021년 7월 18일
·
0개의 댓글
post-thumbnail

[Day-6] AI로, 15년 전의 나를 만들었다

Teachable NLP로 만든 15년 전, 나.

2021년 7월 18일
·
0개의 댓글