# NLP

139개의 포스트
post-thumbnail

BERT를 활용한 한국어 문서 추출요약 봇

딥러닝 기반의 여러 요약 모델을 공부하고 있던 중, 한국어 데이터로 학습한 추출요약 모델이 있으면 좋겠다 싶어서 만들어 보았습니다. 보노보노는 뭔가 허전해서 넣었습니다. 감사합니다.

1일 전
·
1개의 댓글

Deview2020 루다 발표 자료 정리

Deview 2020 이루다 육아일기 발표를 정리한 내용하고자 합니다. 아래의 내용은 https://bit.ly/3mu8YWe 을 정리하며 작성했습니다. 챗봇의 경우 목적지향형챗봇(Goal-orientedchatbot) 과 오픈도메인챗봇(Open-domainc

2일 전
·
0개의 댓글
post-thumbnail

Attention Is All You Need(Transformer) 논문 리뷰

Transformer 논문 : https://arxiv.org/abs/1706.03762RNN, LSTM, Gated RNN이 sequence modeling에서 많이 사용됨.(1) Recurrent modelsymbol position에 따라서 계산token

4일 전
·
0개의 댓글

자연어처리 프로젝트1 - Sentiment Analysis

주섬주섬 안녕하세요 저는 지금 졸업프로젝트로 유튜브 자막과 댓글을 추출하여 감성분석을 진행할 예정입니다.진행 순서는 다음과 같습니다.1\. 유튜브API를 활용하여 자막과 댓글 추출하기2\. 감성분석에 사용할 모델 고르기3\. 감성분석 모델에 학습시킬 데이터 전처리하기4

4일 전
·
0개의 댓글

Pytorch Nvidia Apex를 이용한 모델 학습 최적화

Language Model Pretraining을 Colab에서 하다 보면, 학습시간도 단축하고 싶고, 배치 사이즈도 늘려서 학습하고 싶다는 생각이 들게 됩니다.자료를 찾아보다가 위와 같은 문제를 단 몇줄의 코드로 해결해주는 Nvidia의 APEX에 대해 정리

6일 전
·
0개의 댓글
post-thumbnail

Deep contextualized word representations(ELMo) 논문 리뷰

본 논문 : https://arxiv.org/abs/1802.05365ELMo는 2018년에 제안된 새로운 워드 임베딩 방법론입니다. ELMo라는 이름은 세서미 스트리트라는 미국 인형극의 케릭터 이름이기도 한데, 뒤에서 배우게 되는 BERT나 최근 마이크로소프

2021년 3월 31일
·
0개의 댓글
post-thumbnail

[CS224n] Lecture 13 - Contextual Word Embeddings

해당 강의 정리는 본인이 작성한 내용으로 다른 주차의 강의 정리를 보고 싶으신 분은 github 혹은 투빅스 텍스트 세미나를 참고해주시면 감사하겠습니다.작성자 : 투빅스 13기 오진석Reflections on word representationsPre-ELMo and

2021년 3월 28일
·
0개의 댓글
post-thumbnail

[CS224n] Lecture 5 - Linguistic Structure: Dependency Parsing

작성자 : 투빅스 13기 오진석Syntactic Structure: Consitituency and DependencyDependency Grammar and TreebanksTransition-based dependency parsingNeural Denpendenc

2021년 3월 28일
·
0개의 댓글

CS224n: Natural Language Processing with Deep Learning | Stanford Winter 2019

활동하고 있는 빅데이터 연합 동아리에서 NLP 스터디를 진행했습니다. NLP, 자연어 처리 스터디를 참여하게 된 이유로는 자연어 처리 분야는 딥러닝에서 활발하게 연구되고 발전되는 분야 중 하나이고 자연어 처리를 위해 고안되는 모델의 알고리즘이 다양한 분야에서 활용될 수

2021년 3월 28일
·
0개의 댓글

[NLP Paper] Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets

금융 데이터 감정 분석의 오류 - 만병통치약(silver bullets)은 있을까?

2021년 3월 28일
·
0개의 댓글
post-thumbnail

[TIL] 20210324_sentence embedding

아래 git에서 한글 kobert를 이용한 문장 임베딩을 진행했다. NLP 프로젝트에서 음식점의 리뷰문장과 사용자가 입력하는 문장과의 유사도를 구하기 위함이다.https://github.com/BM-K/KoSentenceBERT_SKTBERT

2021년 3월 24일
·
0개의 댓글

BERT

Bidirectional Encoder Representations from Transformers큰 텍스트 코퍼스(위키피디아 같은)를 이용하여 범용목적의 언어 이해 모델을 훈련시키는 것과 그 모델에 관심있는 실제의 자연 언어 처리 태스크(질문, 응답 등)에 적용하는

2021년 3월 19일
·
0개의 댓글
post-thumbnail

Attention Is All You Need

Attention is All You Need는 Transformer모델 즉, Self-Attention을 처음 제안하는 논문입니다. 현재 제안되는 최신 모델들은 대부분 Self-Attention을 기반으로 합니다. 자연어 분야를 뛰어 넘어, 멀티 모달 임베딩, 또는

2021년 3월 19일
·
0개의 댓글

How to build a State-of-the-Art Conversational AI with Transfer Learning

이 글은 ConvAI2 NeurIPS(2018) 대회에서 SOTA(state-of-the-art)를 기록한 Hugging Face 의 Conversation AI에 대한 튜토리얼를 번역한 포스트입니다.

2021년 3월 18일
·
0개의 댓글
post-thumbnail

Enriching Word Vectors with Subword Information(FastText) 논문 리뷰

FastText 논문 : https://arxiv.org/abs/1607.04606 Abstract 기존 모델(word2vec)은 단어마다 다른 벡터를 할당하여 단어의 형태를 무시하게 된다. 이는 큰 어휘들과 많은 드물게 사용되는 단어들에서 한계가 있다. 본 논문에

2021년 3월 17일
·
0개의 댓글

[TIL] 20210315_한국어 key extractor

PageRank와 유사한 HITS algorithm을 이용하여 단어를 추출한다.이는 별도의 토크나이저를 사용하지않고 비지도 기반으로 동작한다.참고colab krwordrank

2021년 3월 16일
·
0개의 댓글
post-thumbnail

나만의 언어모델 만들기 - BERT Pretrained Language Model (Masked Language Model) 만들기

최근 자연어처리에서 많이 사용되는 대표적인 언어모델로 BERT, GPT, ELECTRA가 있습니다. 단계별로 언어모델을 학습하는 과정 학습해보고, Colab 환경에서 직접 학습 시켜보고자 합니다. https://github.com/nawnoes/reformer

2021년 3월 15일
·
0개의 댓글
post-thumbnail

[AIFFEL] 10. 자연어 처리 (Nautural Language Processing)

딥러닝은 크게 두가지 종류로 나뉜다. 컴퓨터 비전 (Computer Vison)자연어 처리 (Natural Language Processing)CV는 딥러닝을 통해 이미지를 분류, 생성하는 분야이고NLP는 자연어, 즉 인간의 언어 (컴퓨터 언어가 아닌 언어)를 컴퓨터가

2021년 3월 13일
·
0개의 댓글

한국어 tokenize가 어려운 이유

영어는 New York과 같은 합성어나 he's 와 같이 줄임말(구체적으로는 접어(clitic))에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 거의 대부분의 경우에서 단어단위로 띄어쓰

2021년 3월 10일
·
0개의 댓글
post-thumbnail

Self-Supervised Pre-training Models (GPT, BERT...)

트랜스포머의 Self-Attention으로 모델을 구성하는 방법은 NLP 의 트렌드가 됨

2021년 3월 7일
·
0개의 댓글