# NLP

1031개의 포스트

[Paper #1] Revealing the Dark Secrets of BERT

1. Backgrounds 2. Main Challenges 3. Method 3.1 Overview 3.2 Method Details 4. Analysis Weakness (최대한 2개 이상. 비판적으로 읽기). Potential solutions to t

약 7시간 전
·
0개의 댓글
·
post-thumbnail

M1 Part7 - "Hugging Face Transformers Installation on M1"

: M1에서 Pytorch GPU 가능 버전을 설치해봤다면, HuggingFace의 transformers를 설치해보고 싶은 마음이 들 것이다. 그런데 M1에서는 이 길이 참 쉽지 않다. 그래서 하나하나 보여주겠다. 00부터 순서대로 잘 따라와주기를 바란다. : co

약 18시간 전
·
0개의 댓글
·
post-thumbnail

[NLP]텍스트 분포로 벡터화 하기

오늘은 저번 시간에 이어서 텍스트의 분포를 활용해 텍스트를 벡터화하는 개념을 살펴볼 것이다. 이를 통해서 기초개념을 다질 수 있을 것이라고 생각된다. 여기서 잠시 텍스트 벡터화를 해야 하는 이유를 살펴보겠다. 컴퓨터가 자연어를 원활하게 처리할 수 있도록 하기 위해서는

어제
·
0개의 댓글
·
post-thumbnail

Dependency Parsing

Dependency parsing 관련 논문: https://nlp.stanford.edu/pubs/emnlp2014-depparser.pdf 0. Sentence Structure 참고 문장의 구조를 파악하는 두 가지 방법 -> 문장의 의미를 정확하게 파악하기 위해, 정확한 문장 구조 파악은 중요하다 1. Phrase-structure grammar(...

1일 전
·
0개의 댓글
·
post-thumbnail

Word2Vec

Word2Vec

2일 전
·
0개의 댓글
·

[NLP]텍스트 데이터 전처리

1. 전처리 자연어를 전치리 한다는것은 마냥 쉬운 일이 아니다. 한국어, 영어, 일본어, 중국어 등 모두 전처리를 하는 방식이 조금씩 다르다. 그리고 컴퓨터가 인식하기 힘든 노이즈들이 있다. 그리고 우리는 한국어를 사용하지만 안타깝게도 대부분의 AI 논문과 문서들은

2일 전
·
0개의 댓글
·
post-thumbnail

개체명 인식 논문 리뷰

Neural Architectures for Named Entity Recognition(2016) 논문을 읽고 내용 요약 및 정리

4일 전
·
0개의 댓글
·
post-thumbnail

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2seq Model

Amazon에서 공개한 20B encoder-decoder model

5일 전
·
0개의 댓글
·

NLP 공부 시작하기!

인공지능의 Task에는 크게 세 가지가 있다. CV, NLP, RecSys이다. CV(Computer Vision)는 컴퓨터 비전으로 이미지, 동영상 등을 처리하는 분야이며 사람의 눈에 해당하는 역할을 한다. NLP(Natural Language Procssing)는

5일 전
·
0개의 댓글
·
post-thumbnail

논문 정확하고 쉽게 읽자 - "Attention Is All You Need"

Transformer이 등장한 "Attention Is All You Need (Ashish Vaswani, Noam Shazer, Niki Parmar, Jakob Uzkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Ill

5일 전
·
0개의 댓글
·
post-thumbnail

Stable Diffusion AI: 텍스트 한 줄이 이미지를 만든다 - A to Z

"A high tech solarpunk utopia in the Amazon rainforest" . . . "아마존 밀림에 있는 고도화된 솔라펑크 유토피아" 이 한 문장을 입력한 순간, Stable Diffusion은 고화질의 이미지를 생성해냈습니다. 뿐만 아니라

7일 전
·
0개의 댓글
·
post-thumbnail

[NLP] 자연어 처리 Task 알아보기

어디선가 한번은 봤던 것 같은 사진입니다. 몇 년 전, 피리부는 사나이의 구글 번역 결과입니다. 현재는 the piped man으로 수정되어 번역되고 있습니다. 피리부 씨는 왜 사나이가 되었을까요. 또, 어떻게 지금은 우리가 원하는 뜻으로 수정되어 번역되고 있을까요.

7일 전
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering(2021)

기존의 Question Answering(QA)에서는 거대한 규모로 학습된 언어모델을 fine-tuning하는 방식으로 학습이 이루어지기도 했으나, 이러한 방식은 몇 가지 한계점을 가집니다.answer prediction에 대한 설명력(explainability)가 부

7일 전
·
0개의 댓글
·

Convolutional Neural Networks for Sentence Classification

NLP에서도 CNN을 활용하는 것도 좋은 성능을 보이며, pre-trained vector는 univeral feature extractor임을 다시 한 번 보여주는 논문입니다.

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

[PLM을 이용한 한국어 혐오 표현 탐지] 7. 증강 데이터 활용하기

Reference 한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법 [paper] MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification [paper] [github] 1. 서론 이전 시간에 max_epoch로 설정했...

2022년 9월 22일
·
0개의 댓글
·

순환신경망과 시퀀스 모델링

본 포스팅은 파이토치로 배우는 자연어 처리 (한빛미디어), 한국어 임베딩(에이콘), 머신러닝 교과서 with 파이썬, 사잇킷런, 텐서플로(길벗) 책 그리고 https://wikidocs.net/22886 참고하여 작성되었습니다. 이미지 자료https://github.com/gilbutITbook/080223/blob/master/ch16/ 6.0 시퀀스 ...

2022년 9월 22일
·
0개의 댓글
·

[CS224n #3] Topic Modeling - LSA/LDA/ BERTopic

0. Summary Topic modeling : corpus 집합에서 통계적 분석 방식을 사용해서 문서의 context를 담고 있는 유의미한 word를 뽑아내고 representation 만들기. DTM : Document-Term Matrix / 문서 단어 행렬 키워드로 보는 Method LSA : #유사도, #토픽 모델링 아이디어 시초 #SVD ...

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

GPT-3 논문 리뷰

Language Models are Few-Shot Learners(2020) 논문을 읽고 내용 요약 및 정리

2022년 9월 20일
·
0개의 댓글
·
post-thumbnail

DeepSpeed로 큰 모델 튜닝하기

Reference https://www.deepspeed.ai/getting-started/ https://huggingface.co/docs/transformers/main_classes/deepspeed https://junbuml.ee/huggingface-deepspeed-fairscale 이전 트레이닝 방식 학습 device CPU Single...

2022년 9월 15일
·
0개의 댓글
·
post-thumbnail

NLP 모델링 프로젝트[0]

[0] 주제 구체화와 끝없는 회의

2022년 9월 13일
·
0개의 댓글
·