profile
생각, 기술, 회고 등 다양한 분야를 기록합니다.
post-thumbnail

Data-Centric: NLP Research (1)

이 문서는 Data-Centric NLP와 관련된 최근 연구 동향을 체계적으로 설명합니다. 데이터 증강, 필터링, 합성 데이터 생성, 데이터 품질 측정 등 다양한 주제를 다루며, 각각의 연구 방향과 방법론을 설명합니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Data-Centric: NLP 응용분야

모델을 수정하지 않고 데이터 중심 접근 방식으로 NLP 모델의 성능을 향상시키는 다양한 방법들이 존재합니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Data-Centric: NLP history

규칙 기반 NLP는 언어 처리 작업을 위해 전문가가 직접 정의한 규칙을 이용해 시스템을 구성하는 방식입니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Dataset: 독특한 Task 및 Data 소개

혐오 발언(Hate Speech)은 인종, 성별, 성적 지향, 종교 등 개인의 특성을 바탕으로 특정 집단이나 개인을 비하하거나 공격하는 언어를 의미합니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Dataset: 국내 및 해외 NLP 데이터 구축 프로젝트

국내 NLP 데이터 구축 프로젝트는 크게 국가 기관 주도, 기업 주도, 개인 및 학계 주도로 나뉩니다. 각 주체가 기여한 주요 프로젝트들을 상세히 살펴보겠습니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Data-Centric: Data Management

DMOps는 데이터 관리 작업과 절차(Data Management Operation and Recipes)를 의미합니다. AI 모델의 성능을 높이기 위해 데이터셋의 품질을 유지하고 관리하는 일련의 단계로 구성됩니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

Data-Centric: 데이터 중심 접근법

AI 시스템(서비스)은 데이터를 처리하는 코드(모델/알고리즘)와 학습을 위한 정보(데이터)가 함께 작용해 결과를 도출하는 구조로 이루어집니다.

2024년 11월 1일
·
0개의 댓글
·
post-thumbnail

LLM: 트랜스포머 기반 언어 모델들 (2)

31. Megatron-Turing NLG (2021) 논문: 비공개 (마이크로소프트와 NVIDIA의 협업) 요약: Megatron-Turing NLG는 5300억 개의 매개변수를 가진 초대형 언어 모델로, 매우 큰 모델을 사용해 자연어 생성 태스크에서 최

2024년 10월 24일
·
0개의 댓글
·
post-thumbnail

LLM: 트랜스포머 기반 언어 모델들 (1)

1. Transformer (2017) 논문: "Attention is All You Need" 요약: Transformer 모델은 기존 RNN과 CNN을 대체하며 등장한 모델로, 주목할 만한 점은 모든 정보를 다루는 데 있어 'Self-Attention'

2024년 10월 24일
·
0개의 댓글
·
post-thumbnail

Transformers: BERT

BERT는 NLP에서 광범위하게 사용되는 사전 훈련된 모델로, 주로 텍스트 분류, 문장 유사도, 문장 생성 등 다양한 작업에 적용됩니다.

2024년 10월 23일
·
0개의 댓글
·
post-thumbnail

Git: At a Glance

Git은 소프트웨어 버전 관리 시스템(VCS)이다. 소프트웨어 개발에서 여러 개발자가 동시에 협업할 때 코드 수정 내역을 서로 공유하고 관리함으로써 효율적인 개발을 도와준다.

2024년 10월 22일
·
0개의 댓글
·
post-thumbnail

Git: 고급기능

브랜치는 독립된 개발 환경을 제공하는 기능이다. 브랜치는 여러 명이 동시에 개발할 때 각각의 작업을 분리하여 진행하거나, 새로운 기능을 테스트할 때 유용하게 사용할 수 있다.

2024년 10월 22일
·
0개의 댓글
·
post-thumbnail

Transformers: Library of Hugging Face

Hugging Face의 Transformers 라이브러리는 자연어 처리(NLP) 분야에서 혁신적인 변화를 불러일으킨 오픈 소스 라이브러리이다.

2024년 10월 21일
·
0개의 댓글
·
post-thumbnail

MRC: Generation-based

최근에는 Generative-based 접근 방식이 점점 더 큰 주목을 받고 있다. 이러한 접근 방식은 질문에 대해 텍스트를 "생성"하는 모델을 활용해 보다 유연한 답변을 제공한다.

2024년 10월 21일
·
0개의 댓글
·
post-thumbnail

MRC: Extraction-based

Extraction-based Machine Reading Comprehension (MRC)은 자연어 처리에서 주어진 텍스트에서 질문에 대한 답을 직접적으로 추출하는 접근법이다.

2024년 10월 21일
·
0개의 댓글
·
post-thumbnail

Passage Retrieval: Re-rank

Re-rank: 재정렬 이 글은 Sparse Embedding과 Dense Embedding을 사용한 Reranking에 대해 설명한다.

2024년 10월 18일
·
0개의 댓글
·
post-thumbnail

Passage Retrieval: Dense Embedding

Dense Embedding은 데이터의 의미를 고차원 공간에 압축해 표현하는 방법으로, 유사도 측정에 있어 Dense Embedding은 매우 중요한 역할을 한다.

2024년 10월 16일
·
0개의 댓글
·
post-thumbnail

Passage Retrieval: Sparse Embedding

Passage Embedding은 텍스트의 일부분을 고차원 공간의 벡터로 표현하는 방법으로, 의미적으로 유사한 패시지가 유사한 벡터 표현을 갖도록 한다.

2024년 10월 15일
·
0개의 댓글
·
post-thumbnail

Tokenize: 토큰화

토큰화(tokenization)는 자연어 처리(NLP)에서 텍스트를 의미 있는 단위로 분할하는 과정이다.

2024년 10월 14일
·
0개의 댓글
·
post-thumbnail

Dataset: KorQuAD

KorQuAD(Korean Question Answering Dataset)는 한국어 자연어 처리(NLP) 연구에 중요한 역할을 하는 질문-응답 데이터셋이다.

2024년 10월 14일
·
0개의 댓글
·