profile
매일 매일 한 걸음씩 나아가고자 합니다.

EFFICIENT AND EFFECTIVE TEXT ENCODING FOR CHINESE LLAMA AND ALPACA

ChatGPT와 GPT-4와 같은 LLM들이 nlp 분야의 연구를 많이 바꿔놨고, AGI에 뭔가 한 걸음 더 다가간 것을 보여줬다.그럼에도 불구하고, 사실 ChatGPT나 GPT-4와 같은 초거대 모델들은 학습, 배포하는데 너무나 많은 비용이 들기 때문에, 기업이 학습

2023년 9월 14일
·
0개의 댓글
·
post-thumbnail

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

Instruction tuning은 PLM이 추론할 때 natural language description으로부터의 새로운 task에 대해 답을 할 수 있게 해 줌.일반적으로 사람이 수동적으로 수많은 데이터를 직접 라벨링하든지, 구성하여 데이터셋을 구성함.하지만 위의

2023년 8월 27일
·
0개의 댓글
·
post-thumbnail

Alignment Data Collection

LLM에 대한 alignment를 잘하기 위해서는 퀄리티가 좋은 데이터가 반드시 필요하다. 여기서 생각해볼 점은 좋은 퀄리티를 가진 데이터란 무엇인가이다. 이 점은 두고 두고 고민해야 한다. 우리가 직면한 문제에서 적절하며, 좋은 퀄리티를 가진 데이터가 무엇일지 고민해

2023년 8월 27일
·
0개의 댓글
·
post-thumbnail

Aligning Large Language Models with Human: A Survey

ChatGPT를 시작으로 대규모 언어 모델이 쏟아지고 있는 현재 상황에서 LLM을 주어진 task에 맞춰서 잘 활용하기 위해서는 여러 분야를 공부해야 한다. 아래는 공부해야 할 키워드들에 대한 정리이다. Aligning For LLMs How to collect Da

2023년 8월 21일
·
0개의 댓글
·
post-thumbnail

LLaMA: Open and Efficient Foundation Language Models Paper 리뷰

7B부터 65B의 다양한 크기로 학습을 진행(GPT-3의 175B에 비해 훨씬 작음.)독점적이고 접근 불가능한 데이터셋이 아닌 공공의 데이터를 활용하여 학습심지어 LLaMA-13B은 GPT-3(175B)에 비해 모든 벤치마크에서 성능을 능가한다.또한 LLaMA-65B은

2023년 5월 1일
·
0개의 댓글
·
post-thumbnail

Finetuned Language Models are Zero-Shot Learners Review(a.k.a FLAN)

paper : https://arxiv.org/pdf/2109.01652.pdf본 논문은 언어 모델의 zero-shot 학습 능력의 향상을 위한 방법론에 대한 논문이다.그것을 본 논문에서는 'instruction tuning'이라고 한다.instruction

2023년 2월 1일
·
0개의 댓글
·
post-thumbnail

Language Models are Unsupervised Multitask Learners(a.k.a GPT-2) Review

Reference paper : https://d4mucfpksywv.cloudfront.net/better-language-models/languagemodelsareunsupervisedmultitask_learners.pdf Abstract NLP에는 전통적인

2023년 1월 29일
·
0개의 댓글
·
post-thumbnail

프로그래머스 - 택배 배달과 수거하기

문제는 위와 같이 정의된다.solution 함수는 4가지 parameter를 인자로 받는데, 각각의 인자는 다음과 같다.cap : 트럭에 담을 수 있는 최대 택배 상자 수n : 배달 또는 수거를 할 수 있는 집의 개수deliveries : 배달해야 하는 집에 대한 ar

2023년 1월 21일
·
0개의 댓글
·
post-thumbnail

It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners 리뷰

Abstract 사전 학습된 language model과 이러한 모델들을 스케일 업한 GPT-3와 같은 뛰어난 모델이 있음. 또한 GPT-3는 few-shot에서 주목할 만한 성능을 보여줌. 하지만 GPT-3의 파라미터 개수는 1750억개로 너무 크다는 단점이 명확히

2022년 12월 6일
·
0개의 댓글
·
post-thumbnail

OCR(Optical Character Recognition)

OCR이란 무엇인가? AWS의 정의에 따르면, 광학 문자 인식(OCR)은 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정. 예를 들어, 양식이나 영수증의 스캔본 또는 사진 파일이 있을 때, 단순히 이미지 파일로는 텍스트 문서로 변환하여 편집할 수 없

2022년 11월 8일
·
0개의 댓글
·
post-thumbnail

Aspect-Based Sentiment Analysis Using BERT 리뷰

Sentiment analysis는 인터넷 유저로 인해 연구와 비즈니스 분야에서 아주 유명해지고 있음.이 논문은 사전학습된 BERT를 활용하여 contextual word representations의 잠재력을 보여주고, out-of-domain ABSA 문제를 풀며,

2022년 11월 3일
·
0개의 댓글
·
post-thumbnail

Cluster-Former: Clustering-based Sparse Transformer for Question Answering Review

Paper Link https://arxiv.org/pdf/2009.06097.pdf Background The background of this paper Transformer stands out on Natural Language Processing an

2022년 9월 6일
·
0개의 댓글
·

자연어처리 모델 구현 순서

자연어처리 모델 구현 순서 1. 전처리 2. 모델 구축 3. 모델 학습 1. 전처리 방식 character level 한국어 기준으로 '가,갸,어,여' 등이 있음. 단어의 고유한 의미를 표현하는 것은 아니라서 좋은 성능을 내지는 못함. space level 띄어쓰기

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

Anomaly Detection

Anomaly Detection이란? 정상적인 데이터와 비정상적인 데이터를 구별해내는 문제

2022년 8월 25일
·
0개의 댓글
·

프로그래머스 두 큐 합 같게 만들기 by Python

길이가 같은 두 개의 큐\-> 여기서 큐(queue)란? FIFO(First in First out)의 형태를 가지고 있는 자료구조\-> 따라서 list 형태를 가진 파이썬의 자료형에서 append 함수를 사용하기는 용이하나 pop 함수를 사용하기는 어려움.\-> 사용

2022년 8월 21일
·
0개의 댓글
·