논문 제목: Efficient Estimation of Word Representations inVector Space 저자 : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean > ## Abstract 저자는 이 논문에
해당 논문은 ImageNet LSVRC-2010 대회의 120만 개 이미지 분류 작업에서, 5개의 합성곱 계층과 3개의 완전 연결 계층을 가진 심층 합성곱 신경망을 훈련시켰습니다.이 모델은 6천만 개의 파라미터와 65만 개의 뉴런을 포함하며, 효율적인 GPU 연산과 비
본 논문에서는 DNNs는 어려운 학습 과제에서 우수한 성능을 달성했으나, DNN은 시퀀스를 시퀀스로 매핑하는 데 사용할 수 없다는 문제를 발견했습니다. 이에 저자들은 시퀀스 구조에 최소한의 가정을 두고 시퀀스 학습을 위한 일반적인 엔드 투 엔드(end to end)접
앞서 소개된 Skip-gram 모델에 대한 내용을 다루고 있으며, 이 모델은 많은 정확한 구문 및 의미 관계를 포착하는 고품질 분산 벡터 표현을 학습하는 효율적인 방법이며, 본 논문에서는 벡터의 품질과 학습 속도를 모두 향상시키는 몇 가지 확장을 제시하고 있습니다.
벡터 공간 표현을 학습하는 방법들은 벡터 산술을 통해 미세한 의미적, 구문적 규칙성을 포착하는 데 성공했지만, 이러한 규칙성의 기원은 여전히 불투명했습니다. 저자들은 단어 벡터에서 이러한 규칙성이 찾아내기 위해 필요한 모델 속성을 분석했습니다. 그 결과, 문헌에서 두
논문 제목: Layer Normalization 저자 : Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton[노벨 물리학상 수상자] > ## Abstract 심층 신경망을 훈련시키는 것은 비용이 많이 듭니다. 그래서 훈련시간을 줄이기위해 뉴런의 활성화를 정규화 하는것입니다. 최근에 도입된 배치 정규화는 뉴런에 대...
논문 제목: Sequence Transduction with Recurrent Neural Networks 저자 : Alex Graves Abstract Introduction Recurrent Neural Network Transducer Prediction
소형 모델의 능력 향상을 위해서 모방학습을 통해 대형 기초 모델(LFM)이 생성한 출력을 활용하는 방법에 연구를 위해서 Orca라는 130억개의 매개변수를 가진 모델을 개발하였으며, GPT-4로 부터 설명, 단계별 사고과정, 복잡한 지시사항을 학습하였으며, ChatG
본 논문은 PyTorch Fully Sharded Data Parallel (FSDP)를 대규모 모델 학습을 위한 산업 수준의 솔루션으로 소개를 위한 논문. FSDP는 PyTorch의 핵심 구성 요소들과 공동 설계되어 사용자 경험을 개선하고 학습 효율성을 높이며, 다
논문 제목:ZeRO: Memory Optimizations Toward Training Trillion Parameter Models 저자 : Samyam Rajbhandari, Je Rasley,Olatunji Ruwase,Yuxiong He > ## Abstra
대형 언어 모델(LLM)의 미세 조정에는 막대한 GPU 메모리가 필요하며, 이로 인해 더 큰 모델을 사용하는 데 제약이 생깁니다. 로우랭크 적응(Low-Rank Adaptation) 기법의 양자화된 버전인 QLoRA는 이러한 문제를 상당 부분 완화하지만, 효율적인 Lo
대형 언어 모델(LLM)의 미세 조정에는 막대한 GPU 메모리가 필요하며, 이로 인해 더 큰 모델을 사용하는 데 제약이 생깁니다. 로우랭크 적응(Low-Rank Adaptation) 기법의 양자화된 버전인 QLoRA는 이러한 문제를 상당 부분 완화하지만, 효율적인 Lo
Instruction Finetuning이란?모델을 다양한 데이터셋(명령어 형식으로 작성된 데이터)으로 미세 조정하는 방법으로, 이를 통해 모델의 성능과 새로운 작업에 대한 일반화 능력을 향상시킬 수 있음.작업(Task)의 수를 확장모델 크기를 확장Chain-of-Th
연결된 사고(chain of thought)를 생성하는 것이, 즉 일련의 중간 추론 단계를 생성하는 것이 대형 언어 모델이 복잡한 추론을 수행하는 능력을 크게 향상시킨다는 점을 탐구를 통해서 이러한 추론 능력이 충분히 큰 언어 모델에서 자연스럽게 등장한다는 것을 보여줍
언어 모델 프롬프팅에서 널리 사용되는 "Chain of Thought (CoT)" 접근 방식을 일반화한 것으로, 문제 해결을 위한 중간 단계 역할을 하는 "생각(thoughts)"이라는 일관된 텍스트 단위를 탐구하게 해줌1) ToT는 여러 가지 다양한 추론 경로를 고려
아이디어 및 주요 장점은 LLM이 생성하는 정보를 임의의 그래프 형태로 모델링하는 것GoT는 새로운 생각 변환(Thought Transformation)을 추가할 수 있도록 확장 가능하게 설계되어, 새로운 프롬프팅 기법을 선도1) 임의의 생각 결합: 서로 다른 LLM의
ReAct = Reason + Act = 추론 + 실행추론 과정 : 모델이 행동 계획을 유도, 추적, 업데이트하고 예외를 처리하는 데 도움을 줌행동 과정 : 모델이 외부 지식 베이스나 환경(예: API)에서 추가 정보를 수집하고 이를 활용1.추론을 통
STaR(Self-Taught Reasoner)은 소수의 논리 예제와 논리가 없는 대규모 데이터세트를 활용해 언어 모델의 복잡한 추론 능력을 점진적으로 향상시키는 기술소수의 논리 예제를 기반으로 질문에 대한 논리를 생성.생성된 답변이 틀리면 정답을 참고하여 새로운 논리
대규모 언어 모델에 자연어 지침을 활용해 파인튜닝하는 방식이 제로샷 성능을 크게 개선할 수 있음을 입증했습니다. FLAN은 기존의 GPT-3보다 더 나은 성과를 보였으며, 지침 튜닝에서 데이터셋 수, 모델 크기, 그리고 자연어 템플릿이 성공의 주요 요인임을 강조함. 다
HyDE는 언어 모델(e.g. InstructGPT)을 제로샷으로 활용해 가상의 문서를 생성하고, 비지도 대조 학습 인코더(e.g. Contriever)로 이를 임베딩 벡터로 변환하여 유사한 실제 문서를 검색합니다. 생성된 문서는 관련성 패턴을 포착하지만 실제 문서는
행동 클로닝을 통해 대규모 언어 모델이 자연어 비평을 작성하도록 미세 조정하는 방법모델이 작성한 비평은 인간이 놓친 요약의 결함을 발견하는 데 도움을 주며, 자연적으로 발생하는 결함과 고의로 삽입된 결함 모두를 식별할 수 있음언어 모델을 개발하기 위해 자연어 비평을 활
검색 증강 언어 모델(Retrieval-augmented language models)은 세상의 상태 변화에 더 잘 적응하고, 드문(long-tail) 지식을 더 효과적으로 통합할 수 있음텍스트 조각을 재귀적으로 임베딩, 클러스터링, 요약하여, 하위 레벨에서 상위 레벨
LLM은 안전성과 인간의 가치에 대한 정렬(alignment)이라는 중요한 질적 특성을 충족해야한다. 그래서 DeepSeek-R1(70B 버전)과 OpenAI의 o3-mini(베타 버전)의 안전성 수준을 비교하기 위해서 ASTRAL이라는 자동화된 안전성 테스트 도구활
논문 제목:Guiding Large Language Models via Directional Stimulus Prompting 저자 : Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Y