28.5_gigaparsecs.log

28.5_gigaparsecs.log

LLM: 트랜스포머 기반 언어 모델들 (2)

국부은하군·2024년 10월 24일

LLM

목록 보기

2/2

31. Megatron-Turing NLG (2021)

논문: 비공개 (마이크로소프트와 NVIDIA의 협업)
요약: Megatron-Turing NLG는 5300억 개의 매개변수를 가진 초대형 언어 모델로, 매우 큰 모델을 사용해 자연어 생성 태스크에서 최고의 성능을 낸다. 주로 대화형 AI와 텍스트 생성에 활용된다.

32. PaLM (2022)

논문: "PaLM: Scaling Language Modeling with Pathways"
요약: PaLM은 구글에서 개발한 대규모 언어 모델로, 다양한 태스크에서 최첨단 성능을 달성하도록 설계되었다. Pathways 시스템을 통해 효율적으로 학습하며, 많은 데이터에서 뛰어난 일반화 성능을 발휘한다.

33. Chinchilla (2022)

논문: "Training Compute-Optimal Large Language Models"
요약: Chinchilla는 DeepMind가 개발한 대규모 언어 모델로, 모델 크기와 학습 데이터를 최적화한 연구 결과에 기반하여 설계되었다. 특히, 동일한 계산량으로 더 나은 성능을 내는 데 중점을 둔다.

34. BigScience BLOOM (2022)

논문: "BLOOM: A 176B-Parameter Open-Access Multilingual Language Model"
요약: BLOOM은 공개 접근이 가능한 다국어 초대형 언어 모델로, 1760억 개의 파라미터를 가지고 있다. 다양한 언어를 지원하며, 공공 자원으로 개발된 최초의 초대형 언어 모델이다.

35. OPT (2022)

논문: "OPT: Open Pre-trained Transformer Language Models"
요약: OPT는 Meta에서 개발한 공개 사전 학습된 트랜스포머 모델로, 1750억 개의 매개변수를 가지고 있다. GPT-3와 유사한 구조를 가지며, 실험과 연구에서 학습된 대형 모델에 대한 액세스를 제공한다.

36. Flan-T5 (2022)

논문: "Scaling Instruction-Finetuned Language Models"
요약: Flan-T5는 구글에서 개발한 T5 모델의 변형으로, 인스트럭션 기반 미세 조정을 통해 다양한 태스크에 적응할 수 있도록 설계되었다. 다양한 NLP 태스크에 적용 가능하며, 명령어 학습 능력이 뛰어나다.

37. GLaM (2022)

논문: "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts"
요약: GLaM은 구글에서 개발한 'Mixture of Experts' 모델로, 특정 태스크에 적합한 전문가들을 활성화시켜 효율성을 높인다. 매우 큰 모델이지만 희소한 활성화 방식으로 메모리와 계산 비용을 줄였다.

38. Galactica (2022)

논문: "Galactica: A Large Language Model for Science"
요약: Galactica는 과학 관련 지식을 담고 있는 대형 언어 모델로, 논문 작성, 데이터 분석 등 과학 분야에서 활용될 수 있도록 설계되었다. 과학 문서와 데이터를 기반으로 훈련되었다.

39. Gato (2022)

논문: "A Generalist Agent"
요약: Gato는 DeepMind에서 개발한 범용 인공지능 에이전트로, 다양한 태스크를 단일 모델로 수행할 수 있도록 설계되었다. 이미지, 텍스트, 조작 작업 등 여러 형태의 데이터를 처리하고 학습할 수 있다.

40. Claude (2023)

논문: 없음 (Anthropic에서 비공개로 개발됨)
요약: Claude는 Anthropic에서 개발한 대화형 언어 모델로, 윤리적 인공지능과 안전성을 강조한 설계가 특징이다. 특히 사용자의 의도를 보다 신중하게 이해하고, 부적절한 응답을 방지하는 데 중점을 둔다.

41. Gemini (2023)

논문: 없음 (Google DeepMind에서 개발)
요약: Gemini는 Google DeepMind에서 개발한 경량화된 대형 언어 모델로, 다양한 태스크에서 효율적으로 작동하도록 설계되었다. 특히 자원의 효율성을 극대화하면서도 뛰어난 성능을 제공하는 것이 목표이다.

42 LLaMA (2023)

논문: "LLaMA: Open and Efficient Foundation Language Models"
요약: LLaMA는 Meta에서 개발한 경량 대형 언어 모델로, 파라미터 수가 적음에도 뛰어난 성능을 발휘한다. 다양한 크기의 모델이 제공되며, 연구자들에게 개방되어 실험적으로 활용되고 있다.

43. Mistral (2023)

논문: "Efficient Scaling of Language Models with MoE"
요약: Mistral은 효율적인 확장을 목표로 하는 대규모 언어 모델로, Mixture of Experts(MoE) 방식을 사용하여 모델 성능과 효율성을 극대화한다. 높은 성능을 유지하면서도 모델의 자원 사용량을 줄이는 데 중점을 두고 있다.

44. Falcon (2023)

논문: "Falcon: High-Performance Language Models Based on Transformers"
요약: Falcon은 매우 대규모의 트랜스포머 기반 언어 모델로, 특히 자연어 생성 및 이해에서 높은 성능을 발휘한다. 대규모 데이터셋과 강력한 인프라를 통해 훈련된 모델로, 다양한 태스크에서 사용 가능하다.

45. Grok (2023)

논문: 없음 (X, 전 Google X의 연구)
요약: Grok은 트위터가 출시한 대화형 AI 챗봇으로, Elon Musk의 비전을 반영해 만들어졌다. 다양한 정보 제공, 사용자와의 상호작용을 통해 질문에 답변하며 트위터 플랫폼에서 활용될 수 있는 AI 도구이다.

46 RetNet (2023)

논문: "Retentive Network: A Successor to Transformers for Large Language Models"
요약: RetNet은 트랜스포머의 대안으로 설계된 모델로, 기존 트랜스포머의 제한점을 해결하기 위해 개발되었다. 장기 기억에 더 효율적으로 접근할 수 있도록 하며, 확장성이 뛰어나 대규모 언어 모델 학습에 적합하다.

47. SPAR (2023)

논문: "SPAR: Scalable Passage Retrieval with Efficient Context Aggregation"
요약: SPAR는 대규모 텍스트에서 효과적인 문서 검색을 위해 설계된 모델로, 효율적인 문맥 집합체계를 사용하여 빠르고 정확한 검색 성능을 제공한다. 주로 정보 검색 및 질문 답변 시스템에 사용된다.

48. MPT (2023)

논문: "MPT: A Modular and Scalable Pre-training Transformer"
요약: MPT는 모듈식 트랜스포머로, 다양한 NLP 작업에 맞게 쉽게 조정할 수 있는 특징을 가진다. 확장 가능한 구조로 구성되어 대규모 데이터 처리 및 다양한 태스크에서 우수한 성능을 발휘한다.

49. GPT-4 (2023)

논문: 비공개 (OpenAI의 발표)
요약: GPT-4는 GPT-3의 후속 모델로, 더욱 정교한 언어 생성 및 이해 능력을 갖춘 초대형 언어 모델이다. 멀티모달 기능을 통해 텍스트뿐 아니라 이미지도 처리할 수 있으며, 다양한 언어와 태스크에서 뛰어난 성능을 보인다.

50. LLaMA 2 (2023)

논문: "LLaMA 2: Open Foundation and Fine-Tuned Chat Models"
요약: LLaMA 2는 Meta에서 발표한 경량화된 대형 언어 모델의 두 번째 버전으로, 개선된 성능과 더 큰 유연성을 제공한다. 연구와 실험에 개방된 모델로, 자연어 처리 및 생성 작업에서 높은 성능을 발휘한다.

51. ChatGPT (2023)

논문: 비공개 (GPT-4 기반)
요약: ChatGPT는 GPT-4를 기반으로 한 대화형 언어 모델로, OpenAI가 제공하는 챗봇이다. 사용자와 자연스럽게 대화하며 질문에 답하거나 다양한 텍스트 생성 작업을 수행할 수 있다. GPT-3.5부터 시작하여, 2023년에 GPT-4 기반으로 업그레이드되었다.

52. Gemma (2023)

논문: 없음 (Google DeepMind에서 비공개로 개발)
요약: Gemma는 Google DeepMind에서 개발한 경량화된 대형 언어 모델로, 자원 효율성과 성능을 동시에 고려한 설계가 특징이다. 특히 다양한 NLP 작업에서 신속하고 효과적인 처리 능력을 보여주며, 최적화된 모델 아키텍처로 더욱 빠르고 정확한 결과를 제공하는 것이 목표이다.

53. Flamingo (2023)

논문: "Flamingo: A Visual Language Model for Few-Shot Learning"
요약: Flamingo는 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 언어 모델로, 적은 예시만으로도 고성능 결과를 낼 수 있는 'few-shot' 학습 능력을 가지고 있다. 이미지 캡션 생성, 질문 답변 등에서 사용된다.

54. ERNIE 4.0 (2023)

논문: 비공개 (바이두에서 개발)
요약: ERNIE 4.0은 바이두의 최신 대형 언어 모델로, 향상된 자연어 이해와 생성 능력을 제공하며, 기존 ERNIE 모델들보다 더 정교한 지식 그래프 기반 학습을 통해 성능을 개선했다. 다국어 지원 및 다양한 태스크에서 높은 성과를 보인다.

55. Sparrow (2023)

논문: 없음 (DeepMind에서 비공개로 개발)
요약: Sparrow는 DeepMind가 개발한 대화형 AI 모델로, 안전하고 윤리적인 대화를 중점으로 설계되었다. 사용자와의 상호작용에서 보다 신뢰할 수 있는 응답을 제공하며, AI의 윤리적 문제를 해결하려는 시도가 포함되어 있다.

56. Claude 2 (2023)

논문: 없음 (Anthropic에서 비공개로 개발됨)
요약: Claude 2는 Claude의 후속 모델로, 안전성과 성능을 강화하여 더 자연스럽고 윤리적인 대화를 지원한다. 다양한 대화형 태스크에서 뛰어난 성능을 발휘하며, AI의 신뢰성과 책임성을 중요시한다.

57. LLaMA 3.1 (2024)

논문: 비공개 (Meta에서 개발)
요약: LLaMA 3.1은 Meta에서 개발한 LLaMA 시리즈의 최신 모델로, 파라미터 효율성이 크게 개선되었다. 더 강력하고 효율적인 성능을 제공하며, 최신 트렌드에 맞춰 대규모 언어 모델의 성능을 극대화한 모델이다. 특히, 자원 소모를 줄이면서도 우수한 성능을 발휘한다.

58. NeMo Megatron (2024)

논문: 비공개 (NVIDIA에서 개발)
요약: NeMo Megatron은 NVIDIA에서 개발한 초거대 언어 모델로, 고성능 컴퓨팅과 분산 학습에서 뛰어난 성능을 자랑한다. 상업적 응용에 적합하며, 대규모 데이터 처리에 최적화된 모델로, 다양한 산업에서 활용될 가능성이 높다.

59. Gemini 1.5 (2024)

논문: 없음 (Google DeepMind에서 비공개로 개발)
요약: Gemini 1.5는 Google DeepMind에서 개발한 최신 경량화된 대형 언어 모델로, 향상된 효율성과 성능을 제공한다. 다양한 태스크에 적합하도록 설계되었으며, 빠른 응답 속도와 적은 자원 소모를 목표로 한다.

📬 "추가하거나 불필요한 모델이 있으면 알려주세요~"

국부은하군

생각, 기술, 회고 등 다양한 분야를 기록합니다.

이전 포스트

LLM: 트랜스포머 기반 언어 모델들 (1)

0개의 댓글