Models - LLM Collection 介紹

ben · 2025年07月31日08:40

LLM Collection

本篇包括著名和基礎的大語言模型 (LLM) 的收集和摘要。

模型介紹

模型	發布日期	規模 (B)	檢查點	描述
Falcon LLM	2023年9月	7, 40, 180	Falcon-7B, Falcon-40B, Falcon-180B	Falcon LLM 是一個基礎大型語言模型 (LLM)，擁有 1800 億個參數，基於 3.5 兆個詞法單元進行訓練。 TII 現已發布 Falcon LLM—一個 1800 億個模型。
Mistral-7B-v0.1	2023年9月	7	Mistral-7B-v0.1	Mistral-7B-v0.1 是一個預先訓練的生成文字模型，擁有 70 億個參數。該模型基於 Transformer 架構，具有分組查詢注意力機制、位元組回退 BPE 分詞器和滑動視窗注意力機制等功能。
CodeLlama	2023年8月	7, 13, 34	CodeLlama-7B, CodeLlama-13B, CodeLlama-34B	Code Llama 系列專為通用程式碼合成和理解而設計，並針對指令追蹤和更安全的部署進行了專門調整。這些模型具有自回歸功能，並使用最佳化的 Transformer 架構。它們適用於英語及相關程式語言的商業和研究用途。
Llama-2	2023年7月	7, 13, 70	Llama-2-7B, Llama-2-13B, Llama-2-70B	LLaMA-2 由 Meta AI 開發，於 2023 年 7 月發布，其模型參數分別為 70 億、130 億和 700 億。它保持了與 LLaMA-1 類似的架構，但使用的訓練資料量增加了 40%。 LLaMA-2 包含基礎模型和對話微調模型（稱為 LLaMA-2 Chat），可用於多種商業用途，但有一些限制。
XGen-7B-8K	2023年7月	7	Llama-2-7B, Llama-2-13B, Llama-2-70B	Salesforce AI Research 開發的 XGen-7B-8K 是一個 7B 參數語言模型。
Claude-2	2023年7月	130	-	Claude 2 是由 Anthropic 建構的大語言模型 (LLM)，旨在比其先前的版本更安全、更「可控」。它具有對話功能，可用於各種任務，例如客戶支援、問答等。它可以處理大量文本，非常適合需要處理大量資料的應用程序，例如文件、電子郵件、常見問題和聊天記錄。
Tulu	2023年6月	7, 13, 30, 65	Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B	Tulu 是由艾倫人工智慧研究所開發的一系列模型。這些模型是 LLaMa 模型，已在多種指令資料集上進行了微調，包括 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT。它們旨在執行各種 NLP 任務中的複雜指令。
ChatGLM2-6B	2023年6月	6	ChatGLM2-6B	ChatGLM2-6B 是開源雙語（中英）聊天模型 ChatGLM-6B 的第二代版本。它具有更強大的性能、更長的上下文支援能力、更有效率的推理能力，並擁有學術和商業用途的開放許可。此模型採用混合目標函數，並已使用 1.4T 雙語 token 進行訓練。與第一代車型相比，它在各種資料集上都展現出顯著的效能提升。
Nous-Hermes-13B	2023年6月	13	Nous-Hermes-13B	Nous-Hermes-13B 是 Nous Research 根據超過 300,000 條指令進行微調的語言模型。
Baize-v2	2023年5月	7, 13	Baize-v2-13B	Baize-v2 是由 UCSD 和中山大學開發的開源聊天模型，使用 LoRA 進行微調，並使用監督微調 (SFT) 和帶有回饋的自蒸餾 (SDF) 進行訓練。
RWKV-4-Raven	2023年5月	1.5, 3, 7, 14	RWKV-4-Raven	RWKV-4-Raven 是一系列模型。這些模型在 Alpaca、CodeAlpaca、Guanaco、GPT4All 和 ShareGPT 等各種資料集上進行了微調。它們的語言模型採用 100% RNN 架構。
Guanaco	2023年5月	7, 13, 33, 65	Guanaco-7B, Guanaco-13B, Guanaco-33B Guanaco-65B	Guanaco 模型是開源聊天機器人，基於 OASST1 資料集，透過 LLaMA 基礎模型進行 4 位元 QLoRA 調優進行微調。它們旨在用於研究目的。這些模型允許以低成本在本地進行高品質的聊天機器人系統實驗。
PaLM 2	2023年5月	-	-	一種語言模型，比其前身 PaLM 具有更好的多語言和推理能力，並且計算效率更高。
Gorilla	2023年5月	7	Gorilla	Gorilla：與海量 API 連接的大型語言模型
RedPajama-INCITE	2023年5月	3, 7	RedPajama-INCITE	包括基礎模型、指令調整模型和聊天模型在內的一系列模型。.
LIMA	2023年5月	65	-	一個 65B 參數的 LLaMa 語言模型，僅對 1,000 個精心策劃的提示和反應進行標準監督損失微調，無需任何強化學習或人類偏好建模。
Replit Code	2023年5月	3	Replit Code	replit-code-v1-3b 模型是一個 2.7B LLM，使用 Stack Dedup v1.2 資料集中的 20 種語言進行訓練。
h2oGPT	2023年5月	7, 12, 20, 40	h2oGPT	h2oGPT 是一個 LLM 微調框架和聊天機器人 UI，具有文件問答功能。
CodeGen2	2023年5月	1, 3, 7, 16	CodeGen2	程式合成的程式碼模型。
CodeT5 and CodeT5+	2023年5月	16	CodeT5	Salesforce Research 的程式碼理解和產生的 CodeT5 和 CodeT5+ 模型。
StarCoder	2023年5月	15	StarCoder	StarCoder：最先進的程式碼大語言模型(LLM)
MPT	2023年5月	7, 30	MPT-7B, MPT-30B	MosaicML 的 MPT 模型是開源的、商業許可的大型語言模型，提供針對各種 NLP 任務優化的可自訂 AI 解決方案。
DLite	2023年5月	0.124 - 1.5	DLite-v2-1.5B	輕量級指令遵循表現出類似 ChatGPT 交互性的模型。
WizardLM	2023年4月	70, 30, 13	WizardLM-13B, WizardLM-30B, WizardLM-70B	WizardLM 是一系列大型語言模型，旨在遵循複雜的指令。這些模型在編碼、數學推理和開放域對話方面表現出色。這些模型對許可證友好，並採用 Vicuna 的提示格式進行多輪對話。這些模型由 WizardLM 團隊開發，適用於各種 NLP 任務。
FastChat-T5-3B	2023年4月	3	FastChat-T5-3B	FastChat-T5 是一款開源聊天機器人，它基於從 ShareGPT 收集的用戶共享對話，透過對 Flan-t5-xl（3B 參數）進行微調進行訓練。它基於編碼器-解碼器 Transformer 架構，可以自回歸地產生對使用者輸入的回應。
GPT4All-13B-Snoozy	2023年4月	13	GPT4All-13B-Snoozy	GPT4All-13B-Snoozy 是一款 GPL 許可的聊天機器人，基於海量精選的助手互動語料庫進行訓練，這些語料庫涵蓋了文字問題、多輪對話、程式碼、詩歌、歌曲和故事。它基於 LLama 13B 進行微調，由 Nomic AI 開發。此模型專為助手式互動資料而設計，主要使用英語。
Koala-13B	2023年4月	13	Koala-13B	Koala-13B 是由柏克萊人工智慧研究中心 (BAIR) 開發的聊天機器人。它基於 Meta 的 LLaMA 進行微調，專注於從網路上抓取的對話資料。該模型旨在平衡性能和成本，為 ChatGPT 等模型提供更輕量級的開源替代方案。它已使用包含與 ChatGPT 等高效能閉源模型對話的互動資料進行訓練。
OpenAssistant (Llama family)	2023年4月	30, 70	Llama2-30b-oasst, Llama2-70b-oasst	OpenAssistant-LLaMA 模型是 OpenAssistant 在 Llama 模型基礎上開發的語言模型。它支援使用 GGML 格式進行 CPU + GPU 推理，旨在為指令追蹤任務提供開源替代方案。
Dolly	2023年4月	3, 7, 12	Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B	遵循指令的大語言模型 (LLM)，根據獲得研究和商業使用許可的人工生成的指令資料集進行微調。
StableLM	2023年4月	3, 7	StableLM-Alpha-3B, StableLM-Alpha-7B	Stability AI 的 StableLM 系列語言模型
Pythia	2023年4月	0.070 - 12	Pythia	一套由 16 個 LLM 組成的套件，全部使用按照完全相同順序看到的公共資料進行訓練，大小從 70M 到 12B 參數不等。
Open Assistant (Pythia Family)	2023年3月	12	Open Assistant	OpenAssistant 是一個基於聊天的助手，它可以理解任務，可以與第三方系統交互，並動態檢索資訊。
Med-PaLM 2	2023年3月	-	-	利用大型語言模式實現專家級醫學問答
ChatGLM-6B	2023年3月	6	ChatGLM-6B	ChatGLM-6B 是一個開源的中英雙語對話模型，基於通用語言模型 (GLM) 架構，擁有 62 億個參數。儘管其規模較小，導致了一些事實或數學邏輯問題，但由於其基於超過 1 兆個英語和中文詞條進行訓練，因此非常適合中文問答、摘要和會話任務。
GPT-3.5-turbo	2023年3月	175	-	GPT-3.5-Turbo 是 OpenAI 的高階語言模型，專為聊天最佳化，但也適用於傳統的補全任務。與 GPT-3 相比，它在各方面都表現更佳，每個代幣的成本僅為後者的十分之一。
Vicuna	2023年3月	7, 13, 33	Vicuna-7B, Vicuna-13B	Vicuna 是基於 Transformer 架構的自回歸語言模型系列。它基於 LLaMA 進行微調，主要用於大型語言模型和聊天機器人的研究。它由 LMSYS 開發，並擁有非商業許可證。
Alpaca-13B	2023年3月	13	-	Alpaca 是一個基於 Meta 的 LLaMA 7B 進行微調的指令跟隨語言模型。它專為學術研究而設計，旨在解決虛假資訊和惡意資訊等問題。 Alpaca 已基於 52,000 個指令跟隨演示進行訓練，旨在成為更易於學術研究的選擇。出於許可和安全方面的考慮，它不適用於商業用途。
Claude-1	2023年3月	137	-	Claude 是 Anthropic 建構的大型語言模型 (LLM)。它旨在成為一個有用、誠實且無害的 AI 助理。它可以執行各種對話和文字處理任務，並可透過聊天介面和 API 存取。
Cerebras-GPT	2023年3月	0.111 - 13	Cerebras-GPT	Cerebras-GPT：在 Cerebras 晶圓級集群上訓練的開放式運算最佳化語言模型
BloombergGPT	2023年3月	50	-	BloombergGPT：金融領域的大型語言模型
PanGu-Σ	2023年3月	1085	-	PanGu-Σ：以稀疏異構計算的萬億參數語言模型
GPT-4	2023年3月	-	-	GPT-4 技術報告
LLaMA	2023年2月	7, 13, 33, 65	LLaMA	LLaMA：開放高效率的基礎語言模型
ChatGPT	2022年11月	-	-	一個名為 ChatGPT 的模型，它以對話方式互動。對話格式使 ChatGPT 能夠回答後續問題、承認錯誤、挑戰錯誤的前提並拒絕不當的請求。
Galactica	2022年11月	0.125 - 120	Galactica	Galactica：一個大型科學語言模型
mT0	2022年11月	13	mT0-xxl	透過多任務微調實現跨語言泛化
BLOOM	2022年11月	176	BLOOM	BLOOM：176B 參數開放取用多語言模型
U-PaLM	2022年10月	540	-	以 0.1% 的額外計算超越縮放定律
UL2	2022年10月	20	UL2, Flan-UL2	UL2：統一語言學習範式
Sparrow	2022年9月	70	-	透過有針對性的人類判斷來改善對話代理的協調性
Flan-T5	2022年10月	11	Flan-T5-xxl	擴展指令微調語言模型
AlexaTM	2022年8月	20	-	AlexaTM 20B：使用大規模多語言 Seq2Seq 模式進行小樣本學習
GLM-130B	2022年10月	130	GLM-130B	GLM-130B：開放式雙語預訓練模型
OPT-IML	2022年12月	30, 175	OPT-IML	OPT-IML：透過泛化視角擴展語言模型指令元學習
OPT	2022年5月	175	OPT-13B, OPT-66B	OPT：開放預訓練的 Transformer 語言模型
PaLM	2022年4月	540	-	PaLM：利用路徑擴展語言建模
Tk-Instruct	2022年4月	11	Tk-Instruct-11B	超自然指令：透過聲明式指令在 1600 多個 NLP 任務上進行泛化
GPT-NeoX-20B	2022年4月	20	GPT-NeoX-20B	GPT-NeoX-20B：開源自迴歸語言模型
Chinchilla	2022年3月	70	-	表明對於計算預算而言，最佳性能不是由最大的模型實現的，而是由在更多數據上訓練的較小模型實現的。
InstructGPT	2022年3月	175	-	訓練語言模型遵循人類回饋的指令
CodeGen	2022年3月	0.350 - 16	CodeGen	CodeGen：一個用於多輪程式合成的開放大型程式碼語言模型
AlphaCode	2022年2月	41	-	使用 AlphaCode 產生競賽等級程式碼
MT-NLG	2022年1月	530	-	使用 DeepSpeed 和 Megatron 訓練 Megatron-Turing NLG 530B，大規模生成語言模型
LaMDA	2022年1月	137	-	LaMDA：對話應用的語言模型
GLaM	2021年12月	1200	-	GLaM：利用混合專家模型高效擴展語言模型
Gopher	2021年12月	280	-	擴展語言模型：來自 Training Gopher 的方法、分析和見解
WebGPT	2021年12月	175	-	WebGPT：透過瀏覽器輔助回答問題並提供手動回饋
Yuan 1.0	2021年10月	245	-	元 1.0：零樣本和少樣本學習中的大規模預訓練語言模型
T0	2021年10月	11	T0	多工提示訓練實現零樣本任務泛化
FLAN	2021年9月	137	-	微調語言模式是零樣本學習者
HyperCLOVA	2021年9月	82	-	大規模語言模式能帶來哪些改變？ HyperCLOVA 深度研究：數十億規模韓文生成式預訓練 Transformer
ERNIE 3.0 Titan	2021年7月	10	-	ERNIE 3.0 Titan：探索更大規模知識增強預訓練以實現語言理解和生成
Jurassic-1	2021年8月	178	-	侏羅紀-1：技術細節與評估
ERNIE 3.0	2021年7月	10	-	ERNIE 3.0：語言理解與產生的大規模知識增強預訓練
Codex	2021年7月	12	-	評估經過程式碼訓練的大型語言模型
GPT-J-6B	2021年6月	6	GPT-J-6B	在 The Pile 上訓練的 60 億參數自回歸文字產生模型。
CPM-2	2021年6月	198	CPM	CPM-2：大規模高性價比預訓練語言模型
PanGu-α	2021年4月	13	PanGu-α	PanGu-α：具有自動平行計算的大規模自回歸預訓練中文語言模型
mT5	2020年10月	13	mT5	mT5：一款大規模多語言預訓練文字到文字轉換器
BART	2020年7月	-	BART	用於自然語言生成、翻譯和理解的去噪序列到序列預訓練
GShard	2020年6月	600	-	GShard：透過條件計算和自動分片擴展巨型模型
GPT-3	2020年5月	175	-	語言模型是小樣本學習者
CTRL	2019年9月	1.63	CTRL	CTRL：用於可控生成的條件 Transformer 語言模型
ALBERT	2019年9月	0.235	ALBERT	用於語言表徵自監督學習的精簡版 BERT
XLNet	2019年6月	-	XLNet	用於語言理解和生成的廣義自回歸預訓練
T5	2019年10月	0.06 - 11	Flan-T5	使用統一文字到文字轉換器來探索遷移學習的局限性
GPT-2	2019年11月	1.5	GPT-2	語言模型是無監督的多任務學習者
RoBERTa	2019年7月	0.125 - 0.355	RoBERTa	一種穩健優化的 BERT 預訓練方法
BERT	2018年10月	-	BERT	Transformer 的雙向編碼器表示
GPT	2018年6月	-	GPT	透過生成式預訓練提升語言理解能力

數據取自Papers with Code和Zhao et al. (2023)的最新研究。

結語

本章節為讀者提供了一個全面的概覽，詳細列出了各個模型的發布日期、參數規模、可用的檢查點 (checkpoints) 資訊，以及簡要描述 。這些模型涵蓋了多種應用場景和技術特性，例如 Falcon LLM、Mistral-7B、CodeLlama、Llama-2、Claude-2、PaLM 2 等主流及具影響力的模型，幫助讀者了解當前的大型語言模型生態系統。需要注意的是，此章節目前仍在開發中。

References

LLM Collection

目錄：Models - 模型提示指南

上一篇：Models - Sora
下一篇：Risks & Misuses - 風險與誤用