Models - LLM Collection 介紹

LLM Collection

本篇包括著名和基礎的大語言模型 (LLM) 的收集和摘要。


目錄


模型介紹

模型 發布日期 規模 (B) 檢查點 描述
Falcon LLM 2023年9月 7, 40, 180 Falcon-7B, Falcon-40B, Falcon-180B Falcon LLM 是一個基礎大型語言模型 (LLM),擁有 1800 億個參數,基於 3.5 兆個詞法單元進行訓練。 TII 現已發布 Falcon LLM—一個 1800 億個模型。
Mistral-7B-v0.1 2023年9月 7 Mistral-7B-v0.1 Mistral-7B-v0.1 是一個預先訓練的生成文字模型,擁有 70 億個參數。該模型基於 Transformer 架構,具有分組查詢注意力機制、位元組回退 BPE 分詞器和滑動視窗注意力機制等功能。
CodeLlama 2023年8月 7, 13, 34 CodeLlama-7B, CodeLlama-13B, CodeLlama-34B Code Llama 系列專為通用程式碼合成和理解而設計,並針對指令追蹤和更安全的部署進行了專門調整。這些模型具有自回歸功能,並使用最佳化的 Transformer 架構。它們適用於英語及相關程式語言的商業和研究用途。
Llama-2 2023年7月 7, 13, 70 Llama-2-7B, Llama-2-13B, Llama-2-70B LLaMA-2 由 Meta AI 開發,於 2023 年 7 月發布,其模型參數分別為 70 億、130 億和 700 億。它保持了與 LLaMA-1 類似的架構,但使用的訓練資料量增加了 40%。 LLaMA-2 包含基礎模型和對話微調模型(稱為 LLaMA-2 Chat),可用於多種商業用途,但有一些限制。
XGen-7B-8K 2023年7月 7 Llama-2-7B, Llama-2-13B, Llama-2-70B Salesforce AI Research 開發的 XGen-7B-8K 是一個 7B 參數語言模型。
Claude-2 2023年7月 130 - Claude 2 是由 Anthropic 建構的大語言模型 (LLM),旨在比其先前的版本更安全、更「可控」。它具有對話功能,可用於各種任務,例如客戶支援、問答等。它可以處理大量文本,非常適合需要處理大量資料的應用程序,例如文件、電子郵件、常見問題和聊天記錄。
Tulu 2023年6月 7, 13, 30, 65 Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B Tulu 是由艾倫人工智慧研究所開發的一系列模型。這些模型是 LLaMa 模型,已在多種指令資料集上進行了微調,包括 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT。它們旨在執行各種 NLP 任務中的複雜指令。
ChatGLM2-6B 2023年6月 6 ChatGLM2-6B ChatGLM2-6B 是開源雙語(中英)聊天模型 ChatGLM-6B 的第二代版本。它具有更強大的性能、更長的上下文支援能力、更有效率的推理能力,並擁有學術和商業用途的開放許可。此模型採用混合目標函數,並已使用 1.4T 雙語 token 進行訓練。與第一代車型相比,它在各種資料集上都展現出顯著的效能提升。
Nous-Hermes-13B 2023年6月 13 Nous-Hermes-13B Nous-Hermes-13B 是 Nous Research 根據超過 300,000 條指令進行微調的語言模型。
Baize-v2 2023年5月 7, 13 Baize-v2-13B Baize-v2 是由 UCSD 和中山大學開發的開源聊天模型,使用 LoRA 進行微調,並使用監督微調 (SFT) 和帶有回饋的自蒸餾 (SDF) 進行訓練。
RWKV-4-Raven 2023年5月 1.5, 3, 7, 14 RWKV-4-Raven RWKV-4-Raven 是一系列模型。這些模型在 Alpaca、CodeAlpaca、Guanaco、GPT4All 和 ShareGPT 等各種資料集上進行了微調。它們的語言模型採用 100% RNN 架構。
Guanaco 2023年5月 7, 13, 33, 65 Guanaco-7B, Guanaco-13B, Guanaco-33B Guanaco-65B Guanaco 模型是開源聊天機器人,基於 OASST1 資料集,透過 LLaMA 基礎模型進行 4 位元 QLoRA 調優進行微調。它們旨在用於研究目的。這些模型允許以低成本在本地進行高品質的聊天機器人系統實驗。
PaLM 2 2023年5月 - - 一種語言模型,比其前身 PaLM 具有更好的多語言和推理能力,並且計算效率更高。
Gorilla 2023年5月 7 Gorilla Gorilla:與海量 API 連接的大型語言模型
RedPajama-INCITE 2023年5月 3, 7 RedPajama-INCITE 包括基礎模型、指令調整模型和聊天模型在內的一系列模型。.
LIMA 2023年5月 65 - 一個 65B 參數的 LLaMa 語言模型,僅對 1,000 個精心策劃的提示和反應進行標準監督損失微調,無需任何強化學習或人類偏好建模。
Replit Code 2023年5月 3 Replit Code replit-code-v1-3b 模型是一個 2.7B LLM,使用 Stack Dedup v1.2 資料集中的 20 種語言進行訓練。
h2oGPT 2023年5月 7, 12, 20, 40 h2oGPT h2oGPT 是一個 LLM 微調框架和聊天機器人 UI,具有文件問答功能。
CodeGen2 2023年5月 1, 3, 7, 16 CodeGen2 程式合成的程式碼模型。
CodeT5 and CodeT5+ 2023年5月 16 CodeT5 Salesforce Research 的程式碼理解和產生的 CodeT5 和 CodeT5+ 模型。
StarCoder 2023年5月 15 StarCoder StarCoder:最先進的程式碼大語言模型(LLM)
MPT 2023年5月 7, 30 MPT-7B, MPT-30B MosaicML 的 MPT 模型是開源的、商業許可的大型語言模型,提供針對各種 NLP 任務優化的可自訂 AI 解決方案。
DLite 2023年5月 0.124 - 1.5 DLite-v2-1.5B 輕量級指令遵循表現出類似 ChatGPT 交互性的模型。
WizardLM 2023年4月 70, 30, 13 WizardLM-13B, WizardLM-30B, WizardLM-70B WizardLM 是一系列大型語言模型,旨在遵循複雜的指令。這些模型在編碼、數學推理和開放域對話方面表現出色。這些模型對許可證友好,並採用 Vicuna 的提示格式進行多輪對話。這些模型由 WizardLM 團隊開發,適用於各種 NLP 任務。
FastChat-T5-3B 2023年4月 3 FastChat-T5-3B FastChat-T5 是一款開源聊天機器人,它基於從 ShareGPT 收集的用戶共享對話,透過對 Flan-t5-xl(3B 參數)進行微調進行訓練。它基於編碼器-解碼器 Transformer 架構,可以自回歸地產生對使用者輸入的回應。
GPT4All-13B-Snoozy 2023年4月 13 GPT4All-13B-Snoozy GPT4All-13B-Snoozy 是一款 GPL 許可的聊天機器人,基於海量精選的助手互動語料庫進行訓練,這些語料庫涵蓋了文字問題、多輪對話、程式碼、詩歌、歌曲和故事。它基於 LLama 13B 進行微調,由 Nomic AI 開發。此模型專為助手式互動資料而設計,主要使用英語。
Koala-13B 2023年4月 13 Koala-13B Koala-13B 是由柏克萊人工智慧研究中心 (BAIR) 開發的聊天機器人。它基於 Meta 的 LLaMA 進行微調,專注於從網路上抓取的對話資料。該模型旨在平衡性能和成本,為 ChatGPT 等模型提供更輕量級的開源替代方案。它已使用包含與 ChatGPT 等高效能閉源模型對話的互動資料進行訓練。
OpenAssistant (Llama family) 2023年4月 30, 70 Llama2-30b-oasst, Llama2-70b-oasst OpenAssistant-LLaMA 模型是 OpenAssistant 在 Llama 模型基礎上開發的語言模型。它支援使用 GGML 格式進行 CPU + GPU 推理,旨在為指令追蹤任務提供開源替代方案。​
Dolly 2023年4月 3, 7, 12 Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B 遵循指令的大語言模型 (LLM),根據獲得研究和商業使用許可的人工生成的指令資料集進行微調。
StableLM 2023年4月 3, 7 StableLM-Alpha-3B, StableLM-Alpha-7B Stability AI 的 StableLM 系列語言模型
Pythia 2023年4月 0.070 - 12 Pythia 一套由 16 個 LLM 組成的套件,全部使用按照完全相同順序看到的公共資料進行訓練,大小從 70M 到 12B 參數不等。
Open Assistant (Pythia Family) 2023年3月 12 Open Assistant OpenAssistant 是一個基於聊天的助手,它可以理解任務,可以與第三方系統交互,並動態檢索資訊。
Med-PaLM 2 2023年3月 - - 利用大型語言模式實現專家級醫學問答
ChatGLM-6B 2023年3月 6 ChatGLM-6B ChatGLM-6B 是一個開源的中英雙語對話模型,基於通用語言模型 (GLM) 架構,擁有 62 億個參數。儘管其規模較小,導致了一些事實或數學邏輯問題,但由於其基於超過 1 兆個英語和中文詞條進行訓練,因此非常適合中文問答、摘要和會話任務。
GPT-3.5-turbo 2023年3月 175 - GPT-3.5-Turbo 是 OpenAI 的高階語言模型,專為聊天最佳化,但也適用於傳統的補全任務。與 GPT-3 相比,它在各方面都表現更佳,每個代幣的成本僅為後者的十分之一。
Vicuna 2023年3月 7, 13, 33 Vicuna-7B, Vicuna-13B Vicuna 是基於 Transformer 架構的自回歸語言模型系列。它基於 LLaMA 進行微調,主要用於大型語言模型和聊天機器人的研究。它由 LMSYS 開發,並擁有非商業許可證。
Alpaca-13B 2023年3月 13 - Alpaca 是一個基於 Meta 的 LLaMA 7B 進行微調的指令跟隨語言模型。它專為學術研究而設計,旨在解決虛假資訊和惡意資訊等問題。 Alpaca 已基於 52,000 個指令跟隨演示進行訓練,旨在成為更易於學術研究的選擇。出於許可和安全方面的考慮,它不適用於商業用途。
Claude-1 2023年3月 137 - Claude 是 Anthropic 建構的大型語言模型 (LLM)。它旨在成為一個有用、誠實且無害的 AI 助理。它可以執行各種對話和文字處理任務,並可透過聊天介面和 API 存取。
Cerebras-GPT 2023年3月 0.111 - 13 Cerebras-GPT Cerebras-GPT:在 Cerebras 晶圓級集群上訓練的開放式運算最佳化語言模型
BloombergGPT 2023年3月 50 - BloombergGPT:金融領域的大型語言模型
PanGu-Σ 2023年3月 1085 - PanGu-Σ:以稀疏異構計算的萬億參數語言模型
GPT-4 2023年3月 - - GPT-4 技術報告
LLaMA 2023年2月 7, 13, 33, 65 LLaMA LLaMA:開放高效率的基礎語言模型
ChatGPT 2022年11月 - - 一個名為 ChatGPT 的模型,它以對話方式互動。對話格式使 ChatGPT 能夠回答後續問題、承認錯誤、挑戰錯誤的前提並拒絕不當的請求。
Galactica 2022年11月 0.125 - 120 Galactica Galactica:一個大型科學語言模型
mT0 2022年11月 13 mT0-xxl 透過多任務微調實現跨語言泛化
BLOOM 2022年11月 176 BLOOM BLOOM:176B 參數開放取用多語言模型
U-PaLM 2022年10月 540 - 以 0.1% 的額外計算超越縮放定律
UL2 2022年10月 20 UL2, Flan-UL2 UL2:統一語言學習範式
Sparrow 2022年9月 70 - 透過有針對性的人類判斷來改善對話代理的協調性
Flan-T5 2022年10月 11 Flan-T5-xxl 擴展指令微調語言模型
AlexaTM 2022年8月 20 - AlexaTM 20B:使用大規模多語言 Seq2Seq 模式進行小樣本學習
GLM-130B 2022年10月 130 GLM-130B GLM-130B:開放式雙語預訓練模型
OPT-IML 2022年12月 30, 175 OPT-IML OPT-IML:透過泛化視角擴展語言模型指令元學習
OPT 2022年5月 175 OPT-13B, OPT-66B OPT:開放預訓練的 Transformer 語言模型
PaLM 2022年4月 540 - PaLM:利用路徑擴展語言建模
Tk-Instruct 2022年4月 11 Tk-Instruct-11B 超自然指令:透過聲明式指令在 1600 多個 NLP 任務上進行泛化
GPT-NeoX-20B 2022年4月 20 GPT-NeoX-20B GPT-NeoX-20B:開源自迴歸語言模型
Chinchilla 2022年3月 70 - 表明對於計算預算而言,最佳性能不是由最大的模型實現的,而是由在更多數據上訓練的較小模型實現的。
InstructGPT 2022年3月 175 - 訓練語言模型遵循人類回饋的指令
CodeGen 2022年3月 0.350 - 16 CodeGen CodeGen:一個用於多輪程式合成的開放大型程式碼語言模型
AlphaCode 2022年2月 41 - 使用 AlphaCode 產生競賽等級程式碼
MT-NLG 2022年1月 530 - 使用 DeepSpeed 和 Megatron 訓練 Megatron-Turing NLG 530B,大規模生成語言模型
LaMDA 2022年1月 137 - LaMDA:對話應用的語言模型
GLaM 2021年12月 1200 - GLaM:利用混合專家模型高效擴展語言模型
Gopher 2021年12月 280 - 擴展語言模型:來自 Training Gopher 的方法、分析和見解
WebGPT 2021年12月 175 - WebGPT:透過瀏覽器輔助回答問題並提供手動回饋
Yuan 1.0 2021年10月 245 - 元 1.0:零樣本和少樣本學習中的大規模預訓練語言模型
T0 2021年10月 11 T0 多工提示訓練實現零樣本任務泛化
FLAN 2021年9月 137 - 微調語言模式是零樣本學習者
HyperCLOVA 2021年9月 82 - 大規模語言模式能帶來哪些改變? HyperCLOVA 深度研究:數十億規模韓文生成式預訓練 Transformer
ERNIE 3.0 Titan 2021年7月 10 - ERNIE 3.0 Titan:探索更大規模知識增強預訓練以實現語言理解和生成
Jurassic-1 2021年8月 178 - 侏羅紀-1:技術細節與評估
ERNIE 3.0 2021年7月 10 - ERNIE 3.0:語言理解與產生的大規模知識增強預訓練
Codex 2021年7月 12 - 評估經過程式碼訓練的大型語言模型
GPT-J-6B 2021年6月 6 GPT-J-6B 在 The Pile 上訓練的 60 億參數自回歸文字產生模型。
CPM-2 2021年6月 198 CPM CPM-2:大規模高性價比預訓練語言模型
PanGu-α 2021年4月 13 PanGu-α PanGu-α:具有自動平行計算的大規模自回歸預訓練中文語言模型
mT5 2020年10月 13 mT5 mT5:一款大規模多語言預訓練文字到文字轉換器
BART 2020年7月 - BART 用於自然語言生成、翻譯和理解的去噪序列到序列預訓練
GShard 2020年6月 600 - GShard:透過條件計算和自動分片擴展巨型模型
GPT-3 2020年5月 175 - 語言模型是小樣本學習者
CTRL 2019年9月 1.63 CTRL CTRL:用於可控生成的條件 Transformer 語言模型
ALBERT 2019年9月 0.235 ALBERT 用於語言表徵自監督學習的精簡版 BERT
XLNet 2019年6月 - XLNet 用於語言理解和生成的廣義自回歸預訓練
T5 2019年10月 0.06 - 11 Flan-T5 使用統一文字到文字轉換器來探索遷移學習的局限性
GPT-2 2019年11月 1.5 GPT-2 語言模型是無監督的多任務學習者
RoBERTa 2019年7月 0.125 - 0.355 RoBERTa 一種穩健優化的 BERT 預訓練方法
BERT 2018年10月 - BERT Transformer 的雙向編碼器表示
GPT 2018年6月 - GPT 透過生成式預訓練提升語言理解能力

數據取自Papers with CodeZhao et al. (2023)的最新研究。


結語

本章節為讀者提供了一個全面的概覽,詳細列出了各個模型的發布日期、參數規模、可用的檢查點 (checkpoints) 資訊,以及簡要描述 。這些模型涵蓋了多種應用場景和技術特性,例如 Falcon LLM、Mistral-7B、CodeLlama、Llama-2、Claude-2、PaLM 2 等主流及具影響力的模型,幫助讀者了解當前的大型語言模型生態系統。需要注意的是,此章節目前仍在開發中。


References

LLM Collection


目錄:Models - 模型提示指南

上一篇:Models - Sora
下一篇:Risks & Misuses - 風險與誤用