LLM Collection
本篇包括著名和基礎的大語言模型 (LLM) 的收集和摘要。
目錄
模型介紹
| 模型 | 發布日期 | 規模 (B) | 檢查點 | 描述 |
|---|---|---|---|---|
| Falcon LLM | 2023年9月 | 7, 40, 180 | Falcon-7B, Falcon-40B, Falcon-180B | Falcon LLM 是一個基礎大型語言模型 (LLM),擁有 1800 億個參數,基於 3.5 兆個詞法單元進行訓練。 TII 現已發布 Falcon LLM—一個 1800 億個模型。 |
| Mistral-7B-v0.1 | 2023年9月 | 7 | Mistral-7B-v0.1 | Mistral-7B-v0.1 是一個預先訓練的生成文字模型,擁有 70 億個參數。該模型基於 Transformer 架構,具有分組查詢注意力機制、位元組回退 BPE 分詞器和滑動視窗注意力機制等功能。 |
| CodeLlama | 2023年8月 | 7, 13, 34 | CodeLlama-7B, CodeLlama-13B, CodeLlama-34B | Code Llama 系列專為通用程式碼合成和理解而設計,並針對指令追蹤和更安全的部署進行了專門調整。這些模型具有自回歸功能,並使用最佳化的 Transformer 架構。它們適用於英語及相關程式語言的商業和研究用途。 |
| Llama-2 | 2023年7月 | 7, 13, 70 | Llama-2-7B, Llama-2-13B, Llama-2-70B | LLaMA-2 由 Meta AI 開發,於 2023 年 7 月發布,其模型參數分別為 70 億、130 億和 700 億。它保持了與 LLaMA-1 類似的架構,但使用的訓練資料量增加了 40%。 LLaMA-2 包含基礎模型和對話微調模型(稱為 LLaMA-2 Chat),可用於多種商業用途,但有一些限制。 |
| XGen-7B-8K | 2023年7月 | 7 | Llama-2-7B, Llama-2-13B, Llama-2-70B | Salesforce AI Research 開發的 XGen-7B-8K 是一個 7B 參數語言模型。 |
| Claude-2 | 2023年7月 | 130 | - | Claude 2 是由 Anthropic 建構的大語言模型 (LLM),旨在比其先前的版本更安全、更「可控」。它具有對話功能,可用於各種任務,例如客戶支援、問答等。它可以處理大量文本,非常適合需要處理大量資料的應用程序,例如文件、電子郵件、常見問題和聊天記錄。 |
| Tulu | 2023年6月 | 7, 13, 30, 65 | Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B | Tulu 是由艾倫人工智慧研究所開發的一系列模型。這些模型是 LLaMa 模型,已在多種指令資料集上進行了微調,包括 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT。它們旨在執行各種 NLP 任務中的複雜指令。 |
| ChatGLM2-6B | 2023年6月 | 6 | ChatGLM2-6B | ChatGLM2-6B 是開源雙語(中英)聊天模型 ChatGLM-6B 的第二代版本。它具有更強大的性能、更長的上下文支援能力、更有效率的推理能力,並擁有學術和商業用途的開放許可。此模型採用混合目標函數,並已使用 1.4T 雙語 token 進行訓練。與第一代車型相比,它在各種資料集上都展現出顯著的效能提升。 |
| Nous-Hermes-13B | 2023年6月 | 13 | Nous-Hermes-13B | Nous-Hermes-13B 是 Nous Research 根據超過 300,000 條指令進行微調的語言模型。 |
| Baize-v2 | 2023年5月 | 7, 13 | Baize-v2-13B | Baize-v2 是由 UCSD 和中山大學開發的開源聊天模型,使用 LoRA 進行微調,並使用監督微調 (SFT) 和帶有回饋的自蒸餾 (SDF) 進行訓練。 |
| RWKV-4-Raven | 2023年5月 | 1.5, 3, 7, 14 | RWKV-4-Raven | RWKV-4-Raven 是一系列模型。這些模型在 Alpaca、CodeAlpaca、Guanaco、GPT4All 和 ShareGPT 等各種資料集上進行了微調。它們的語言模型採用 100% RNN 架構。 |
| Guanaco | 2023年5月 | 7, 13, 33, 65 | Guanaco-7B, Guanaco-13B, Guanaco-33B Guanaco-65B | Guanaco 模型是開源聊天機器人,基於 OASST1 資料集,透過 LLaMA 基礎模型進行 4 位元 QLoRA 調優進行微調。它們旨在用於研究目的。這些模型允許以低成本在本地進行高品質的聊天機器人系統實驗。 |
| PaLM 2 | 2023年5月 | - | - | 一種語言模型,比其前身 PaLM 具有更好的多語言和推理能力,並且計算效率更高。 |
| Gorilla | 2023年5月 | 7 | Gorilla | Gorilla:與海量 API 連接的大型語言模型 |
| RedPajama-INCITE | 2023年5月 | 3, 7 | RedPajama-INCITE | 包括基礎模型、指令調整模型和聊天模型在內的一系列模型。. |
| LIMA | 2023年5月 | 65 | - | 一個 65B 參數的 LLaMa 語言模型,僅對 1,000 個精心策劃的提示和反應進行標準監督損失微調,無需任何強化學習或人類偏好建模。 |
| Replit Code | 2023年5月 | 3 | Replit Code | replit-code-v1-3b 模型是一個 2.7B LLM,使用 Stack Dedup v1.2 資料集中的 20 種語言進行訓練。 |
| h2oGPT | 2023年5月 | 7, 12, 20, 40 | h2oGPT | h2oGPT 是一個 LLM 微調框架和聊天機器人 UI,具有文件問答功能。 |
| CodeGen2 | 2023年5月 | 1, 3, 7, 16 | CodeGen2 | 程式合成的程式碼模型。 |
| CodeT5 and CodeT5+ | 2023年5月 | 16 | CodeT5 | Salesforce Research 的程式碼理解和產生的 CodeT5 和 CodeT5+ 模型。 |
| StarCoder | 2023年5月 | 15 | StarCoder | StarCoder:最先進的程式碼大語言模型(LLM) |
| MPT | 2023年5月 | 7, 30 | MPT-7B, MPT-30B | MosaicML 的 MPT 模型是開源的、商業許可的大型語言模型,提供針對各種 NLP 任務優化的可自訂 AI 解決方案。 |
| DLite | 2023年5月 | 0.124 - 1.5 | DLite-v2-1.5B | 輕量級指令遵循表現出類似 ChatGPT 交互性的模型。 |
| WizardLM | 2023年4月 | 70, 30, 13 | WizardLM-13B, WizardLM-30B, WizardLM-70B | WizardLM 是一系列大型語言模型,旨在遵循複雜的指令。這些模型在編碼、數學推理和開放域對話方面表現出色。這些模型對許可證友好,並採用 Vicuna 的提示格式進行多輪對話。這些模型由 WizardLM 團隊開發,適用於各種 NLP 任務。 |
| FastChat-T5-3B | 2023年4月 | 3 | FastChat-T5-3B | FastChat-T5 是一款開源聊天機器人,它基於從 ShareGPT 收集的用戶共享對話,透過對 Flan-t5-xl(3B 參數)進行微調進行訓練。它基於編碼器-解碼器 Transformer 架構,可以自回歸地產生對使用者輸入的回應。 |
| GPT4All-13B-Snoozy | 2023年4月 | 13 | GPT4All-13B-Snoozy | GPT4All-13B-Snoozy 是一款 GPL 許可的聊天機器人,基於海量精選的助手互動語料庫進行訓練,這些語料庫涵蓋了文字問題、多輪對話、程式碼、詩歌、歌曲和故事。它基於 LLama 13B 進行微調,由 Nomic AI 開發。此模型專為助手式互動資料而設計,主要使用英語。 |
| Koala-13B | 2023年4月 | 13 | Koala-13B | Koala-13B 是由柏克萊人工智慧研究中心 (BAIR) 開發的聊天機器人。它基於 Meta 的 LLaMA 進行微調,專注於從網路上抓取的對話資料。該模型旨在平衡性能和成本,為 ChatGPT 等模型提供更輕量級的開源替代方案。它已使用包含與 ChatGPT 等高效能閉源模型對話的互動資料進行訓練。 |
| OpenAssistant (Llama family) | 2023年4月 | 30, 70 | Llama2-30b-oasst, Llama2-70b-oasst | OpenAssistant-LLaMA 模型是 OpenAssistant 在 Llama 模型基礎上開發的語言模型。它支援使用 GGML 格式進行 CPU + GPU 推理,旨在為指令追蹤任務提供開源替代方案。 |
| Dolly | 2023年4月 | 3, 7, 12 | Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B | 遵循指令的大語言模型 (LLM),根據獲得研究和商業使用許可的人工生成的指令資料集進行微調。 |
| StableLM | 2023年4月 | 3, 7 | StableLM-Alpha-3B, StableLM-Alpha-7B | Stability AI 的 StableLM 系列語言模型 |
| Pythia | 2023年4月 | 0.070 - 12 | Pythia | 一套由 16 個 LLM 組成的套件,全部使用按照完全相同順序看到的公共資料進行訓練,大小從 70M 到 12B 參數不等。 |
| Open Assistant (Pythia Family) | 2023年3月 | 12 | Open Assistant | OpenAssistant 是一個基於聊天的助手,它可以理解任務,可以與第三方系統交互,並動態檢索資訊。 |
| Med-PaLM 2 | 2023年3月 | - | - | 利用大型語言模式實現專家級醫學問答 |
| ChatGLM-6B | 2023年3月 | 6 | ChatGLM-6B | ChatGLM-6B 是一個開源的中英雙語對話模型,基於通用語言模型 (GLM) 架構,擁有 62 億個參數。儘管其規模較小,導致了一些事實或數學邏輯問題,但由於其基於超過 1 兆個英語和中文詞條進行訓練,因此非常適合中文問答、摘要和會話任務。 |
| GPT-3.5-turbo | 2023年3月 | 175 | - | GPT-3.5-Turbo 是 OpenAI 的高階語言模型,專為聊天最佳化,但也適用於傳統的補全任務。與 GPT-3 相比,它在各方面都表現更佳,每個代幣的成本僅為後者的十分之一。 |
| Vicuna | 2023年3月 | 7, 13, 33 | Vicuna-7B, Vicuna-13B | Vicuna 是基於 Transformer 架構的自回歸語言模型系列。它基於 LLaMA 進行微調,主要用於大型語言模型和聊天機器人的研究。它由 LMSYS 開發,並擁有非商業許可證。 |
| Alpaca-13B | 2023年3月 | 13 | - | Alpaca 是一個基於 Meta 的 LLaMA 7B 進行微調的指令跟隨語言模型。它專為學術研究而設計,旨在解決虛假資訊和惡意資訊等問題。 Alpaca 已基於 52,000 個指令跟隨演示進行訓練,旨在成為更易於學術研究的選擇。出於許可和安全方面的考慮,它不適用於商業用途。 |
| Claude-1 | 2023年3月 | 137 | - | Claude 是 Anthropic 建構的大型語言模型 (LLM)。它旨在成為一個有用、誠實且無害的 AI 助理。它可以執行各種對話和文字處理任務,並可透過聊天介面和 API 存取。 |
| Cerebras-GPT | 2023年3月 | 0.111 - 13 | Cerebras-GPT | Cerebras-GPT:在 Cerebras 晶圓級集群上訓練的開放式運算最佳化語言模型 |
| BloombergGPT | 2023年3月 | 50 | - | BloombergGPT:金融領域的大型語言模型 |
| PanGu-Σ | 2023年3月 | 1085 | - | PanGu-Σ:以稀疏異構計算的萬億參數語言模型 |
| GPT-4 | 2023年3月 | - | - | GPT-4 技術報告 |
| LLaMA | 2023年2月 | 7, 13, 33, 65 | LLaMA | LLaMA:開放高效率的基礎語言模型 |
| ChatGPT | 2022年11月 | - | - | 一個名為 ChatGPT 的模型,它以對話方式互動。對話格式使 ChatGPT 能夠回答後續問題、承認錯誤、挑戰錯誤的前提並拒絕不當的請求。 |
| Galactica | 2022年11月 | 0.125 - 120 | Galactica | Galactica:一個大型科學語言模型 |
| mT0 | 2022年11月 | 13 | mT0-xxl | 透過多任務微調實現跨語言泛化 |
| BLOOM | 2022年11月 | 176 | BLOOM | BLOOM:176B 參數開放取用多語言模型 |
| U-PaLM | 2022年10月 | 540 | - | 以 0.1% 的額外計算超越縮放定律 |
| UL2 | 2022年10月 | 20 | UL2, Flan-UL2 | UL2:統一語言學習範式 |
| Sparrow | 2022年9月 | 70 | - | 透過有針對性的人類判斷來改善對話代理的協調性 |
| Flan-T5 | 2022年10月 | 11 | Flan-T5-xxl | 擴展指令微調語言模型 |
| AlexaTM | 2022年8月 | 20 | - | AlexaTM 20B:使用大規模多語言 Seq2Seq 模式進行小樣本學習 |
| GLM-130B | 2022年10月 | 130 | GLM-130B | GLM-130B:開放式雙語預訓練模型 |
| OPT-IML | 2022年12月 | 30, 175 | OPT-IML | OPT-IML:透過泛化視角擴展語言模型指令元學習 |
| OPT | 2022年5月 | 175 | OPT-13B, OPT-66B | OPT:開放預訓練的 Transformer 語言模型 |
| PaLM | 2022年4月 | 540 | - | PaLM:利用路徑擴展語言建模 |
| Tk-Instruct | 2022年4月 | 11 | Tk-Instruct-11B | 超自然指令:透過聲明式指令在 1600 多個 NLP 任務上進行泛化 |
| GPT-NeoX-20B | 2022年4月 | 20 | GPT-NeoX-20B | GPT-NeoX-20B:開源自迴歸語言模型 |
| Chinchilla | 2022年3月 | 70 | - | 表明對於計算預算而言,最佳性能不是由最大的模型實現的,而是由在更多數據上訓練的較小模型實現的。 |
| InstructGPT | 2022年3月 | 175 | - | 訓練語言模型遵循人類回饋的指令 |
| CodeGen | 2022年3月 | 0.350 - 16 | CodeGen | CodeGen:一個用於多輪程式合成的開放大型程式碼語言模型 |
| AlphaCode | 2022年2月 | 41 | - | 使用 AlphaCode 產生競賽等級程式碼 |
| MT-NLG | 2022年1月 | 530 | - | 使用 DeepSpeed 和 Megatron 訓練 Megatron-Turing NLG 530B,大規模生成語言模型 |
| LaMDA | 2022年1月 | 137 | - | LaMDA:對話應用的語言模型 |
| GLaM | 2021年12月 | 1200 | - | GLaM:利用混合專家模型高效擴展語言模型 |
| Gopher | 2021年12月 | 280 | - | 擴展語言模型:來自 Training Gopher 的方法、分析和見解 |
| WebGPT | 2021年12月 | 175 | - | WebGPT:透過瀏覽器輔助回答問題並提供手動回饋 |
| Yuan 1.0 | 2021年10月 | 245 | - | 元 1.0:零樣本和少樣本學習中的大規模預訓練語言模型 |
| T0 | 2021年10月 | 11 | T0 | 多工提示訓練實現零樣本任務泛化 |
| FLAN | 2021年9月 | 137 | - | 微調語言模式是零樣本學習者 |
| HyperCLOVA | 2021年9月 | 82 | - | 大規模語言模式能帶來哪些改變? HyperCLOVA 深度研究:數十億規模韓文生成式預訓練 Transformer |
| ERNIE 3.0 Titan | 2021年7月 | 10 | - | ERNIE 3.0 Titan:探索更大規模知識增強預訓練以實現語言理解和生成 |
| Jurassic-1 | 2021年8月 | 178 | - | 侏羅紀-1:技術細節與評估 |
| ERNIE 3.0 | 2021年7月 | 10 | - | ERNIE 3.0:語言理解與產生的大規模知識增強預訓練 |
| Codex | 2021年7月 | 12 | - | 評估經過程式碼訓練的大型語言模型 |
| GPT-J-6B | 2021年6月 | 6 | GPT-J-6B | 在 The Pile 上訓練的 60 億參數自回歸文字產生模型。 |
| CPM-2 | 2021年6月 | 198 | CPM | CPM-2:大規模高性價比預訓練語言模型 |
| PanGu-α | 2021年4月 | 13 | PanGu-α | PanGu-α:具有自動平行計算的大規模自回歸預訓練中文語言模型 |
| mT5 | 2020年10月 | 13 | mT5 | mT5:一款大規模多語言預訓練文字到文字轉換器 |
| BART | 2020年7月 | - | BART | 用於自然語言生成、翻譯和理解的去噪序列到序列預訓練 |
| GShard | 2020年6月 | 600 | - | GShard:透過條件計算和自動分片擴展巨型模型 |
| GPT-3 | 2020年5月 | 175 | - | 語言模型是小樣本學習者 |
| CTRL | 2019年9月 | 1.63 | CTRL | CTRL:用於可控生成的條件 Transformer 語言模型 |
| ALBERT | 2019年9月 | 0.235 | ALBERT | 用於語言表徵自監督學習的精簡版 BERT |
| XLNet | 2019年6月 | - | XLNet | 用於語言理解和生成的廣義自回歸預訓練 |
| T5 | 2019年10月 | 0.06 - 11 | Flan-T5 | 使用統一文字到文字轉換器來探索遷移學習的局限性 |
| GPT-2 | 2019年11月 | 1.5 | GPT-2 | 語言模型是無監督的多任務學習者 |
| RoBERTa | 2019年7月 | 0.125 - 0.355 | RoBERTa | 一種穩健優化的 BERT 預訓練方法 |
| BERT | 2018年10月 | - | BERT | Transformer 的雙向編碼器表示 |
| GPT | 2018年6月 | - | GPT | 透過生成式預訓練提升語言理解能力 |
數據取自Papers with Code和Zhao et al. (2023)的最新研究。
結語
本章節為讀者提供了一個全面的概覽,詳細列出了各個模型的發布日期、參數規模、可用的檢查點 (checkpoints) 資訊,以及簡要描述 。這些模型涵蓋了多種應用場景和技術特性,例如 Falcon LLM、Mistral-7B、CodeLlama、Llama-2、Claude-2、PaLM 2 等主流及具影響力的模型,幫助讀者了解當前的大型語言模型生態系統。需要注意的是,此章節目前仍在開發中。
References
上一篇:Models - Sora
下一篇:Risks & Misuses - 風險與誤用