Models - OLMo 介紹

ben · 2025年07月31日07:07

OLMo：艾倫人工智慧研究院的開放語言模型與框架

艾倫人工智慧研究院 (Allen Institute of AI) 發布了新的開放語言模型和框架 OLMo。這項工作旨在全面開放數據、訓練程式碼、模型和評估程式碼，以加速對語言模型的共同研究。
Mixtral 8x22B 模型已獲得 Apache 2.0 許可。

模型變體：首次發布包括四個 7B 參數規模的模型和一個 1B 參數規模的模型，均在至少 2T 個 Token 上進行訓練。未來還將發布一個 65B 的 OLMo 模型。

全面開放：發布內容包含完整的訓練數據（及其生成程式碼）、完整的模型權重、訓練程式碼、日誌、指標、推理程式碼和評估程式碼。

**許可證 **：所有程式碼、權重和中間檢查點均在 Apache 2.0 許可證發布。

模型架構：OLMo-7B 和 OLMo-1B 模型均採用「僅解碼器 (decoder-only)」Transformer 架構，並借鑒了 PaLM 和 Llama 等模型的改進，包括無偏差、非參數層歸一化、SwiGLU 活化函數和旋轉位置嵌入 (RoPE)。

Dolma 數據集：此版本還包括發布名為Dolma 的預訓練數據集，這是一個多樣化、多來源的語料庫，包含來自 7 個不同數據源的 3 萬億個 Token。

基準評估：OLMo 模型在下游任務上使用Catwalk 進行評估，並與 Falcon 和 Llama 2 等其他公開可用模型進行比較。

常識推理：OLMo-7B 在衡量模型常識推理能力的任務集（如 piqa 和 hellaswag）中表現出色，在 2 個終端任務上超越了所有其他模型，並在 8/9 個終端任務中保持前三名。

OLMo 專案的推出標誌著艾倫人工智慧研究院對開放科學的堅定承諾，它透過全面共享語言模型開發的每個環節，旨在促進社群的協同研究和進步。OLMo-7B 在常識推理任務中的出色表現，以及其獨特的 Dolma 數據集，為未來的語言模型研究提供了寶貴的透明度和可重現性基礎。