Models - OLMo 介紹

OLMo:艾倫人工智慧研究院的開放語言模型與框架

艾倫人工智慧研究院 (Allen Institute of AI) 發布了新的開放語言模型和框架 OLMo。這項工作旨在全面開放數據、訓練程式碼、模型和評估程式碼,以加速對語言模型的共同研究。
Mixtral 8x22B 模型已獲得 Apache 2.0 許可。


目錄


核心發布與架構

模型變體:首次發布包括四個 7B 參數規模的模型和一個 1B 參數規模的模型,均在至少 2T 個 Token 上進行訓練。未來還將發布一個 65B 的 OLMo 模型。

全面開放:發布內容包含完整的訓練數據(及其生成程式碼)、完整的模型權重、訓練程式碼、日誌、指標、推理程式碼和評估程式碼

**許可證 **:所有程式碼、權重和中間檢查點均在 Apache 2.0 許可證發布

模型架構:OLMo-7B 和 OLMo-1B 模型均採用「僅解碼器 (decoder-only)」Transformer 架構,並借鑒了 PaLM 和 Llama 等模型的改進,包括無偏差、非參數層歸一化、SwiGLU 活化函數和旋轉位置嵌入 (RoPE)。

Dolma 數據集:此版本還包括發布名為Dolma 的預訓練數據集,這是一個多樣化、多來源的語料庫,包含來自 7 個不同數據源的 3 萬億個 Token。


效能表現

基準評估:OLMo 模型在下游任務上使用Catwalk 進行評估,並與 Falcon 和 Llama 2 等其他公開可用模型進行比較。

常識推理:OLMo-7B 在衡量模型常識推理能力的任務集(如 piqa 和 hellaswag)中表現出色,在 2 個終端任務上超越了所有其他模型,並在 8/9 個終端任務中保持前三名


結語

OLMo 專案的推出標誌著艾倫人工智慧研究院對開放科學的堅定承諾,它透過全面共享語言模型開發的每個環節,旨在促進社群的協同研究和進步。OLMo-7B 在常識推理任務中的出色表現,以及其獨特的 Dolma 數據集,為未來的語言模型研究提供了寶貴的透明度和可重現性基礎


References

OLMo


目錄:Models - 模型提示指南

上一篇:Models - Mixtral 8x22B
下一篇:Models - Phi-2