Grok-1:xAI 的大型混合專家模型
本篇旨在介紹 Grok-1,這是一個由 xAI 訓練的 314B 參數專家混合 (MoE) 大型語言模型 (LLM) ,並開放了其基礎模型權重和網路架構。
目錄
架構與訓練
模型類型:屬於 MoE 模型,在推理時,對於給定的每個 Token,只會啟動 25% 的權重。
數據截止點:Grok-1 的預訓練數據截止日期為 2023 年 10 月。
模型性質:Grok-1 是預訓練階段的原始基礎模型檢查點,這意味著它尚未針對對話式代理等特定應用進行微調。
許可證:Grok-1 在 Apache 2.0 許可證下發布。
效能表現
推理與程式碼:Grok-1 在推理和程式碼任務中展現出強大能力。
基準測試結果:
-
在 HumanEval 程式碼任務中獲得 63.2%。
-
在 MMLU 中獲得 73%。
-
整體上優於 ChatGPT-3.5 和 Inflection-1,但仍落後於 GPT-4 等改進型模型。
數學表現:在匈牙利國家高中數學期末考試中,Grok-1 獲得 C (59%),而 GPT-4 獲得 B (68%)。
在此處查看模型:GitHub - xai-org/grok-1: Grok open release
使用考量
由於 Grok-1 的規模龐大(314B 參數),xAI 建議使用多 GPU 機器來測試此模型。
結語
Grok-1 是 xAI 推出的一款開放式、大規模的專家混合模型,具有 314B 參數,並將其基礎模型權重和架構開源。儘管它在推理和程式碼任務中展現出強大能力,但作為一個尚未微調的基底模型,其綜合表現仍略遜於頂尖的 GPT-4。Grok-1 的發布為開放研究提供了寶貴資源,但其龐大的體積也對部署和測試提出了較高的硬體要求。
References
上一篇:Models - GPT-4
下一篇:Models - LLaMA

