Models - Grok-1 介紹

ben · 2025年07月31日07:07

Grok-1：xAI 的大型混合專家模型

本篇旨在介紹 Grok-1，這是一個由 xAI 訓練的 314B 參數專家混合 (MoE) 大型語言模型 (LLM) ，並開放了其基礎模型權重和網路架構。

架構與訓練

模型類型：屬於 MoE 模型，在推理時，對於給定的每個 Token，只會啟動 25% 的權重。

數據截止點：Grok-1 的預訓練數據截止日期為 2023 年 10 月。

模型性質：Grok-1 是預訓練階段的原始基礎模型檢查點，這意味著它尚未針對對話式代理等特定應用進行微調。

許可證：Grok-1 在 Apache 2.0 許可證下發布。

效能表現

推理與程式碼：Grok-1 在推理和程式碼任務中展現出強大能力。

基準測試結果：

在 HumanEval 程式碼任務中獲得 63.2%。
在 MMLU 中獲得 73%。
整體上優於 ChatGPT-3.5 和 Inflection-1，但仍落後於 GPT-4 等改進型模型。

image692×286 40.6 KB

數學表現：在匈牙利國家高中數學期末考試中，Grok-1 獲得 C (59%)，而 GPT-4 獲得 B (68%)。

在此處查看模型：GitHub - xai-org/grok-1: Grok open release

使用考量

由於 Grok-1 的規模龐大（314B 參數），xAI 建議使用多 GPU 機器來測試此模型。

結語

Grok-1 是 xAI 推出的一款開放式、大規模的專家混合模型，具有 314B 參數，並將其基礎模型權重和架構開源。儘管它在推理和程式碼任務中展現出強大能力，但作為一個尚未微調的基底模型，其綜合表現仍略遜於頂尖的 GPT-4。Grok-1 的發布為開放研究提供了寶貴資源，但其龐大的體積也對部署和測試提出了較高的硬體要求。

References

Grok-1

目錄：Models - 模型提示指南

上一篇：Models - GPT-4
下一篇：Models - LLaMA