Models - Llama 3 介紹

ben · 2025年07月31日07:07

Llama 3：Meta 的新一代開源大型語言模型

本篇旨在介紹 Meta 最新發布的 Llama 3 大型語言模型系列 ，包括 8B 和 70B 參數的預訓練及指令微調模型。

架構與訓練細節

核心架構：採用標準的「僅解碼器 (decoder-only)」Transformer 架構。

詞彙量與序列長度：詞彙量為 128K 個 Token，並在 8K Token 的序列上進行訓練。

注意力機制：應用了「分組查詢注意力 (Grouped Query Attention, GQA)」。

訓練規模：在超過 15T 個 Token 的數據上進行預訓練。

後訓練：包括監督式微調 (SFT)、拒絕採樣 (rejection sampling)、近端策略優化 (PPO) 和直接偏好優化 (DPO) 的組合。

效能表現

超越同級模型：

Llama 3 8B（指令微調版）的性能優於 Gemma 7B 和 Mistral 7B Instruct。
Llama 3 70B 廣泛優於 Gemini Pro 1.5 和 Claude 3 Sonnet。
在 MATH 基準測試中，Llama 3 70B 略微落後於 Gemini Pro 1.5。

image692×405 44 KB

來源：Meta AI

預訓練模型：在 AGIEval（英語）、MMLU 和 Big-Bench Hard 等多個基準測試中優於其他模型。

來源：Meta AI

未來展望

Llama 3 400B：Meta 報告稱將發布一個 400B 參數的模型，該模型仍在訓練中。

來源：Meta AI

多模態與多語言支援：未來計畫還包括多模態支援、多語言能力和更長的上下文窗口。

許可證：Llama 3 模型的許可資訊可以在模型卡上找到。

Llama 3 的詳細評測

結語

Llama 3 系列代表了 Meta 在開放語言模型領域的最新進展，在不同規模下均展現出強勁的競爭力。特別是 Llama 3 70B 在多項基準測試中超越了其他領先模型。憑藉其高效的 Transformer 架構和大規模的預訓練數據，Llama 3 為開源 AI 社群提供了高性能且靈活的基礎模型。未來對多模態和多語言支援的投入，預示著 Llama 3 將在更廣泛的應用中發揮重要作用。

References

Llama 3

目錄：Models - 模型提示指南

上一篇：Models - LLaMA
下一篇：Models - Mistral 7B