Models - Llama 3 介紹

Llama 3:Meta 的新一代開源大型語言模型

本篇旨在介紹 Meta 最新發布Llama 3 大型語言模型系列 ,包括 8B 和 70B 參數的預訓練及指令微調模型。


目錄


架構與訓練細節

核心架構:採用標準的「僅解碼器 (decoder-only)」Transformer 架構。

詞彙量與序列長度:詞彙量為 128K 個 Token,並在 8K Token 的序列上進行訓練。

注意力機制:應用了「分組查詢注意力 (Grouped Query Attention, GQA)」。

訓練規模:在超過 15T 個 Token 的數據上進行預訓練。

後訓練:包括監督式微調 (SFT)、拒絕採樣 (rejection sampling)、近端策略優化 (PPO) 和直接偏好優化 (DPO) 的組合。


效能表現

超越同級模型

  • Llama 3 8B(指令微調版)的性能優於 Gemma 7B 和 Mistral 7B Instruct。

  • Llama 3 70B 廣泛優於 Gemini Pro 1.5 和 Claude 3 Sonnet。

  • 在 MATH 基準測試中,Llama 3 70B 略微落後於 Gemini Pro 1.5。


    來源:Meta AI

預訓練模型:在 AGIEval(英語)、MMLU 和 Big-Bench Hard 等多個基準測試中優於其他模型。


來源:Meta AI


未來展望

Llama 3 400B:Meta 報告稱將發布一個 400B 參數的模型,該模型仍在訓練中。


來源:Meta AI

多模態與多語言支援:未來計畫還包括多模態支援、多語言能力和更長的上下文窗口。

許可證Llama 3 模型的許可資訊可以在模型卡上找到。


Llama 3 的詳細評測


結語

Llama 3 系列代表了 Meta 在開放語言模型領域的最新進展,在不同規模下均展現出強勁的競爭力。特別是 Llama 3 70B 在多項基準測試中超越了其他領先模型。憑藉其高效的 Transformer 架構和大規模的預訓練數據,Llama 3 為開源 AI 社群提供了高性能且靈活的基礎模型。未來對多模態和多語言支援的投入,預示著 Llama 3 將在更廣泛的應用中發揮重要作用。


References

Llama 3


目錄:Models - 模型提示指南

上一篇:Models - LLaMA
下一篇:Models - Mistral 7B