Models - Mixtral 8x22B 介紹

Mixtral 8x22B:Mistral AI 的高效能開放專家混合模型

本篇旨在介紹 Mistral AI 新發布的 Mixtral 8x22B ,這是一個新的開放式大型語言模型 (LLM),其特點是作為一個稀疏專家混合模型 (SMoE),總共有 141B 參數,但在推斷時僅激活 39B 參數。
Mixtral 8x22B 模型已獲得 Apache 2.0 許可。


目錄


核心能力與效率

成本效益:Mixtral 8x22B被設計為一款高成本效益的模型。

多語言理解:具備多語言理解能力。

強大推理:在數學推理和程式碼生成方面表現出色。

原生函數調用:支援原生函數調用和受限輸出。

長上下文窗口:支援 64K 個 Token 的上下文窗口,實現大型文件上的高效資訊召回。

性能/成本比:Mistral AI 聲稱 Mixtral 8x22B 提供社群模型中最佳的性能成本比,並且由於其稀疏活化機制而顯著快速。


來源:Mistral AI Blog

基準測試結果

  • 根據官方報告的結果,Mixtral 8x22B(具有 39B 活動參數)在 MMLU、HellaS、TriQA、NaturalQA 等推理和知識基準測試中,優於 Command R+ 和 Llama 2 70B 等最先進的開源模型


    來源:Mistral AI Blog

  • 在 GSM8K、HumanEval 和 Math 等程式碼和數學任務中,優於所有開源模型

  • Mixtral 8x22B Instruct 在 GSM8K (maj@8) 上達到 90% 的分數。


    來源:Mistral AI Blog


結語

Mixtral 8x22B 憑藉其獨特的稀疏專家混合架構,在實現高性能的同時,大幅提高了運算效率和成本效益。它在多語言理解、數學推理、程式碼生成和長上下文資訊召回方面展現出卓越的能力,超越了許多現有的開源模型。這使得 Mixtral 8x22B 成為需要高效能且資源友好的多功能語言模型的開發者和研究人員的理想選擇。


References

Mixtral 8x22B


目錄:Models - 模型提示指南

上一篇:Models - Mixtral
下一篇:Models - OLMo