Models - Phi-2 介紹

ben · 2025年07月31日07:07

Phi-2：Microsoft Research 的「教科書品質」小型語言模型

本篇概述了 Microsoft Research 發布的 Phi-2 ，這是一個 27 億參數的小型語言模型 (SLM)，旨在改進推理和語言理解能力。

模型演進與訓練洞察

Phi-1 (1.3B 參數)：訓練於「教科書品質」的網路數據和透過 GPT-3.5 生成的合成教科書和練習 (Gunasekar 等人，2023 年）。在 Python 程式碼生成任務上表現良好。

Phi-1.5：專注於常識推理和語言理解能力，效能可與參數規模大五倍的模型媲美。

Phi-2 (2.7B 參數)：改進了推理和語言理解能力，效能超越了規模大 25 倍的模型。

訓練數據：訓練於「教科書品質」數據（1.4 兆個 Token，經過多次訓練），其中包括用於教授模型常識推理和一般知識的合成數據集。

知識轉移：Phi-1.5 的知識轉移到 Phi-2，有助於模型收斂並提升多個基準測試的性能。

安全性：儘管未經 RLHF 等特殊對齊技術處理，但在毒性和偏見方面比經過對齊的開源 Llama2-7b 更安全，這歸因於數據策劃的努力。

MIT 許可證：Phi-2 現在擁有 MIT 許可證，允許在商業環境中使用。

效能表現

卓越基準性能：Phi-2 在各種基準測試中優於 Mistral 7B 和 Llama 2 (13B)。Phi-2 也優於 Google 的 Gemini Nano 2。

多步推理：在多步推理方面甚至優於 Llama-2-70B 模型。

問題解決能力：例如解決物理文字問題和識別學生計算中的錯誤。

提示格式

根據模型頁面Phi-2 可以使用QA格式、聊天格式和程式碼格式進行提示。下面我們示範如何在不同場景下有效地使用這些提示範本。

QA 格式：

Instruct: {{prompt}}
Output:

提示詞：

指令：什麼會造成下雨？
輸出：

模型輸出：

當大氣中的水蒸氣冷卻並凝結成水滴時，就會形成雲。當這些水滴聚集變重時，會因重力而降落到地面，這就是降雨的產生過程。這個過程是水循環的一部分。

聊天格式：標準的

Human: ...
AI: ...

格式。

提示詞：

Human：你好，請問你是誰？
AI：您好！我是 AI 研究助理。請問有什麼可以幫到您？
Human：極光是怎麼形成的？
AI：

模型輸出：

極光（又稱為北極光）是由太陽發出的帶電粒子與地球磁場互動產生的。當這些粒子與大氣中的氧氣和氮氣碰撞時，就會釋放出絢麗的光芒，形成壯觀的光帶。

程式碼格式：下面是一個程式碼產生提示模板，它向模型提供函數的名稱。

提示詞：

def is_even(n):\n

限制

程式碼和陳述不準確：該模型是在有限的 Python 程式碼範例上進行訓練的，因此可能生成不準確的程式碼和陳述。

指令遵循挑戰：由於未經指令微調，可能難以遵循指令。

語言限制：訓練主要使用標準英語，可能難以理解俚語或其他語言的指令。

潛在偏見與毒性：可能產生社會偏見和有毒內容。

冗長輸出：傾向於生成冗長的回應，有時甚至產生不相關的額外文本，這可能與其主要訓練數據是教科書有關。

圖片來源：微軟研究院

結語

Phi-2 是 Microsoft Research 在小型語言模型領域的重大成就，儘管參數規模較小 (2.7B)，但其透過「教科書品質」數據訓練，實現了超越許多大型模型的卓越推理和語言理解能力。其商業友好的 MIT 許可證也擴大了應用範圍。然而，由於未經指令微調，Phi-2 在遵循複雜指令、處理多語言和避免冗長輸出方面仍有其限制。

References

Phi-2

目錄：Models - 模型提示指南

上一篇：Models - OLMo
下一篇：Models - Sora