Models - Phi-2 介紹

Phi-2:Microsoft Research 的「教科書品質」小型語言模型

本篇概述了 Microsoft Research 發布的 Phi-2 ,這是一個 27 億參數的小型語言模型 (SLM),旨在改進推理和語言理解能力。


目錄


模型演進與訓練洞察

Phi-1 (1.3B 參數):訓練於「教科書品質」的網路數據和透過 GPT-3.5 生成的合成教科書和練習 (Gunasekar 等人,2023 年)。在 Python 程式碼生成任務上表現良好。

Phi-1.5:專注於常識推理和語言理解能力,效能可與參數規模大五倍的模型媲美

Phi-2 (2.7B 參數):改進了推理和語言理解能力,效能超越了規模大 25 倍的模型

訓練數據:訓練於「教科書品質」數據(1.4 兆個 Token,經過多次訓練),其中包括用於教授模型常識推理和一般知識的合成數據集。

知識轉移:Phi-1.5 的知識轉移到 Phi-2,有助於模型收斂並提升多個基準測試的性能。

安全性:儘管未經 RLHF 等特殊對齊技術處理,但在毒性和偏見方面比經過對齊的開源 Llama2-7b 更安全,這歸因於數據策劃的努力。

MIT 許可證:Phi-2 現在擁有 MIT 許可證,允許在商業環境中使用。


效能表現

卓越基準性能:Phi-2 在各種基準測試中優於 Mistral 7B 和 Llama 2 (13B)。Phi-2 也優於 Google 的 Gemini Nano 2


多步推理:在多步推理方面甚至優於 Llama-2-70B 模型

問題解決能力:例如解決物理文字問題和識別學生計算中的錯誤。



提示格式

根據模型頁面Phi-2 可以使用QA格式、聊天格式和程式碼格式進行提示。下面我們示範如何在不同場景下有效地使用這些提示範本。

QA 格式

Instruct: {{prompt}}
Output:

提示詞:

指令:什麼會造成下雨?
輸出:

模型輸出:

當大氣中的水蒸氣冷卻並凝結成水滴時,就會形成雲。當這些水滴聚集變重時,會因重力而降落到地面,這就是降雨的產生過程。這個過程是水循環的一部分。

聊天格式:標準的

Human: ...
AI: ...

格式。

提示詞:

Human:你好,請問你是誰?
AI:您好!我是 AI 研究助理。請問有什麼可以幫到您?
Human:極光是怎麼形成的?
AI:

模型輸出:

極光(又稱為北極光)是由太陽發出的帶電粒子與地球磁場互動產生的。當這些粒子與大氣中的氧氣和氮氣碰撞時,就會釋放出絢麗的光芒,形成壯觀的光帶。

程式碼格式:下面是一個程式碼產生提示模板,它向模型提供函數的名稱。

提示詞:

def is_even(n):\n

限制

程式碼和陳述不準確:該模型是在有限的 Python 程式碼範例上進行訓練的,因此可能生成不準確的程式碼和陳述。

指令遵循挑戰:由於未經指令微調,可能難以遵循指令。

語言限制:訓練主要使用標準英語,可能難以理解俚語或其他語言的指令。

潛在偏見與毒性:可能產生社會偏見和有毒內容。

冗長輸出:傾向於生成冗長的回應,有時甚至產生不相關的額外文本,這可能與其主要訓練數據是教科書有關。

圖片來源:微軟研究院


結語

Phi-2 是 Microsoft Research 在小型語言模型領域的重大成就,儘管參數規模較小 (2.7B),但其透過「教科書品質」數據訓練,實現了超越許多大型模型的卓越推理和語言理解能力。其商業友好的 MIT 許可證也擴大了應用範圍。然而,由於未經指令微調,Phi-2 在遵循複雜指令、處理多語言和避免冗長輸出方面仍有其限制。


References

Phi-2


目錄:Models - 模型提示指南

上一篇:Models - OLMo
下一篇:Models - Sora