Flan:擴展指令微調語言模型的力量
本篇旨在介紹 指令微調 (instruction finetuning) 對各種模型(如 PaLM, T5)、提示設置(如零樣本、少樣本、思維鏈)和基準測試(如 MMLU, TyDiQA)性能提升的益處。
目錄
介紹
本文探討了擴展指令微調(instruction finetuning 的好處,以及它如何改進各種模型(如 PaLM、T5)、提示設定(零樣本、少量樣本、思維鏈)和基準測試(如 MMLU、TyDiQA)的性能。
微調程序:
使用 1.8K 個任務以指令形式對模型進行微調,包括使用或不使用示例,以及使用或不使用思維鏈 (CoT) 數據。
主要能力和關鍵結果
規模化效益:指令微調的性能會隨著任務數量和模型大小的擴展而良好提升,這表明進一步擴展任務數量和模型規模仍有益處,儘管擴展任務數量的回報會遞減。
圖片來源:擴展指令微調語言模型
思維鏈 (CoT) 的推理強化:將 CoT 數據集納入微調中,能夠在推理任務上實現良好性能。同時對非 CoT 和 CoT 數據進行微調,相較於單獨微調,能同時改善兩者的性能。
圖片來源:擴展指令微調語言模型
綜合策略優勢:自我一致性 (Self-consistency) 與 CoT 的結合在多個基準測試中取得了最新技術水平的結果,特別是在涉及數學問題的基準測試中(如 MGSM、GSM8K)。
圖片來源:擴展指令微調語言模型
零樣本推理能力:經過 CoT 微調的模型能夠透過「讓我們先一步步思考」等提示,有效啟用零樣本推理。Flan-PaLM 在零樣本 CoT 方面的表現明顯優於未經微調的 PaLM 模型。
圖片來源:擴展指令微調語言模型
優化開放式生成:Flan-PaLM 在開放式生成問題上展現出優異的性能,顯著提升了模型的實用性與可用性。
解決重複問題:在零樣本設定中,Flan-PaLM 能夠克服 PaLM 遇到的重複問題,並改進回應。
多語言理解與推理提升:Flan-PaLM 的多語言能力得到提升。例如在 TyDiQA 上提升 14.9%,在代表性不足語言的算術推理上提升 8.1%。
負責任 AI (RAI) 表現改進:模型在負責任 AI相關的基準測試中取得了更好的性能,顯示其在安全性與倫理方面的進步。
少樣本能力:Flan-T5 指令微調模型展現出強大的少樣本能力,其性能優於公開檢查點如 T5 等。
結語
Flan模型的研究揭示了擴展指令微調和整合思維鏈數據對於提升語言模型性能的巨大潛力。透過優化微調流程,Flan 模型在推理、多語言理解和開放式生成方面均取得了顯著進步,並能夠在零樣本設定下展現出更強的推理能力。這項工作不僅證明了數據和訓練策略對模型能力的關鍵影響,也為未來更高效、更通用的語言模型發展奠定了基礎。
References
Scaling Instruction-Finetuned Language Models
上一篇:Models - Code Llama
下一篇:Models - Gemini





