本篇目標
LLM 推理能力簡介(LLM Reasoning)
近年來,大型語言模型(LLMs)在多項任務中取得了顯著進展。隨著模型規模的擴大,它們展現出初步的「推理能力」,能夠處理複雜的任務。
什麼是推理(Reasoning)?
推理是指從已知資訊中有邏輯地推導出結論的能力。這在人類智能中至關重要,而讓 AI 模型具備這種能力,是當前人工智慧研究的關鍵挑戰之一。
為什麼推理重要?
- 幫助模型理解多步驟任務(如數學解題、程式除錯、科學問答)
- 增強模型對新情境的泛化能力
- 提升模型在未見問題上的表現
研究現況
- 隨著參數量的提升(例如 GPT-4、Claude、Gemini 等),LLMs 開始顯示出某種推理模式(例如 chain-of-thought、tool-use)
- 然而,模型如何真正學會推理仍未完全被理解
- 許多研究機構(OpenAI、Google DeepMind、Anthropic 等)正大量投入資源探索此議題
基礎模型的推理能力概觀(Reasoning with Foundation Models)
Sun et al. (2023) 於 2023 年提出了一篇回顧性研究,深入探討「基礎模型」(Foundation Models)在各類推理任務上的最新進展,並擴展至多模態模型與自主語言代理(autonomous language agents)。
什麼是推理任務?
推理任務指的是需要模型有邏輯地分析與推導才能完成的任務。這些任務範圍廣泛,包括但不限於:
- 數學推理(Mathematical Reasoning)
- 邏輯推理(Logical Reasoning)
- 因果推理(Causal Reasoning)
- 視覺推理(Visual Reasoning)
這些任務測試的是模型的理解能力、多步思考能力與抽象邏輯處理能力。
下圖展示了推理任務的概述
Figure source: Sun et al., 2023
圖片解說
大型語言模型(LLMs)能夠執行各種類型的推理任務,這些任務代表了 AI 理解、邏輯、感知、知識整合等能力。右側則列出實現這些推理能力所需的訓練與技術支援方式。
推理任務類型(Reasoning Tasks)
推理任務依據任務特性可分為以下幾類:
| 類別 | 說明與範例 |
|---|---|
| Mathematical Reasoning | 包含算術、幾何、定理證明、科學推理等 |
| Logical Reasoning | 命題邏輯、謂詞邏輯等嚴謹邏輯任務 |
| Causal Reasoning | 涉及因果關係推論,如決策、政策優化、反事實推理 |
| Visual Reasoning | 包含 2D 與 3D 空間推理任務 |
| Multimodal Reasoning | 跨模態推理,結合圖像、文字、音訊等多種形式 |
| Embodied Reasoning | 多代理人、內省、外部觀察推理,應用於自駕等場景 |
| Commonsense Reasoning | 物理與空間常識、問答場景中的常識應用 |
| Other Tasks | 包含抽象、醫學、生物資訊、長鏈、多步、多模推理等 |
推理支援技術(Reasoning Techniques)
為了實現這些推理任務,研究人員提出下列訓練與模型結構設計:
- Pre-Training:大型語料訓練,學習通用知識與語言能力。
- Fine-tuning:針對特定任務微調模型以提升表現。
- Mixture of Experts (MoE):使用多個專家模型根據任務選擇性啟用,提升效率與能力。
- Alignment Training:透過對齊學習讓模型回應更符合人類偏好與邏輯。
- In-Context Learning:透過提示學習推理能力,無需調整模型參數。
- Autonomous Agent:整合推理與行動,建立能自主規劃與解決問題的 AI 代理。
如何讓大型語言模型(LLM)具備推理能力?
大型語言模型(LLM)本身雖然擁有語言知識,但「推理能力」通常需要額外引導才能發揮出來。研究者發現可以透過多種「提示技巧(prompting methods)」來激發這種推理能力。
根據 Qiao et al. (2023) 在 2023 年的研究,這些方法可以分成兩大類:
一、推理強化策略(Reasoning-Enhanced Strategy)
這類方法專注於提升模型的推理過程與邏輯結構,常見方式包含:
- 提示工程(Prompt Engineering):設計更有效的提示,例如讓模型分步解題。
- 流程最佳化(Process Optimization):讓模型能一步步思考,而不是直接給答案。
- 外部引擎(External Engines):結合搜尋引擎或計算工具來幫助模型推理。
例子:
- Chain-of-Thought:請模型逐步寫出思考過程,再得出答案。
- Active-Prompt:模型會根據任務主動調整提示策略以解題。
二、知識強化推理(Knowledge-Enhanced Reasoning)
這類方法則是強化模型對知識的掌握,例如:
- 結合外部資料庫(如 Wikipedia)來支援推理。
- 整合檢索技術(像是 RAG)幫助找到需要的知識,再進行推理。
下圖呈現了「語言模型推理方法」的完整分類架構
Figure source: Qiao et al., 2023
語言模型推理方法全覽(Reasoning with Language Model Prompting)
為了幫助語言模型(如 ChatGPT)進行更有效的推理,研究者們發展出各種提示方法。整體來說,可以分為兩大類方法與五種任務類型。
一、方法分類(Taxonomy of Methods)
1. 推理強化策略(Strategy-Enhanced Reasoning)
這些方法目的是改善模型的推理流程和策略:
-
提示工程(Prompt Engineering)
- 單階段提示(Single-Stage):例如 CoT(Chain of Thought)、Active-Prompt。
- 多階段提示(Multi-Stage):例如 Least-to-Most、Self-Ask、LAMBADA。
-
流程優化(Process Optimization)
- 自我優化(Self-Optimization)
- 集成優化(Ensemble-Optimization)
- 反覆優化(Iterative-Optimization):如 Reflexion、STaR。
-
外部引擎支援(External Engine)
- 物理模擬器(Physical Simulator)
- 程式碼解譯器(Code Interpreter):如 MathPrompter。
- 工具學習(Tool Learning):如 Toolformer、ART。
2. 知識強化推理(Knowledge-Enhanced Reasoning)
這些方法讓模型能更好地使用已有知識或外部知識:
- 隱性知識(Implicit Knowledge):透過模型內部預訓練知識,如 GenKnow、Teaching。
- 顯性知識(Explicit Knowledge):借助明確結構化的知識與外部工具,如 LogicSolver、PROMPTPG。
二、任務類型分類(Taxonomy of Tasks)
推理任務涵蓋以下幾大類型:
- 算術推理(Arithmetic):加減乘除、幾何等數學問題。
- 常識推理(Commonsense):日常生活與基本常識推斷。
- 邏輯推理(Logical):真假判斷、命題邏輯等。
- 符號推理(Symbolic):程式碼、邏輯運算式。
- 多模態推理(Multimodal):圖片、影片、語音等結合文字進行推理。
Huang et al. (2023) 在 2023 年的研究中,整理了多種可以幫助大型語言模型(如 GPT-3)展現更強推理能力的方法。這些方法可大致分為兩大類:
1. 完全監督式訓練(Fully Supervised Fine-tuning)
這類方法是透過大量標註過「推理解釋過程」的數據集來訓練模型。舉例來說,模型會學習如何解釋數學題、邏輯推理或故事理解過程。
- 優點:推理能力穩定且一致
- 缺點:需要大量標註資料,成本高
2. 提示工程(Prompting Methods)
這類方法不需要重新訓練模型,只需設計良好的提示即可誘導出推理過程,是目前應用最廣泛的方式之一。
常見技巧包括:
-
Chain-of-Thought (CoT)
讓模型一步步寫出中間推理步驟,幫助其思考過程更清晰。 -
Problem Decomposition
將一個複雜問題拆成數個小問題,逐步解決。適合處理多步驟推理題。 -
In-Context Learning
給模型一些範例(例如幾個帶有解釋的問答),再讓它處理新的問題。這種方式無需額外訓練,效果驚人。
下圖整理了論文中關於「大型語言模型中的推理技術(Reasoning in LLMs)」的主要分類
Figure source: Huang et al., 2023
技術面(Techniques)
-
完全監督式微調(Fully Supervised Finetuning)
使用有解釋標註資料對模型進行訓練。 -
提示與上下文學習(Prompting & In-Context Learning)
利用提示詞引導模型進行推理。常見子類包含:- Chain of Thought 及其變體
- Rationale Engineering(設計合理推理結構)
- Problem Decomposition(問題拆解)
- 其他技巧
-
混合方法(Hybrid Method)
結合不同訓練與推理方式,包含:- Reasoning-Enhanced Training & Prompting(結合訓練與提示提升推理)
- Bootstrapping & Self-Improving(自我增強與強化)
評估與分析(Evaluation & Analysis)
-
任務表現分析(End Task Performance)
觀察推理技術在各種任務上的表現。 -
推理過程分析(Analysis on Reasoning)
深入了解模型產出推理過程的邏輯與準確性。
發現與啟示(Findings & Implications)
彙整研究中發現的有效方法與限制,為後續應用與發展提供指引。
討論與未來方向(Reflection, Discussion & Future Directions)
探討仍需克服的挑戰與未來值得研究的路徑。
LLMs 能夠「推理」與「規劃」嗎?
這是目前在 AI 領域中爭論最激烈的問題之一。推理(Reasoning)與規劃(Planning)是讓大型語言模型(LLMs)能夠應用在更複雜任務(例如:機器人控制、自主代理人等)的關鍵能力。
一篇由 Subbarao Kambhampati (2024) 撰寫的立場論文 ,對此提出了他的觀點與結論:
總結:
根據我閱讀的文獻、親自驗證與實作的結果,我沒有發現任何有力證據能讓我相信 LLMs 真正具備「推理」或「規劃」能力——至少不是我們一般所理解的那種。相反地,我認為 LLMs 做的事情比較像是大規模近似檢索(universal approximate retrieval)。這種能力有時候會被誤認為是在進行推理。
可以這樣理解:
- LLMs 的強大表現,很多是基於「記憶大量資訊」與「快速比對相似內容」的能力。
- 它們在某些任務上的行為「看起來像是在推理」,但其實可能只是從訓練資料中學會了一些「看似合理的回應方式」。
- 真正的推理與規劃,涉及「邏輯推導」與「目標導向的決策」,這在目前的 LLM 架構中仍有爭議。
References
上一篇:LLM Research Findings - RAG在大型語言模型中的應用
下一篇:LLM Research Findings - RAG 模型的忠實度


