LLM Research Findings - LLM Reasoning (大型語言模型推理)

vincent · 2025年07月29日05:30

本篇目標

LLM 推理能力簡介（LLM Reasoning）

近年來，大型語言模型（LLMs）在多項任務中取得了顯著進展。隨著模型規模的擴大，它們展現出初步的「推理能力」，能夠處理複雜的任務。

什麼是推理（Reasoning）？

推理是指從已知資訊中有邏輯地推導出結論的能力。這在人類智能中至關重要，而讓 AI 模型具備這種能力，是當前人工智慧研究的關鍵挑戰之一。

為什麼推理重要？

幫助模型理解多步驟任務（如數學解題、程式除錯、科學問答）
增強模型對新情境的泛化能力
提升模型在未見問題上的表現

研究現況

隨著參數量的提升（例如 GPT-4、Claude、Gemini 等），LLMs 開始顯示出某種推理模式（例如 chain-of-thought、tool-use）
然而，模型如何真正學會推理仍未完全被理解
許多研究機構（OpenAI、Google DeepMind、Anthropic 等）正大量投入資源探索此議題

基礎模型的推理能力概觀（Reasoning with Foundation Models）

Sun et al. (2023) 於 2023 年提出了一篇回顧性研究，深入探討「基礎模型」（Foundation Models）在各類推理任務上的最新進展，並擴展至多模態模型與自主語言代理（autonomous language agents）。

什麼是推理任務？

推理任務指的是需要模型有邏輯地分析與推導才能完成的任務。這些任務範圍廣泛，包括但不限於：

數學推理（Mathematical Reasoning）
邏輯推理（Logical Reasoning）
因果推理（Causal Reasoning）
視覺推理（Visual Reasoning）

這些任務測試的是模型的理解能力、多步思考能力與抽象邏輯處理能力。

下圖展示了推理任務的概述

Figure source: Sun et al., 2023

圖片解說

大型語言模型（LLMs）能夠執行各種類型的推理任務，這些任務代表了 AI 理解、邏輯、感知、知識整合等能力。右側則列出實現這些推理能力所需的訓練與技術支援方式。

推理任務類型（Reasoning Tasks）

推理任務依據任務特性可分為以下幾類：

類別	說明與範例
Mathematical Reasoning	包含算術、幾何、定理證明、科學推理等
Logical Reasoning	命題邏輯、謂詞邏輯等嚴謹邏輯任務
Causal Reasoning	涉及因果關係推論，如決策、政策優化、反事實推理
Visual Reasoning	包含 2D 與 3D 空間推理任務
Multimodal Reasoning	跨模態推理，結合圖像、文字、音訊等多種形式
Embodied Reasoning	多代理人、內省、外部觀察推理，應用於自駕等場景
Commonsense Reasoning	物理與空間常識、問答場景中的常識應用
Other Tasks	包含抽象、醫學、生物資訊、長鏈、多步、多模推理等

推理支援技術（Reasoning Techniques）

為了實現這些推理任務，研究人員提出下列訓練與模型結構設計：

Pre-Training：大型語料訓練，學習通用知識與語言能力。
Fine-tuning：針對特定任務微調模型以提升表現。
Mixture of Experts (MoE)：使用多個專家模型根據任務選擇性啟用，提升效率與能力。
Alignment Training：透過對齊學習讓模型回應更符合人類偏好與邏輯。
In-Context Learning：透過提示學習推理能力，無需調整模型參數。
Autonomous Agent：整合推理與行動，建立能自主規劃與解決問題的 AI 代理。

如何讓大型語言模型（LLM）具備推理能力？

大型語言模型（LLM）本身雖然擁有語言知識，但「推理能力」通常需要額外引導才能發揮出來。研究者發現可以透過多種「提示技巧（prompting methods）」來激發這種推理能力。

根據 Qiao et al. (2023) 在 2023 年的研究，這些方法可以分成兩大類：

一、推理強化策略（Reasoning-Enhanced Strategy）

這類方法專注於提升模型的推理過程與邏輯結構，常見方式包含：

提示工程（Prompt Engineering）：設計更有效的提示，例如讓模型分步解題。
流程最佳化（Process Optimization）：讓模型能一步步思考，而不是直接給答案。
外部引擎（External Engines）：結合搜尋引擎或計算工具來幫助模型推理。

例子：

Chain-of-Thought：請模型逐步寫出思考過程，再得出答案。
Active-Prompt：模型會根據任務主動調整提示策略以解題。

二、知識強化推理（Knowledge-Enhanced Reasoning）

這類方法則是強化模型對知識的掌握，例如：

結合外部資料庫（如 Wikipedia）來支援推理。
整合檢索技術（像是 RAG）幫助找到需要的知識，再進行推理。

下圖呈現了「語言模型推理方法」的完整分類架構

Figure source: Qiao et al., 2023

語言模型推理方法全覽（Reasoning with Language Model Prompting）

為了幫助語言模型（如 ChatGPT）進行更有效的推理，研究者們發展出各種提示方法。整體來說，可以分為兩大類方法與五種任務類型。

一、方法分類（Taxonomy of Methods）

1. 推理強化策略（Strategy-Enhanced Reasoning）

這些方法目的是改善模型的推理流程和策略：

提示工程（Prompt Engineering）
- 單階段提示（Single-Stage）：例如 CoT（Chain of Thought）、Active-Prompt。
- 多階段提示（Multi-Stage）：例如 Least-to-Most、Self-Ask、LAMBADA。
流程優化（Process Optimization）
- 自我優化（Self-Optimization）
- 集成優化（Ensemble-Optimization）
- 反覆優化（Iterative-Optimization）：如 Reflexion、STaR。
外部引擎支援（External Engine）
- 物理模擬器（Physical Simulator）
- 程式碼解譯器（Code Interpreter）：如 MathPrompter。
- 工具學習（Tool Learning）：如 Toolformer、ART。

2. 知識強化推理（Knowledge-Enhanced Reasoning）

這些方法讓模型能更好地使用已有知識或外部知識：

隱性知識（Implicit Knowledge）：透過模型內部預訓練知識，如 GenKnow、Teaching。
顯性知識（Explicit Knowledge）：借助明確結構化的知識與外部工具，如 LogicSolver、PROMPTPG。

二、任務類型分類（Taxonomy of Tasks）

推理任務涵蓋以下幾大類型：

算術推理（Arithmetic）：加減乘除、幾何等數學問題。
常識推理（Commonsense）：日常生活與基本常識推斷。
邏輯推理（Logical）：真假判斷、命題邏輯等。
符號推理（Symbolic）：程式碼、邏輯運算式。
多模態推理（Multimodal）：圖片、影片、語音等結合文字進行推理。

Huang et al. (2023) 在 2023 年的研究中，整理了多種可以幫助大型語言模型（如 GPT-3）展現更強推理能力的方法。這些方法可大致分為兩大類：

1. 完全監督式訓練（Fully Supervised Fine-tuning）

這類方法是透過大量標註過「推理解釋過程」的數據集來訓練模型。舉例來說，模型會學習如何解釋數學題、邏輯推理或故事理解過程。

優點：推理能力穩定且一致
缺點：需要大量標註資料，成本高

2. 提示工程（Prompting Methods）

這類方法不需要重新訓練模型，只需設計良好的提示即可誘導出推理過程，是目前應用最廣泛的方式之一。

常見技巧包括：

Chain-of-Thought (CoT)
讓模型一步步寫出中間推理步驟，幫助其思考過程更清晰。
Problem Decomposition
將一個複雜問題拆成數個小問題，逐步解決。適合處理多步驟推理題。
In-Context Learning
給模型一些範例（例如幾個帶有解釋的問答），再讓它處理新的問題。這種方式無需額外訓練，效果驚人。

下圖整理了論文中關於「大型語言模型中的推理技術（Reasoning in LLMs）」的主要分類

Figure source: Huang et al., 2023

技術面（Techniques）

完全監督式微調（Fully Supervised Finetuning）
使用有解釋標註資料對模型進行訓練。
提示與上下文學習（Prompting & In-Context Learning）
利用提示詞引導模型進行推理。常見子類包含：
- Chain of Thought 及其變體
- Rationale Engineering（設計合理推理結構）
- Problem Decomposition（問題拆解）
- 其他技巧
混合方法（Hybrid Method）
結合不同訓練與推理方式，包含：
- Reasoning-Enhanced Training & Prompting（結合訓練與提示提升推理）
- Bootstrapping & Self-Improving（自我增強與強化）

評估與分析（Evaluation & Analysis）

任務表現分析（End Task Performance）
觀察推理技術在各種任務上的表現。
推理過程分析（Analysis on Reasoning）
深入了解模型產出推理過程的邏輯與準確性。

發現與啟示（Findings & Implications）

彙整研究中發現的有效方法與限制，為後續應用與發展提供指引。

討論與未來方向（Reflection, Discussion & Future Directions）

探討仍需克服的挑戰與未來值得研究的路徑。

LLMs 能夠「推理」與「規劃」嗎？

這是目前在 AI 領域中爭論最激烈的問題之一。推理（Reasoning）與規劃（Planning）是讓大型語言模型（LLMs）能夠應用在更複雜任務（例如：機器人控制、自主代理人等）的關鍵能力。

一篇由 Subbarao Kambhampati (2024) 撰寫的立場論文，對此提出了他的觀點與結論：

總結：
根據我閱讀的文獻、親自驗證與實作的結果，我沒有發現任何有力證據能讓我相信 LLMs 真正具備「推理」或「規劃」能力——至少不是我們一般所理解的那種。

相反地，我認為 LLMs 做的事情比較像是大規模近似檢索（universal approximate retrieval）。這種能力有時候會被誤認為是在進行推理。

可以這樣理解：

LLMs 的強大表現，很多是基於「記憶大量資訊」與「快速比對相似內容」的能力。
它們在某些任務上的行為「看起來像是在推理」，但其實可能只是從訓練資料中學會了一些「看似合理的回應方式」。
真正的推理與規劃，涉及「邏輯推導」與「目標導向的決策」，這在目前的 LLM 架構中仍有爭議。

References

LLM Reasoning

目錄：LLM Research Findings - 簡介

上一篇：LLM Research Findings - RAG在大型語言模型中的應用
下一篇：LLM Research Findings - RAG 模型的忠實度