LLM Research Findings - LLM Reasoning (大型語言模型推理)

本篇目標


LLM 推理能力簡介(LLM Reasoning)

近年來,大型語言模型(LLMs)在多項任務中取得了顯著進展。隨著模型規模的擴大,它們展現出初步的「推理能力」,能夠處理複雜的任務。

什麼是推理(Reasoning)?

推理是指從已知資訊中有邏輯地推導出結論的能力。這在人類智能中至關重要,而讓 AI 模型具備這種能力,是當前人工智慧研究的關鍵挑戰之一。

為什麼推理重要?

  • 幫助模型理解多步驟任務(如數學解題、程式除錯、科學問答)
  • 增強模型對新情境的泛化能力
  • 提升模型在未見問題上的表現

研究現況

  • 隨著參數量的提升(例如 GPT-4、Claude、Gemini 等),LLMs 開始顯示出某種推理模式(例如 chain-of-thought、tool-use)
  • 然而,模型如何真正學會推理仍未完全被理解
  • 許多研究機構(OpenAI、Google DeepMind、Anthropic 等)正大量投入資源探索此議題

基礎模型的推理能力概觀(Reasoning with Foundation Models)

Sun et al. (2023) 於 2023 年提出了一篇回顧性研究,深入探討「基礎模型」(Foundation Models)在各類推理任務上的最新進展,並擴展至多模態模型與自主語言代理(autonomous language agents)。

什麼是推理任務?

推理任務指的是需要模型有邏輯地分析與推導才能完成的任務。這些任務範圍廣泛,包括但不限於:

  • 數學推理(Mathematical Reasoning)
  • 邏輯推理(Logical Reasoning)
  • 因果推理(Causal Reasoning)
  • 視覺推理(Visual Reasoning)

這些任務測試的是模型的理解能力多步思考能力抽象邏輯處理能力


下圖展示了推理任務的概述


Figure source: Sun et al., 2023

圖片解說

大型語言模型(LLMs)能夠執行各種類型的推理任務,這些任務代表了 AI 理解、邏輯、感知、知識整合等能力。右側則列出實現這些推理能力所需的訓練與技術支援方式。

推理任務類型(Reasoning Tasks)

推理任務依據任務特性可分為以下幾類:

類別 說明與範例
Mathematical Reasoning 包含算術、幾何、定理證明、科學推理等
Logical Reasoning 命題邏輯、謂詞邏輯等嚴謹邏輯任務
Causal Reasoning 涉及因果關係推論,如決策、政策優化、反事實推理
Visual Reasoning 包含 2D 與 3D 空間推理任務
Multimodal Reasoning 跨模態推理,結合圖像、文字、音訊等多種形式
Embodied Reasoning 多代理人、內省、外部觀察推理,應用於自駕等場景
Commonsense Reasoning 物理與空間常識、問答場景中的常識應用
Other Tasks 包含抽象、醫學、生物資訊、長鏈、多步、多模推理等

推理支援技術(Reasoning Techniques)

為了實現這些推理任務,研究人員提出下列訓練與模型結構設計:

  • Pre-Training:大型語料訓練,學習通用知識與語言能力。
  • Fine-tuning:針對特定任務微調模型以提升表現。
  • Mixture of Experts (MoE):使用多個專家模型根據任務選擇性啟用,提升效率與能力。
  • Alignment Training:透過對齊學習讓模型回應更符合人類偏好與邏輯。
  • In-Context Learning:透過提示學習推理能力,無需調整模型參數。
  • Autonomous Agent:整合推理與行動,建立能自主規劃與解決問題的 AI 代理。

如何讓大型語言模型(LLM)具備推理能力?

大型語言模型(LLM)本身雖然擁有語言知識,但「推理能力」通常需要額外引導才能發揮出來。研究者發現可以透過多種「提示技巧(prompting methods)」來激發這種推理能力。

根據 Qiao et al. (2023) 在 2023 年的研究,這些方法可以分成兩大類:

一、推理強化策略(Reasoning-Enhanced Strategy)

這類方法專注於提升模型的推理過程與邏輯結構,常見方式包含:

  • 提示工程(Prompt Engineering):設計更有效的提示,例如讓模型分步解題。
  • 流程最佳化(Process Optimization):讓模型能一步步思考,而不是直接給答案。
  • 外部引擎(External Engines):結合搜尋引擎或計算工具來幫助模型推理。

:pushpin: 例子

  • Chain-of-Thought:請模型逐步寫出思考過程,再得出答案。
  • Active-Prompt:模型會根據任務主動調整提示策略以解題。

二、知識強化推理(Knowledge-Enhanced Reasoning)

這類方法則是強化模型對知識的掌握,例如:

  • 結合外部資料庫(如 Wikipedia)來支援推理。
  • 整合檢索技術(像是 RAG)幫助找到需要的知識,再進行推理。

下圖呈現了「語言模型推理方法」的完整分類架構


Figure source: Qiao et al., 2023

語言模型推理方法全覽(Reasoning with Language Model Prompting)

為了幫助語言模型(如 ChatGPT)進行更有效的推理,研究者們發展出各種提示方法。整體來說,可以分為兩大類方法與五種任務類型。

一、方法分類(Taxonomy of Methods)

1. 推理強化策略(Strategy-Enhanced Reasoning)

這些方法目的是改善模型的推理流程和策略:

  • 提示工程(Prompt Engineering)

    • 單階段提示(Single-Stage):例如 CoT(Chain of Thought)、Active-Prompt。
    • 多階段提示(Multi-Stage):例如 Least-to-Most、Self-Ask、LAMBADA。
  • 流程優化(Process Optimization)

    • 自我優化(Self-Optimization)
    • 集成優化(Ensemble-Optimization)
    • 反覆優化(Iterative-Optimization):如 Reflexion、STaR。
  • 外部引擎支援(External Engine)

    • 物理模擬器(Physical Simulator)
    • 程式碼解譯器(Code Interpreter):如 MathPrompter。
    • 工具學習(Tool Learning):如 Toolformer、ART。

2. 知識強化推理(Knowledge-Enhanced Reasoning)

這些方法讓模型能更好地使用已有知識或外部知識:

  • 隱性知識(Implicit Knowledge):透過模型內部預訓練知識,如 GenKnow、Teaching。
  • 顯性知識(Explicit Knowledge):借助明確結構化的知識與外部工具,如 LogicSolver、PROMPTPG。

二、任務類型分類(Taxonomy of Tasks)

推理任務涵蓋以下幾大類型:

  • 算術推理(Arithmetic):加減乘除、幾何等數學問題。
  • 常識推理(Commonsense):日常生活與基本常識推斷。
  • 邏輯推理(Logical):真假判斷、命題邏輯等。
  • 符號推理(Symbolic):程式碼、邏輯運算式。
  • 多模態推理(Multimodal):圖片、影片、語音等結合文字進行推理。

Huang et al. (2023) 在 2023 年的研究中,整理了多種可以幫助大型語言模型(如 GPT-3)展現更強推理能力的方法。這些方法可大致分為兩大類:

1. 完全監督式訓練(Fully Supervised Fine-tuning)

這類方法是透過大量標註過「推理解釋過程」的數據集來訓練模型。舉例來說,模型會學習如何解釋數學題、邏輯推理或故事理解過程。

  • 優點:推理能力穩定且一致
  • 缺點:需要大量標註資料,成本高

2. 提示工程(Prompting Methods)

這類方法不需要重新訓練模型,只需設計良好的提示即可誘導出推理過程,是目前應用最廣泛的方式之一。

常見技巧包括:

  • Chain-of-Thought (CoT)
    讓模型一步步寫出中間推理步驟,幫助其思考過程更清晰。

  • Problem Decomposition
    將一個複雜問題拆成數個小問題,逐步解決。適合處理多步驟推理題。

  • In-Context Learning
    給模型一些範例(例如幾個帶有解釋的問答),再讓它處理新的問題。這種方式無需額外訓練,效果驚人。


下圖整理了論文中關於「大型語言模型中的推理技術(Reasoning in LLMs)」的主要分類


Figure source: Huang et al., 2023

技術面(Techniques)

  1. 完全監督式微調(Fully Supervised Finetuning)
    使用有解釋標註資料對模型進行訓練。

  2. 提示與上下文學習(Prompting & In-Context Learning)
    利用提示詞引導模型進行推理。常見子類包含:

    • Chain of Thought 及其變體
    • Rationale Engineering(設計合理推理結構)
    • Problem Decomposition(問題拆解)
    • 其他技巧
  3. 混合方法(Hybrid Method)
    結合不同訓練與推理方式,包含:

    • Reasoning-Enhanced Training & Prompting(結合訓練與提示提升推理)
    • Bootstrapping & Self-Improving(自我增強與強化)

評估與分析(Evaluation & Analysis)

  • 任務表現分析(End Task Performance)
    觀察推理技術在各種任務上的表現。

  • 推理過程分析(Analysis on Reasoning)
    深入了解模型產出推理過程的邏輯與準確性。

發現與啟示(Findings & Implications)

彙整研究中發現的有效方法與限制,為後續應用與發展提供指引。

討論與未來方向(Reflection, Discussion & Future Directions)

探討仍需克服的挑戰與未來值得研究的路徑。


LLMs 能夠「推理」與「規劃」嗎?

這是目前在 AI 領域中爭論最激烈的問題之一。推理(Reasoning)與規劃(Planning)是讓大型語言模型(LLMs)能夠應用在更複雜任務(例如:機器人控制、自主代理人等)的關鍵能力。

一篇由 Subbarao Kambhampati (2024) 撰寫的立場論文 ,對此提出了他的觀點與結論:

總結
根據我閱讀的文獻、親自驗證與實作的結果,我沒有發現任何有力證據能讓我相信 LLMs 真正具備「推理」或「規劃」能力——至少不是我們一般所理解的那種。

相反地,我認為 LLMs 做的事情比較像是大規模近似檢索(universal approximate retrieval)。這種能力有時候會被誤認為是在進行推理。

可以這樣理解:

  • LLMs 的強大表現,很多是基於「記憶大量資訊」與「快速比對相似內容」的能力。
  • 它們在某些任務上的行為「看起來像是在推理」,但其實可能只是從訓練資料中學會了一些「看似合理的回應方式」。
  • 真正的推理與規劃,涉及「邏輯推導」與「目標導向的決策」,這在目前的 LLM 架構中仍有爭議。

References

LLM Reasoning


目錄:LLM Research Findings - 簡介

上一篇:LLM Research Findings - RAG在大型語言模型中的應用
下一篇:LLM Research Findings - RAG 模型的忠實度