AI Community - Forum

LLM Research Findings - LM-Guided CoT（小模型引導的大模型推理）

提示詞工程 (Prompt Engineering)

vincent 2025年07月31日10:11 1

LM-Guided Chain-of-Thought（小模型引導的大模型推理）

由 Lee et al. (2024) 提出的新研究，展示了一種**「小模型輔助大模型推理」**的新方法，藉此提升大型語言模型（LLM）的推理能力，並降低資源成本。

研究動機

在大多數情境中，大型模型具備強推理能力，但訓練與部署成本極高。這篇論文想問：

小模型可以幫大模型想理由嗎？

方法架構（LM-Guided CoT）

大模型產出推理過程（rationale）
→ 用於訓練小模型模仿這些推理方式（知識蒸餾）。
小模型負責生成推理步驟（CoT）
→ 不再需要每次都用大模型生成。
固定的大模型只用來預測答案
→ 減少運算負擔，達到成本效率。
小模型進一步用強化學習（RL）微調

根據推理品質與任務表現給予獎勵。

圖解：小模型引導推理的兩階段流程

左側 Step 1：大模型先生成「推理 + 答案」，再交由小模型學習模仿正確的推理過程（錯誤則丟棄）。
右側 Step 2：小模型產生新的推理，大模型固定不變，只用來做最後的答案判斷；此時可根據任務表現回饋來微調小模型。

實驗結果

在 多步驟問答任務（Multi-hop QA） 中表現優於所有基準方法。
比傳統的 Chain-of-Thought prompting 更準確。
搭配 Self-Consistency decoding（自我一致解碼） 效果更佳。

啟示與實用建議

分工思維很重要：不是所有任務都需要大模型做完，小模型可以幫忙想步驟、做檢查。
省成本又有效：固定大模型、優化小模型，是高效設計 AI pipeline 的好策略。
強化學習與蒸餾相輔相成：用大模型教小模型，再用 RL 微調品質，取得雙贏效果。

總結

LM-Guided CoT 展示了一種聰明的任務分工：
「小模型推理、大模型決策」，提升準確率的同時也節省成本，為 LLM 推理應用帶來新方向。

References

LM-Guided Chain-of-Thought

目錄：LLM Research Findings - 簡介

上一篇：LLM Research Findings - Infini-Attention
下一篇：LLM Research Findings - 大型語言模型的可信度

主題系列文章索引

LLM Research Findings - 大型語言模型的可信度

LLM Research Findings - Infini-Attention