LLM Research Findings - LM-Guided CoT(小模型引導的大模型推理)

LM-Guided Chain-of-Thought(小模型引導的大模型推理)

Lee et al. (2024) 提出的新研究,展示了一種**「小模型輔助大模型推理」**的新方法,藉此提升大型語言模型(LLM)的推理能力,並降低資源成本。


研究動機

在大多數情境中,大型模型具備強推理能力,但訓練與部署成本極高。這篇論文想問:

小模型可以幫大模型想理由嗎?


方法架構(LM-Guided CoT)

  1. 大模型產出推理過程(rationale)
    → 用於訓練小模型模仿這些推理方式(知識蒸餾)。
  2. 小模型負責生成推理步驟(CoT)
    → 不再需要每次都用大模型生成。
  3. 固定的大模型只用來預測答案
    → 減少運算負擔,達到成本效率。
  4. 小模型進一步用強化學習(RL)微調
  • 根據推理品質與任務表現給予獎勵。

圖解:小模型引導推理的兩階段流程

  • 左側 Step 1:大模型先生成「推理 + 答案」,再交由小模型學習模仿正確的推理過程(錯誤則丟棄)。
  • 右側 Step 2:小模型產生新的推理,大模型固定不變,只用來做最後的答案判斷;此時可根據任務表現回饋來微調小模型。

實驗結果

  • 多步驟問答任務(Multi-hop QA) 中表現優於所有基準方法。
  • 比傳統的 Chain-of-Thought prompting 更準確。
  • 搭配 Self-Consistency decoding(自我一致解碼) 效果更佳。

啟示與實用建議

  • 分工思維很重要:不是所有任務都需要大模型做完,小模型可以幫忙想步驟、做檢查。
  • 省成本又有效:固定大模型、優化小模型,是高效設計 AI pipeline 的好策略。
  • 強化學習與蒸餾相輔相成:用大模型教小模型,再用 RL 微調品質,取得雙贏效果。

總結

LM-Guided CoT 展示了一種聰明的任務分工:
「小模型推理、大模型決策」,提升準確率的同時也節省成本,為 LLM 推理應用帶來新方向。


References

LM-Guided Chain-of-Thought


目錄:LLM Research Findings - 簡介

上一篇:LLM Research Findings - Infini-Attention
下一篇:LLM Research Findings - 大型語言模型的可信度