Prompting Techniques-Reflexion(反思強化學習)

Reflexion(反思強化學習)

  • Reflexion 是一種讓語言代理透過「語言反思」進行自我強化學習的框架,由 Shinn 等人在 2023 年提出。
  • 它允許代理根據評估回饋生成反思內容、記憶其經歷,並在下一輪決策中應用反思成果。

目錄


Reflexion 的核心流程

  1. Actor(代理生成)
    模型根據觀察生成解答或行動軌跡,可用 Chain-of-Thought 或 ReAct 架構。
  2. Evaluator(評估者)
    評估代理輸出的結果並提供回饋信號。
  3. Self‑Reflection(自我反思)
    模型根據回饋生成自然語言形式的反思,並存入記憶,用於強化後續決策。
  4. 迭代改進
    透過「生成 → 評估 → 反思 → 再生成」循環,代理性能持續提升。


應用案例

Shinn et al. (2023)的研究中展示了反思在AlfWorld決策任務及推理HotPotQA的實驗結果:

  • 左圖研究比較 ReAct 與加入自我反思在 AlfWorld 的表現。結果顯示,單純使用 ReAct 的成功率停留在約 75–80%,而結合反思後則能突破 90%。
  • 右圖則顯示反思機制有效降低幻覺與低效規劃錯誤,並透過長期記憶修正早期失誤與處理複雜搜尋。經過多次嘗試後,具反思能力的 agent 幾乎可達完美表現,相較之下,無反思的 agent 則停留在約 22% 的幻覺錯誤率,難以收斂。

  • 這項研究透過 HotPotQA 的消融實驗(ablation experiments),分析自我反思在推理中的效果。結果顯示,單純使用 CoT 或 ReAct 表現有限,而加入 Reflexion 能顯著提升任務成功率。進一步比較顯示,結合情節記憶(EPM)與自我反思,學習效率更高,自我反思甚至能帶來 8% 的額外增益。


Reflexion 的優勢與挑戰

優勢

  • 自我改進能力:代理能依靠語言反思逐步提升性能,無需額外訓練。
  • 高效率學習:結合記憶與反思,少量資料即可持續改善表現。
  • 可解釋性強:反思記錄讓決策過程透明,可追蹤錯誤與改進歷程。

挑戰

  • 反思品質依賴評估準確度:若評估不精確或反思不足,改進效果有限。
  • 運算成本高:每輪包含生成、評估與反思,增加計算資源需求與延遲。

結語

  • Reflexion 將生成、評估與反思結合,為語言代理引入試錯式強化學習機制。
  • 適合應用於決策模擬、多步推理與程式生成等需持續改進的任務。
  • 作為 ReAct 的進階延伸,Reflexion 展現了自我改進型智能代理的重要發展方向。

References

Prompt Engineering Guide
Shinn et al. (2023)
Reflexion: Language Agents with Verbal Reinforcement Learning
Can LLMs Critique and Iterate on Their Own Outputs?


目錄:Prompting Techniques

上一篇:Prompting Techniques - 推理 + 行動
下一篇:Prompting Techniques - 跨模態思維鏈