AI Community - Forum

Prompting Techniques-Reflexion（反思強化學習）

提示詞工程 (Prompt Engineering)

nick 2025年07月31日06:26 1

Reflexion（反思強化學習）

Reflexion 是一種讓語言代理透過「語言反思」進行自我強化學習的框架，由 Shinn 等人在 2023 年提出。
它允許代理根據評估回饋生成反思內容、記憶其經歷，並在下一輪決策中應用反思成果。

目錄

Reflexion 的核心流程

Actor（代理生成）
模型根據觀察生成解答或行動軌跡，可用 Chain-of-Thought 或 ReAct 架構。
Evaluator（評估者）
評估代理輸出的結果並提供回饋信號。
Self‑Reflection（自我反思）
模型根據回饋生成自然語言形式的反思，並存入記憶，用於強化後續決策。
迭代改進
透過「生成 → 評估 → 反思 → 再生成」循環，代理性能持續提升。

應用案例

在Shinn et al. (2023)的研究中展示了反思在AlfWorld決策任務及推理HotPotQA的實驗結果：

左圖研究比較 ReAct 與加入自我反思在 AlfWorld 的表現。結果顯示，單純使用 ReAct 的成功率停留在約 75–80%，而結合反思後則能突破 90%。
右圖則顯示反思機制有效降低幻覺與低效規劃錯誤，並透過長期記憶修正早期失誤與處理複雜搜尋。經過多次嘗試後，具反思能力的 agent 幾乎可達完美表現，相較之下，無反思的 agent 則停留在約 22% 的幻覺錯誤率，難以收斂。

這項研究透過 HotPotQA 的消融實驗(ablation experiments)，分析自我反思在推理中的效果。結果顯示，單純使用 CoT 或 ReAct 表現有限，而加入 Reflexion 能顯著提升任務成功率。進一步比較顯示，結合情節記憶（EPM）與自我反思，學習效率更高，自我反思甚至能帶來 8% 的額外增益。

Reflexion 的優勢與挑戰

優勢

自我改進能力：代理能依靠語言反思逐步提升性能，無需額外訓練。
高效率學習：結合記憶與反思，少量資料即可持續改善表現。
可解釋性強：反思記錄讓決策過程透明，可追蹤錯誤與改進歷程。

挑戰

反思品質依賴評估準確度：若評估不精確或反思不足，改進效果有限。
運算成本高：每輪包含生成、評估與反思，增加計算資源需求與延遲。

結語

Reflexion 將生成、評估與反思結合，為語言代理引入試錯式強化學習機制。
適合應用於決策模擬、多步推理與程式生成等需持續改進的任務。
作為 ReAct 的進階延伸，Reflexion 展現了自我改進型智能代理的重要發展方向。

References

Prompt Engineering Guide
Shinn et al. (2023)
Reflexion: Language Agents with Verbal Reinforcement Learning
Can LLMs Critique and Iterate on Their Own Outputs?

目錄:Prompting Techniques

上一篇：Prompting Techniques - 推理 + 行動
下一篇：Prompting Techniques - 跨模態思維鏈

主題系列文章索引

Prompting Techniques-ReAct（推理 + 行動)