Directional Stimulus Prompting(DSP,定向刺激提示)
- Directional Stimulus Prompting(DSP) 是一種透過「引導性提示訊號」讓 LLM(大型語言模型)更符合預期輸出的技術。
- 不同於傳統提示,DSP 使用一個「Policy LM」產生實例專屬的提示線索(如關鍵詞、標記),引導主 LLM 生成符合需求的結果,而無需微調大型模型。
目錄
DSP 的運作原理
- 訓練 Policy LM:使用少量資料進行監督式訓練 (SFT),讓 Policy LM 能生成提示線索。
- 生成定向刺激:Policy LM 根據輸入生成引導性提示訊號(如關鍵詞或行為標記)。
- 整合提示:將這些提示與原始輸入組合後,一併輸入至 LLM。
- 強化學習優化:透過 RL 讓 Policy LM 生成能最大化下游任務評估指標的提示。
應用範例
- 摘要生成:Policy LM 提供應包含的關鍵詞,讓 LLM 生成更精準的摘要,提升 ROUGE/BLEU 分數。
- 對話系統:生成對話行為標記,幫助 LLM 在多輪對話中輸出更自然的回覆。
- 推理任務:產生推理指示詞,引導模型遵循正確的推理步驟,優化 Chain-of-Thought 效果。
DSP 的優勢與挑戰
優勢
- 精確控制:可針對每個輸入提供特定引導,控制輸出品質與方向。
- 高資料效率:只需少量標註資料即可取得顯著效果。
- 無需改動主模型:僅需訓練 Policy LM,避免昂貴的 LLM 微調。
挑戰
- 提示評估設計:需有效評估提示的質量與輸出影響。
- 系統架構複雜:需額外訓練與維護 Policy LM。
- 效果依賴評估指標:若指標設計不佳,可能生成無效提示。
結語
- DSP(定向刺激提示) 透過「輔助提示生成模型」來控制主模型的輸出方向,能在摘要、對話生成、推理等任務中顯著改善結果。
- 它適合需要精準控制生成內容、資料有限或無法直接微調 LLM 的情境。
References
Prompt Engineering Guide
Li et al., (2023)
上一篇:Prompting Techniques - 主動提示
下一篇:Prompting Techniques - 程式輔助語言模型
