AI Community - Forum

Prompting Techniques-Directional Stimulus Prompting（DSP，定向刺激提示)

提示詞工程 (Prompt Engineering)

nick 2025年07月31日05:53 1

Directional Stimulus Prompting（DSP，定向刺激提示）

Directional Stimulus Prompting（DSP） 是一種透過「引導性提示訊號」讓 LLM（大型語言模型）更符合預期輸出的技術。
不同於傳統提示，DSP 使用一個「Policy LM」產生實例專屬的提示線索（如關鍵詞、標記），引導主 LLM 生成符合需求的結果，而無需微調大型模型。

目錄

DSP 的運作原理

訓練 Policy LM：使用少量資料進行監督式訓練 (SFT)，讓 Policy LM 能生成提示線索。
生成定向刺激：Policy LM 根據輸入生成引導性提示訊號（如關鍵詞或行為標記）。
整合提示：將這些提示與原始輸入組合後，一併輸入至 LLM。
強化學習優化：透過 RL 讓 Policy LM 生成能最大化下游任務評估指標的提示。

應用範例

摘要生成：Policy LM 提供應包含的關鍵詞，讓 LLM 生成更精準的摘要，提升 ROUGE/BLEU 分數。
對話系統：生成對話行為標記，幫助 LLM 在多輪對話中輸出更自然的回覆。
推理任務：產生推理指示詞，引導模型遵循正確的推理步驟，優化 Chain-of-Thought 效果。

DSP 的優勢與挑戰

優勢

精確控制：可針對每個輸入提供特定引導，控制輸出品質與方向。
高資料效率：只需少量標註資料即可取得顯著效果。
無需改動主模型：僅需訓練 Policy LM，避免昂貴的 LLM 微調。

挑戰

提示評估設計：需有效評估提示的質量與輸出影響。
系統架構複雜：需額外訓練與維護 Policy LM。
效果依賴評估指標：若指標設計不佳，可能生成無效提示。

結語

DSP（定向刺激提示） 透過「輔助提示生成模型」來控制主模型的輸出方向，能在摘要、對話生成、推理等任務中顯著改善結果。
它適合需要精準控制生成內容、資料有限或無法直接微調 LLM 的情境。

References

Prompt Engineering Guide
Li et al., (2023)

目錄:Prompting Techniques

上一篇：Prompting Techniques - 主動提示
下一篇：Prompting Techniques - 程式輔助語言模型

Prompting Techniques-Program-Aided Language Models（PAL，程式輔助語言模型）

主題系列文章索引