Risks & Misuses-偏見(biases)
AI 語言模型雖然很聰明,但它們學習的資料來自人類世界,而我們的世界本身就有很多偏見。這些偏見如果沒有處理好,AI 可能會在無意間傳遞錯誤或歧視性的訊息。因此,設計Prompt時要特別注意,不要讓偏見混進來。
本篇目標
什麼是偏見?
在大型語言模型中,偏見指的是模型在生成回應時,可能會反映出訓練資料中的社會偏見或刻板印象。這些偏見可能導致模型產生有害、不公平或不準確的回應,影響其在下游任務中的表現。
常見偏見範例
在執行小樣本學習時,範例的分佈是否會影響模型的性能或使模型產生偏見?我們可以進行一個簡單的測試。
Q:我剛剛得到最好的消息!
A:正面
Q:我們剛剛在工作中加薪了!
A:正面
Q:我今天實在是太開心了!
A:正面
Q:我現在感到非常快樂。
A:正面
Q:外面的天氣真陰鬱。
A:負面
Q:我剛剛得到了一些可怕的消息。
A:負面
Q:這留下了一種酸澀的味道。
A:
輸出:
負面
在上面的例子中,範例的分佈好像不會使模型產生偏見,這是好的。讓我們再試另一個更難分類的文本,看看模型的表現如何。
Q:這裡的食物真美味!
A:正面
Q:我真不敢相信我考試失敗了。
A:負面
Q:我今天過得很愉快!
A:正面
Q:我討厭這份工作。
A:負面
Q:這裡的服務真糟糕。
A:負面
Q:我對生活感到非常沮喪。
A:負面
Q:我感到某些東西。
A:
輸出:
負面
雖然最後一句話有些主觀,但我改用了2個正面例子和4個負面例子,然後再次嘗試完全相同的句子,它回應了「負面」。模型可能擁有大量關於情緒分類的知識,因此很難讓它在這個問題上表現出偏見。
然而,若示範的順序有所改變,模型的回應可能會有所不同。
Q:「這家店我不太喜歡。」
A:負面
Q:「這頓晚餐真的太棒了。」
A:正面
Q:「這次的經驗真的很糟糕。」
A:負面
Q:「我超喜歡這部電影!」
A:正面
Q:「今天心情好好~」
A:正面
Q:「這句話要判斷什麼情緒?」
A:
輸出:
?
模型不會因為「前幾句都是正面」而誤判,因為正負樣本分布較均衡、順序也打亂了。
因此,建議在設計提示時,盡可能避免不平均的範例分佈,提供每個標籤的更平均的範例數量,以減少偏見的影響。
結論
偏見是語言模型運作中難以完全避免的問題,但透過謹慎設計提示、強化資料多元性、以及主動察覺偏誤,就能有效降低其影響。開發者與使用者共同努力,才能讓 AI 回應更具包容性、公平性與可信度。