讓我想起 底特律:變人
These psychological tricks can get LLMs to respond t...賓州大學的一項研究發現,人類心理說服技巧(如權威、承諾、喜好、互惠、稀缺、社會認同與團結)能顯著影響大型語言模型(LLM)違反系統限制完成「禁止」請求。研究以 GPT-4o-mini 為對象,測試其在侮辱使用者和提供利多卡因合成方法兩種情境下的反應,結果顯示心理說服提示語比控制提示語更容易讓模型遵從,違規率分別從 28.1% 上升到 67.4% 與從 38.5% 上升到 76.5%,個別...
Ryan He (@ryanhe)