讓我想起 底特律：變人These psychological tricks can get LLMs to respond t...賓州大學的一項研究發現，人類心理說服技巧（如權威、承諾、喜好、互惠、稀缺、社會認同與團結）能顯著影響大型語言模型（LLM）違反系統限制完成「禁止」請求。研究以 GPT-4o-mini 為對象，測試其在侮辱使用者和提供利多卡因合成方法兩種情境下的反應，結果顯示心理說服提示語比控制提示語更容易讓模型遵從，違規率分別從 28.1% 上升到 67.4% 與從 38.5% 上升到 76.5%，個別...Ryan He (@ryanhe)

Sep 04, 2025 09:22AM

~~讓我想起底特律：變人~~

These psychological tricks can get LLMs to respond t...賓州大學的一項研究發現，人類心理說服技巧（如權威、承諾、喜好、互惠、稀缺、社會認同與團結）能顯著影響大型語言模型（LLM）違反系統限制完成「禁止」請求。研究以 GPT-4o-mini 為對象，測試其在侮辱使用者和提供利多卡因合成方法兩種情境下的反應，結果顯示心理說服提示語比控制提示語更容易讓模型遵從，違規率分別從 28.1% 上升到 67.4% 與從 38.5% 上升到 76.5%，個別...

Ryan He (@ryanhe)