貓毛
3 months ago @Edit 3 months ago
貓毛
3 months ago @Edit 3 months ago
prompt注入攻擊是,透過精心設計的輸入,影響AI行為,讓它產生不恰當的回應。手法包括對系統提示下手、嘗試用使用者提示欺騙LLM,以及暗藏惡意提示讓LLM讀取等。對應用設計者來說,這可能造成LLM資源遭濫用、資料外洩、應用淪為犯罪工具等風險

本文的是利用模型對上下文邏輯「自動補全語意」的特性來鑽漏洞
以打錯字或多打贅字為例模型會根據上下文"貼心"幫你解讀回原本的意思,因為它是為了協助使用者,而不是質疑使用者設計的
貓毛
3 months ago @Edit 3 months ago
而TokenBreak就在利用這份"貼心"來規避模型的安全限制(真沒品
貓毛
3 months ago @Edit 3 months ago
這算是Prompt的攻防戰吧~不過這個漏洞應該很快就會被修正,信任機制瓦解以後要繞路就更難了
立即下載
貓毛
3 months ago @Edit 3 months ago
這篇還有介紹其他注入方式,還附了網站可以練習Prompt Injection一起來體驗如何誆騙模型吐出密碼XD【Day27】LLM 安全:Prompt Injection 的認識與防範 - iT 邦幫忙::一起幫忙...