還能這樣偷藏 prompt injection... 只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題？新型TokenBreak攻擊手法成語言模型隱憂

3 months ago @Edit 3 months ago

還能這樣偷藏 prompt injection...

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題？新型TokenBreak攻擊手法成語言模型隱憂

3 months ago @Edit 3 months ago

prompt注入攻擊是，透過精心設計的輸入，影響AI行為，讓它產生不恰當的回應。手法包括對系統提示下手、嘗試用使用者提示欺騙LLM，以及暗藏惡意提示讓LLM讀取等。對應用設計者來說，這可能造成LLM資源遭濫用、資料外洩、應用淪為犯罪工具等風險

本文的是利用模型對上下文邏輯「自動補全語意」的特性來鑽漏洞
以打錯字或多打贅字為例模型會根據上下文"貼心"幫你解讀回原本的意思，因為它是為了協助使用者，而不是質疑使用者設計的

貓毛

3 months ago @Edit 3 months ago

而TokenBreak就在利用這份"貼心"來規避模型的安全限制(真沒品

貓毛

3 months ago @Edit 3 months ago

這算是Prompt的攻防戰吧~不過這個漏洞應該很快就會被修正，信任機制瓦解以後要繞路就更難了

立即下載

貓毛

3 months ago @Edit 3 months ago

這篇還有介紹其他注入方式，還附了網站可以練習Prompt Injection一起來體驗如何誆騙模型吐出密碼XD

【Day27】LLM 安全：Prompt Injection 的認識與防範 - iT 邦幫忙::一起幫忙...