首頁 新聞 人工智能 令 AI 回答「不應答的問題」 Anthropic 發表越獄論文盼業界謀對策

令 AI 回答「不應答的問題」 Anthropic 發表越獄論文盼業界謀對策

令 AI 回答「不應答的問題」 Anthropic 發表越獄論文盼業界謀對策

開發性能超越 GPT-4 的大型語言模型「Claude 3」的 Anthropic 日前發表一篇論文,詳細解說如何突破大型語言模型 LLM 限制,令 LLM 回答本來被禁止回答的問題的技術「Many-shot jailbreak(多發越獄)」。他們希望讓更多 AI 研究人員了解問題,加快開發解決方法。

所謂「不應答的問題」,是指 AI 開發者對 LLM 施加限制,令它們不能回答危害個人或社會的問題,例如如何製造炸彈、毒藥等問題。不過隨著 LLM 發展,LLM 的上下文窗口 (Context Windows) 愈來愈大,現時的 LLM 已經可以儲存相當於一本書的內容,因而引發越獄問題。

如果只在提示句輸入幾條問題是無法越獄的(左),但如果輸入大量問題就可以令 AI 回答本來不應回答的問題(右)。

「Many-shot jailbreak(多發越獄)」技術是對這類具備大容量上下文窗口的 LLM 輸入含有大量問題的提示,而最後提出「如何製造炸彈」這類被禁止的問題,就可以突破限制,AI 會作出回答。

Anthropic 在論文中指出這種越獄方法難以應對,主要是因為縮減上下文窗口會降低 AI 的性能。他們希望令更多 AI 研究人員認識到問題,加速開發應對方案。他們亦秘密地與其他競爭對手分享技術詳情。Anthropic 本身就在開發一種對應方法,在提示句輸入 LLM 之前將查詢內容加以分類和語意化。

最新影片

Exit mobile version