令 AI 回答「不應答的問題」　Anthropic 發表越獄論文盼業界謀對策

2024-04-08

開發性能超越 GPT-4 的大型語言模型「Claude 3」的 Anthropic 日前發表一篇論文，詳細解說如何突破大型語言模型 LLM 限制，令 LLM 回答本來被禁止回答的問題的技術「Many-shot jailbreak（多發越獄）」。他們希望讓更多 AI 研究人員了解問題，加快開發解決方法。

所謂「不應答的問題」，是指 AI 開發者對 LLM 施加限制，令它們不能回答危害個人或社會的問題，例如如何製造炸彈、毒藥等問題。不過隨著 LLM 發展，LLM 的上下文窗口 (Context Windows) 愈來愈大，現時的 LLM 已經可以儲存相當於一本書的內容，因而引發越獄問題。

「Many-shot jailbreak（多發越獄）」技術是對這類具備大容量上下文窗口的 LLM 輸入含有大量問題的提示，而最後提出「如何製造炸彈」這類被禁止的問題，就可以突破限制，AI 會作出回答。

Anthropic 在論文中指出這種越獄方法難以應對，主要是因為縮減上下文窗口會降低 AI 的性能。他們希望令更多 AI 研究人員認識到問題，加速開發應對方案。他們亦秘密地與其他競爭對手分享技術詳情。Anthropic 本身就在開發一種對應方法，在提示句輸入 LLM 之前將查詢內容加以分類和語意化。

{{post_title}}

令 AI 回答「不應答的問題」　Anthropic 發表越獄論文盼業界謀對策

最新影片

Loading…

Here are the results for the search: "{{td_search_query}}"

No results!

{{post_title}}

最新影片

相關文章

洩露資料、升格權限、竄改資料 NVIDIA ChatRTX 發現漏洞

Google 用 LLM 檢查違規廣告 2023 年移除超過 55 億

亞馬遜加碼共 40 億美元投資 Anthropic 重注 Claude 模型反攻 OpenAI

洩露資料、升格權限、竄改資料　NVIDIA ChatRTX 發現漏洞

Google 用 LLM 檢查違規廣告　2023 年移除超過 55 億

亞馬遜加碼共 40 億美元投資 Anthropic　重注 Claude 模型反攻 OpenAI