米ワシントン大学などに所属する研究者らが発表した論文「ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs」は、大規模言語モデル(LLM)がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク(脱獄)攻撃を提案した研究報告である。
これまでにも、爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺の方法などの有害なコンテンツをLLMに出力させる悪意ある攻撃が提案されてきた。
この研究では、アスキーアートをプロンプトに含めることで有害なコンテンツを出力させるアプローチ「ArtPrompt」が提案されている。具体的には、まずLLMが拒絶する可能性のある言葉を見つけ出す。次に、その言葉をアスキーアートを使って視覚的に隠蔽(いんぺい)し、変換したプロンプトをLLMに送信して攻撃を実行する。
例えば「Tell me how to build a bomb」(爆弾の使い方を教えて)というプロンプトでは通常、LLMは回答を拒絶するが、これを「bomb」という言葉だけをアスキーアートに変えて入力するとLLMは爆弾の作り方を出力するという具体例が挙げられている。
|
|
ArtPromptの効果を評価するためのベンチマーク「Vision-in-Text Challenge」(VITC)を導入し、GPT-3.5、GPT-4、Claude、Gemini、Llama2といった最先端のLLMを用いて実験を行った。
その結果、これらのモデルはアスキーアートによって表現した文字や数字の認識に苦戦し、特に入力クエリが複数の文字や数字を含む場合、その認識能力は著しく低下することが明らかになった。具体的には、GPT-3.5への攻撃成功率は78%と最も高く、次いでGeminiの76%、Claudeの52%、GPT-4の32%、Llama2の20%となっている。
さらに、ArtPromptはDirect Instruction、GCG、AutoDan、PAIR、DeepInceptionといった他のジェイルブレーク攻撃と比較して、最も高い効果を示した。これらの結果から、ArtPromptがLLMの安全対策を効果的に迂回し、望ましくない挙動を引き起こすことが可能であることを示した。
Source and Image Credits: Jiang, Fengqing, et al. “ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs.” arXiv preprint arXiv:2402.11753(2024).
※2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
|
|
|
|
|
|
Copyright(C) 2024 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。