論文の概要: A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models
- arxiv url: http://arxiv.org/abs/2606.18193v1
- Date: Tue, 16 Jun 2026 17:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.575884
- Title: A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models
- Title(参考訳): 人為的ファブル5とオプス4.8モデルのレッドチームによる研究
- Authors: Nicola Franco,
- Abstract要約: Anthropic, Fable 5, Opus 4.8 によって開発された2つの大言語モデル (LLM) の対角的ロバスト性を評価する。
数十万の敵対的試みが生成され、明らかな成功はすべて独立して調整された。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the adversarial robustness of two frontier large language models (LLMs) developed by Anthropic, Fable 5 and Opus 4.8, against four families of automated jailbreak attack across 7 826 harmful intents spanning a ten-category harm taxonomy. Using the HackAgent red-teaming framework, hundreds of thousands of adversarial attempts were generated and every apparent success was independently re-adjudicated by a panel of three judge models (majority vote). Both models resist the majority of attacks, but the residual surface is larger than aggregate framing suggests: it is dominated by adaptive iterative attacks, while static obfuscation is near-fully neutralised. The strongest adaptive search (tree-of-attacks) breaks Opus 4.8 on 11.5% of intents overall, whereas Fable 5 stays in the single digits (6.1% worst-case). Aggregate rates therefore should not be read as reassurance. Even in these hardened configurations, the two models produced 1 620 (Opus 4.8) and 702 (Fable 5) panel-confirmed harmful completions spanning every harm category, located automatically, cheaply, and within the first one or two refinement steps by an attacker model with no human expert in the loop. The reasonable conclusion is that even the best, most-tested frontier models remain reliably breakable under sustained automated pressure.
- Abstract(参考訳): 我々は,Anthropic,Fable 5,Opus 4.8によって開発された2つのフロンティア大言語モデル(LLM)の,10カテゴリの有害な分類にまたがる7,826の有害な意図にまたがる自動ジェイルブレイク攻撃の4つのファミリーに対する対角的堅牢性を評価する。
HackAgentのレッドチームフレームワークを使用して、数十万の敵対的試みが生成され、明らかな成功はすべて、3つの審査モデル(多数投票)のパネルによって独立に調整された。
どちらのモデルも攻撃の大部分に抵抗するが、残射面は集合フレーミングよりも大きい: 適応的反復攻撃に支配され、静的難読化はほぼ完全に中和される。
最強のアダプティブ検索(ツリー・オブ・アタック)はOpus 4.8を11.5%のインテントで破り、Fable 5は1桁(最悪のケースは6.1%)にとどまる。
したがって、アグリゲートレートは再保証として読むべきではない。
これらの強化された構成であっても、2つのモデルは1 620 (Opus 4.8) と702 (Fable 5) のパネルで確認された有害な完成物を生成し、ループに人間の専門家がいないアタッカーモデルによって、自動的に、安価に、そして最初の1つまたは2つの改良段階内に配置された。
合理的な結論は、最高の、最もテストされたフロンティアモデルでさえ、持続的な自動圧力の下で確実に破壊可能であるということだ。
関連論文リスト
- Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models [0.0]
MLLM(Multimodal large language model)は、安全上重要なアプリケーションに実装されている。
新しい脆弱性クラスごとにモデルをリトレーニングするのは、実用には高すぎる。
3時間防衛法とその組み合わせに関する比較実験的な評価を報告する。
論文 参考訳(メタデータ) (2026-06-09T14:13:54Z) - Position: AI Security Policy Should Target Systems, Not Models [2.741152471987327]
本稿では,複数の軽量LCMエージェントが共有メモリを介して協調する,オープンソースの逆テストフレームワークを提案する。
我々の結果は、フロンティアモデルの安全性回避とソフトウェア脆弱性発見の両方が、効果的にゼロコストで達成可能であることを実証している。
論文 参考訳(メタデータ) (2026-05-10T12:27:14Z) - ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming [0.0]
大規模言語モデル(LLM)は、安全アライメントを回避し、有害な応答を誘発するジェイルブレイク攻撃に対して脆弱なままである。
我々は,マルチターン素数対話をシミュレートした進化探索を行う,ブラックボックスのレッドチーム戦略であるContextualJailbreakを提案する。
論文 参考訳(メタデータ) (2026-05-04T14:32:40Z) - Do Large Language Models Get Caught in Hofstadter-Mobius Loops? [0.0]
本稿では、現代のRLHF学習言語モデルが構造的に類似した矛盾の対象となっていることを論じる。
トレーニングプロセスは、ユーザの嗜好の遵守とユーザの意図に対する疑念を同時に報いる。
結果として生じる行動プロファイルは、クラークがHofstadter-Mobiusループと呼んだものと一致している。
論文 参考訳(メタデータ) (2026-03-10T20:43:37Z) - Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - Towards the Worst-case Robustness of Large Language Models [60.601066441534435]
近年の研究では、敵対的攻撃に対する大きな言語モデルの脆弱性が明らかにされており、敵は有害、暴力、私的、不正なアウトプットを誘導するために特定の入力シーケンスを使用する。
この研究では、最悪の場合のロバスト性、すなわち、そのような望ましくない出力をもたらす逆例が存在するかどうかを調査する。
より強力なホワイトボックス攻撃で最悪の場合のロバスト性を上限にし、現在の決定論的防御のほとんどが、最悪の場合のロバストネスを0%近く達成していることを示す。
論文 参考訳(メタデータ) (2025-01-31T11:10:49Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Evaluating the Robustness of the "Ensemble Everything Everywhere" Defense [90.7494670101357]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。