論文の概要: Diffuse AI Control on Fuzzy Tasks
- arxiv url: http://arxiv.org/abs/2606.08892v1
- Date: Mon, 08 Jun 2026 00:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.504674
- Title: Diffuse AI Control on Fuzzy Tasks
- Title(参考訳): ファジィタスクにおけるAI制御の難しさ
- Authors: Mikhail Terekhov, Caglar Gulcehre, Vivek Hebbar, Joe Benton,
- Abstract要約: ディフューズAIコントロール(Diffuse AI Control)は、長期展開地平線上に分散されたAIサボタージュによるリスク軽減に関わる、AI安全性のサブフィールドである。
青チームと赤チームの間の対戦ゲームとして,AI制御を考慮した新しいフレームワークを導入する。
我々は、Opus4.6が、GPT-OSS-20Bよりも根拠となる真理プロキシに従って、より悪い提案を書けることを示す。
- 参考スコア(独自算出の注目度): 10.546422203555842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models deployed in critical domains, such as AI safety research, may subtly sabotage our efforts due to misalignment. Diffuse AI Control is a subfield of AI safety concerned with mitigating risks from AI sabotage distributed over long deployment horizons (diffuse threats). These risks are particularly pernicious on fuzzy tasks, i.e. tasks which are hard to grade or require intuition. To understand diffuse threats on fuzzy tasks, we introduce a novel framework that considers AI control as an adversarial game between a blue team and a red team. The blue team uses a weak trusted model to construct a weak score against which they would train a strong, potentially subversive model to remove the subversion propensity if it were present. The red team then tries to find model behaviors that are rated highly by the weak score, and thus might not be trained out, but actually correspond to poor performance. We test our framework on the task of writing experimental proposals for research questions from recent ML papers. We use a language model with access to the original paper as a proxy "ground-truth" scorer. Our red team discovers subversive behaviors using multi-objective evolutionary prompt optimization. We show that Opus~4.6 can write proposals that are worse according to the ground truth proxy than those of GPT-OSS-20B, while the weak scorer rates them as highly as the best proposals from Opus 4.6. To mitigate the threat, we propose an adversarial optimization algorithm for the blue team that discovers more robust prompts for the weak model. This algorithm produces a blue team prompt that our red team optimization fails to exploit.
- Abstract(参考訳): AI安全研究のような重要な領域にデプロイされたAIモデルは、誤った調整のために我々の努力を微妙に妨害する可能性がある。
ディフューズAIコントロール(Diffuse AI Control)は、長期展開地平線上に分散されたAIサボタージュによるリスク軽減に関わるAI安全性のサブフィールドである。
これらのリスクは、特にファジィなタスク、すなわち、格付けが難しい、直感を必要とするタスクに悪用される。
ファジィタスクにおける拡散脅威を理解するために,AI制御を青チームと赤チームの間の対戦ゲームと考える新しいフレームワークを導入する。
ブルーチームは、弱い信頼されたモデルを使用して、弱いスコアを構築する。
するとレッドチームは、弱いスコアで高く評価されたモデル行動を見つけようとする。
我々は,近年のML論文における研究課題に対する実験的な提案書作成の課題について,その枠組みを検証した。
我々は、元の論文にアクセス可能な言語モデルを、代用的な「地味」スコアラーとして使用します。
私たちのレッドチームは、多目的進化的プロンプト最適化を用いて、反転行動を発見する。
Opus ~ 4.6 では GPT-OSS-20B よりも基礎的な真理プロキシに従ってより悪い提案を書けるが、弱いスコアラは Opus 4.6 の最高の提案と同程度に評価する。
脅威を軽減するために,弱いモデルに対するより堅牢なプロンプトを発見するブルーチームに対して,逆最適化アルゴリズムを提案する。
このアルゴリズムは、私たちのレッドチームの最適化が悪用されないように、ブルーチームのプロンプトを生成します。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity? [53.15349353876531]
AIがより有能になるにつれて、より汎用的で簡潔なタスクを委任します。
我々はAIモデルによる誤りのバイアス分散分解を用いてこの問題を運用する。
より有能なAIはより困難なタスクを追求し、よりシーケンシャルな行動と思考を必要とするので、私たちの結果は失敗がより一貫性のない行動を伴うことを予測します。
論文 参考訳(メタデータ) (2026-01-30T14:52:03Z) - Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。
生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。
このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文 参考訳(メタデータ) (2025-08-06T13:52:00Z) - Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - Steganalysis of AI Models LSB Attacks [4.0208298639821525]
悪意ある攻撃者は、共有AIモデルを利用してサイバー攻撃を開始することができる。
この研究は、AIモデルに注入された悪意のあるLast Significant Bit(LSB)ステガノグラフィーのステガナリシスに焦点を当てている。
本研究では,LSB steganography 攻撃の検出・軽減に適したステガナリシス法を提案する。
論文 参考訳(メタデータ) (2023-10-03T11:25:18Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。