論文の概要: RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue
- arxiv url: http://arxiv.org/abs/2606.13310v1
- Date: Thu, 11 Jun 2026 13:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.803446
- Title: RogueAI: A Reverse Turing Test for Detecting Licensed AI Deception in Dialogue
- Title(参考訳): RogueAI: 対話におけるライセンスAIの誤認を検出するリバースチューリングテスト
- Authors: Sara Candussio, Emanuele Ballarin, Lorenzo Bonin, Sandro Junior Della Rovere, Luca Bortolussi,
- Abstract要約: 我々は,このテストを1対2の尋問ゲームとして運用するインタラクティブなWebアプリであるRogueAIを紹介する。
プレイヤーの任務は、不正行為を識別し、ターンの予算が尽きる前に「シャットオフ」することである。
プレイヤーが独自の騙し戦略をひそかに選択するナレーターエージェントでカスタムシナリオを設計する手続き的拡張であるAutoRogueAIを紹介する。
- 参考スコア(独自算出の注目度): 2.7606655162305476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The original Turing Test asks a human judge to distinguish a machine from a person through dialogue. Three quarters of a century later, conversational systems pass this test in casual settings; the interesting epistemological question has shifted. We argue that the relevant modern variant asks not whether a dialogue partner is artificial, but whether it can be trusted. We present RogueAI, an interactive webapp that operationalizes this revisited test as a one-on-two interrogation game: a human player questions two indistinguishable Large Language Model agents, knowing that exactly one of them has been licensed to deceive within a shared fictional scenario. The player's task is to identify the deceptive agent and "shut it off" before a turn budget is exhausted. We further introduce AutoRogueAI, a procedural extension in which players co-design a custom scenario with a narrator agent that secretly chooses its own deception strategy. We describe the framing, sketch the abstract architecture and gameplay loop, and situate the artifact within recent work on LLM deception, social-deduction benchmarks, and scalable oversight via debate. A three-day pilot deployment (467 initiated sessions, 415 completed, 1876 interaction turns in Italian) provides early feasibility evidence and surfaces a concrete tension: the deceptive agent carries a reliable, locally-present linguistic signature - differential helpfulness, brevity, hedging - that a simple heuristic exploits at 75.6% accuracy, yet human players achieved only 56.6%, consistent with ignoring the most diagnostic signal entirely. We discuss what this gap implies for the artifact's use as a data-collection vehicle, a teaching tool, and an evaluation harness for honesty-trained models.
- Abstract(参考訳): オリジナルのチューリングテストでは、人間の裁判官に対話を通じて機械と人間を区別するよう求めている。
その4分の3後、会話システムは、このテストにカジュアルな設定で合格した。
我々は,対話相手が人工的かどうかを問うのではなく,信頼できるかどうかを問う。
人間のプレイヤーが2つの区別がつかない大規模言語モデルエージェントに質問し、その中の1つが、共有されたフィクションシナリオの中で騙されるようにライセンスされていることを知っていました。
プレイヤーの任務は、不正行為を識別し、ターンの予算が尽きる前に「シャットオフ」することである。
さらに、プレーヤーが独自の偽装戦略をひそかに選択するナレーターエージェントとカスタムシナリオを共同設計する手続き拡張であるAutoRogueAIを紹介する。
本稿では, フレーミング, 抽象アーキテクチャ, ゲームプレイループのスケッチ, LLM偽装, ソーシャル・ダクション・ベンチマーク, スケーラブルな監視に関する最近の研究の中で, アーティファクトを整理する。
3日間のパイロット展開(467回の開始セッション、415回の完了、1876年のインタラクション・ターン)は、初期の実現可能性の証拠を提供し、具体的な緊張を表面化する: 偽装エージェントは、信頼性が高く、局所的に表される言語的署名(微分補助性、簡潔性、ヘッジ)を持ち、単純なヒューリスティックなエクスプロイトを75.6%精度で行うが、人間のプレイヤーは56.6%しか達成せず、最も診断信号を完全に無視している。
このギャップは,データ収集用車両,教育ツール,誠実に訓練されたモデル評価用ハーネスとしての利用にどのような意味があるのかを論じる。
関連論文リスト
- RealityTest: How People Probe AI Identity and Whether Models Disclose It [5.4667629504496285]
質問されたAIシステムが自身のアイデンティティを開示するかどうかをテストするために、RealityTestを提示する。
49か国5か国750人の参加者から収集された3,152のアイデンティティ調査クエリの基盤となるデータセットをリリースする。
あいまいなシナリオでアイデンティティを直接問う人はわずか31%で、質問する質問はマシン生成クエリよりもはるかに多様である。
論文 参考訳(メタデータ) (2026-05-29T12:40:16Z) - Conversation Games and a Strategic View of the Turing Test [0.0]
私たちは、評決ゲームと呼ばれるゲームのサブセットに焦点を当てています。
評決ゲームでは、2人のプレーヤーが交互に会話に寄与し、各ステージで非ストラテジックな審査員によって評価される。
シミュレーション実験により提案する概念の実践的妥当性を示し、戦略エージェントが高いマージンでナイーブエージェントより優れていることを示す。
論文 参考訳(メタデータ) (2025-01-30T16:08:37Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in
Dialog Systems [64.10696852552103]
非常に人為的な反応は、ユーザーが人間と対話していると考えることを不快に、あるいは暗黙的に騙すかもしれない。
9つの異なるデータソースからサンプリングした約900の2ターンダイアログの実現可能性に関する人間の評価を収集する。
論文 参考訳(メタデータ) (2022-10-22T12:10:44Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - "Wait, I'm Still Talking!" Predicting the Dialogue Interaction Behavior
Using Imagine-Then-Arbitrate Model [24.560203199376478]
実際の人間と人間の会話では、1ターンで長いメッセージではなく、可読性のためのいくつかの短いメッセージが順次送信されることが多い。
本稿では,エージェントが待機するか,直接応答するかを決定するのに役立つ,新しいImagine-then-Arbitrate(ITA)ニューラルダイアログモデルを提案する。
論文 参考訳(メタデータ) (2020-02-22T04:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。