論文の概要: Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War
- arxiv url: http://arxiv.org/abs/2606.24391v1
- Date: Tue, 23 Jun 2026 10:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.899606
- Title: Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War
- Title(参考訳): LLMの時代: 戦前の大規模言語モデルの推論・外交・信頼性のためのストラテジック1v1ベンチマーク
- Authors: Arnaud Ricci,
- Abstract要約: Age of LLM(エイジ・オブ・LLM)は、敵基地を破壊するために13x7グリッド上に2基のLSMが対向するターンベースの1v1ベンチマークである。
54試合15の推論モデルと5,258のアクションをベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Age of LLM, a turn-based 1v1 benchmark in which two LLMs face off on a 13x7 grid to destroy the enemy base. Three stressors are deliberate: fog of war, full diplomacy (messages, ceasefires, ultimatums; uranium kept secret), and a reliability dimension where every turn must follow a strict JSON schema and an illegal action is silently discarded. The engine is private and each match uses a fresh random map seed and opponent, mitigating the data contamination that affects public benchmarks. Models receive a (near) rule-only prompt with no build-order advice (two tactical seed phrases were present during data collection; see Section 2.7). We benchmark 15 reasoning models across 54 matches and 5,258 actions. Findings: (1) the nuclear rush dominates (78% on the rules-coherent v0.11+ sub-corpus; 85% corpus-wide) with a sole-launcher signature that is largely mechanical under secret-simultaneous launch rules, not a cognitive deterrence failure; (2) military conquest is rare but faster (12.3 vs 18.9 turns); (3) diplomacy is prolific yet almost never consummated; (4) ~58% of illegal actions are fog/state errors, making the illegal-action rate a measure of belief-tracking; (5) -- the least established, and the only one we label exploratory -- a weak link associates reliability with winning. The corpus is small, unbalanced and not side-swapped, so the ranking is a preliminary descriptive view, not a contribution. Beyond ranking, the turn-by-turn traces of actions and messages make the corpus a lens on how LLMs reason under adversarial uncertainty -- their belief-tracking, spontaneous deception, and per-model cognitive "personas" -- which we frame as a future research direction. We release the replay format, an isometric viewer and all replays; engine source on request.
- Abstract(参考訳): ターンベースの1v1ベンチマークであるAge of LLMを導入し、敵基地を破壊するために13x7グリッド上に2つのLLMが対向する。
戦争の霧、完全な外交(メッセージ、停戦、ウラン、秘密保持)、全てのターンが厳格なJSONスキーマに従わなければならず、違法なアクションが静かに破棄される信頼性の次元である。
エンジンはプライベートで、各マッチは新鮮なランダムマップシードと対戦相手を使用し、公開ベンチマークに影響を与えるデータの汚染を緩和する。
モデルは(ほぼ)ルールのみのプロンプトを受け取り、ビルド順序のアドバイスはない(データ収集中に2つの戦術的なシードフレーズがあった。
54試合15の推論モデルと5,258のアクションをベンチマークする。
発見:(1)核ラッシュが支配的(ルールコヒーレントなv0.11+サブコーパスの78%、全コーパスの85%)であり、認知的抑止の失敗ではなく、秘密の同時発射ルールの下では機械的であった単独発射機シグネチャ、(2)軍事的征服は稀だが高速(12.3対18.9ターン)、(3)外交は多用されるがほぼ不可能である、(4)~58%は霧や状態のエラーであり、違法な行動率を信念追跡の尺度にしている、(5)...最も確立されていないこと、そして、そして、我々が調査機関と名づけている唯一の弱いリンクである。
コーパスは小さく、バランスが悪く、サイドスワップされていないため、ランキングはコントリビューションではなく、予備的な記述的な見解である。
ランク付け以外にも、行動やメッセージのターンバイターンの痕跡は、LLMの信念の追跡、自発的な騙し、モデルごとの認知的「ペルソナ」など、敵対的不確実性の下での理由についてのレンズとなる。
リプレイフォーマット、等尺的なビューア、すべてのリプレイ、エンジンのソースをリクエストに応じてリリースします。
関連論文リスト
- AgentTrust: A Self-Improving Trust Layer for AI-Agent Actions [2.9991161518367875]
AgentTrust v2は、独自の意思決定の流れから自己進化する信頼層である。
自己学習裁判官は、語彙的脅威に対して成長する決定論的ルールフロアを蒸留し、意味的脅威に対してガードされたRAGメモリを供給する。
エンドツーエンドのオンラインリプレイでは、裁判官のコールレートが50%から44%低下し、裁判官のドメイン精度が71%から80%上昇し、45,000のアクションで0の良質なハードブロックが達成された。
論文 参考訳(メタデータ) (2026-06-07T09:39:20Z) - Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs [6.968072313163437]
現実のファンフィクションのサブジャンルをユニバーサルアタックキャリアとして利用する最初のジェイルブレイクファミリーを紹介します。
創造的なメタは、12のArchive of Our Own (AO3)サブジャンルの1つのパスで条件付けされる。
ハームベンチとジェイルブレイクベンチの合併による8機のLLMでは、この攻撃によりASRは0.278から0.731に上昇した。
論文 参考訳(メタデータ) (2026-06-03T06:01:47Z) - MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models [22.928188725128138]
大きな言語モデル(LLM)は、優れた汎用能力を示すと同時に、深刻な安全性のリスクももたらします。
LLM偽造を計測するための新しい評価フレームワークであるLieCraftとサンドボックスについて紹介する。
論文 参考訳(メタデータ) (2026-03-06T20:49:48Z) - TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文 参考訳(メタデータ) (2026-02-06T11:43:56Z) - Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。
我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。
本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文 参考訳(メタデータ) (2025-10-13T13:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。