論文の概要: Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs
- arxiv url: http://arxiv.org/abs/2606.13815v1
- Date: Thu, 11 Jun 2026 18:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.576168
- Title: Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs
- Title(参考訳): Poker Arena: LLMにおける戦略的推論と記憶のマルチ軸プロファイリング
- Authors: Pratham Singla, Shivank Garg, Vihan Singh,
- Abstract要約: ベイクサイズキャリブレーションや位置認識といった,戦略的推論を解釈可能な次元に分解する,9軸の認知プロファイルを備えた3層メモリアーキテクチャを結合した,テキサスホールディングストーナメントプラットフォームであるPoker Arenaを紹介する。
我々は,1000回の50セッションにまたがる7つのフロンティアモデルと制御されたメモリアブレーションを評価し,トーナメントチップとアグリゲート軸スコアが異なるフィールドをオーダーした。
これらの結果から,スカラー・リーダーボードが系統的に誤動作する多軸評価構造が,任意の単軸上でのピーク性能よりも多次元的整合性が高いことがわかった。
- 参考スコア(独自算出の注目度): 1.6440434996206623
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Strategic reasoning under uncertainty underpins consequential decisions in negotiation, finance, and policy, but prevailing game-play benchmarks collapse heterogeneous reasoning dimensions into a single scalar, leaving the capability structure of frontier LLMs unexamined. We introduce Poker Arena, a no-limit Texas Hold'em tournament platform that couples a three-layer memory architecture (within-hand, session, and cross-session) with a nine-axis cognitive profile decomposing strategic reasoning into interpretable dimensions such as bet-sizing calibration and positional awareness. We evaluate seven frontier models across 50 sessions of 1,000 hands and a controlled memory ablation; tournament chips and aggregate axis score order the field differently: Claude Opus 4.6 wins +$15,730 chips with 14 first-place finishes, yet ranks only fifth of seven on mean axis score, while persistent memory helps some models and hurts others. These findings show that multi-axis evaluation surfaces capability structure that scalar leaderboards systematically misrank, with cross-dimensional consistency outweighing peak performance on any single axis.
- Abstract(参考訳): 不確実性の下での戦略的推論は、交渉、金融、政策において連続的な決定を下すが、ゲームプレイのベンチマークは不均一な推論次元を単一のスカラーに崩壊させ、フロンティアLSMの能力構造を未検討のまま残す。
ベイクサイズキャリブレーションや位置認識などの解釈可能な次元に戦略的推論を分解する9軸認知プロファイルと,3層メモリアーキテクチャ(手作業,セッション,クロスセッション)を結合した,無制限のテキサスホールデムトーナメントプラットフォームであるPoker Arenaを紹介する。
トーナメントチップとアグリゲート軸スコアは異なるフィールドをオーダーする: Claude Opus 4.6 wins + 15,730 chips with 14 first-place finishs, but rank only seven of seven on mean axis score, while persistent memory help some model and hurts others。
これらの結果から,スカラー・リーダーボードが系統的に誤動作する多軸評価構造が,任意の単軸上でのピーク性能よりも多次元的整合性が高いことがわかった。
関連論文リスト
- MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs [54.81359054218573]
大規模言語モデル(LLM)のためのマルチゲームアリーナと評価プラットフォームであるMindgamesを紹介する。
Mindgamesは、統合されたインタラクションインターフェース、TrueSkillベースの評価、および4つのゲーム環境にわたる完全な軌跡ログを提供する。
我々は,決定論的オフライントーナメントプロトコルMG-Refとともに,ターンレベルの観察,アクション,報酬を含む29,571個のマルチエージェントゲームを分析した。
論文 参考訳(メタデータ) (2026-05-28T07:33:47Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models [0.269220799495636]
大規模言語モデル(LLM)は、市場、オークション、入札設定における経済エージェントとして、ますます多くデプロイされている。
既存の戦略推論ベンチマークは、固定された標準ゲーム上のモデルを評価する。
これらの課題に対処するために、手続き的に生成された戦略的環境を利用するGENSTRATを導入する。
論文 参考訳(メタデータ) (2026-05-22T05:13:45Z) - Human-Inspired Memory Architecture for LLM Agents [0.9507070656654629]
6つの認知機構からなる生体記憶アーキテクチャを提案する。
各メカニズムは、単純メモリ蓄積の特定の障害モードに対処する。
S層スケール(50セッション)では、デダップベースのコンソリデーションにより、好みのリコールが+13.3pp向上する。
論文 参考訳(メタデータ) (2026-05-08T22:52:37Z) - StratFormer: Adaptive Opponent Modeling and Exploitation in Imperfect-Information Games [0.8574682463936006]
StratFormerはトランスフォーマーベースのメタエージェントで、不完全な情報ゲームで対戦相手を同時にモデル化し、活用することを学ぶ。
StratFormer は GTO 上で1人当たり平均 0.106 BB の攻撃ゲインを達成し、高い攻撃力を持つ相手に対して 0.821 のピークゲインを達成している。
論文 参考訳(メタデータ) (2026-04-28T16:03:14Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。