論文の概要: Elo-Disentangled Player-Style Embeddings for Human Chess via Rating-Conditioned Residual Move Model
- arxiv url: http://arxiv.org/abs/2606.25176v1
- Date: Tue, 23 Jun 2026 21:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.144849
- Title: Elo-Disentangled Player-Style Embeddings for Human Chess via Rating-Conditioned Residual Move Model
- Title(参考訳): レイティング・コンディションド残留移動モデルによるヒト胸部エロディペンタングル型プレイヤースタイル埋め込み
- Authors: Jason Carlson,
- Abstract要約: 我々は,個別の人間のチェススタイルの表現学習について研究する。
プレイヤーごとの埋め込みはプレイヤーの動き履歴から学習される。
強い評価条件ベースとコンパクトなエロ異形埋め込みは、経済的な、解釈可能な個々のスタイルモデルである、と我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study representation learning for individual human chess style: a per-player embedding learned from a player's move history such that inner products measure stylistic similarity, while being approximately disentangled from playing strength (Elo). Our key design is a residual formulation: a rating-conditioned base move model (Maia-3 policy logits plus Stockfish-derived features, scored over Maia-2-proposed candidates) captures what a typical player of a given strength would play, and a frozen copy of it anchors a learned move encoder and a per-player vector z, so that z explains only deviations from rating-typical play. The base model improves move prediction over the strong Maia-3 policy by 27-37% relative NLL across the rating spectrum, with the largest gains at the top (2800+); Stockfish's marginal value grows monotonically with Elo (negligible at 900-1200, +0.085 nats at 2800+). On a shared Elo-stratified benchmark of 22,620 held-out decisions, top-1 move-matching rises monotonically from Maia-2 to Maia-3 to the Stockfish-augmented base (0.51 -> 0.57 -> 0.68): the base is +33% relative top-1 over Maia-2 and +19% over Maia-3 (30% lower NLL), with the engine-feature lift largest at high Elo. The player embedding adds little to raw move-matching on top of this base -- its marginal top-1 gain falls within the 95% confidence interval -- and its value is instead representational: z generalizes to held-out decisions without overfitting, re-identifies players from disjoint games above chance, and a linear probe recovers rating from z with only R^2 = 0.06 (no better nonlinearly), evidence it captures style on an Elo-orthogonal axis. We argue that a strong rating-conditioned base plus a compact, Elo-disentangled embedding -- separating typical play from individual deviation -- is an economical, interpretable model of individual style, an alternative to per-player preference fine-tuning.
- Abstract(参考訳): 本研究では,プレイヤーの移動履歴から学習したプレイヤーごとの表現学習について検討し,内部積がスタイル的類似度を測りながら,演奏強度(エロ)からほぼ遠ざかっていることを示す。
評価条件付きベース移動モデル(Maia-3ポリシーロジットとStockfishから派生した特徴、Maia-2提案された候補よりも高い)は、与えられた強度の典型的なプレーヤが何をプレイするかをキャプチャし、凍結したコピーは学習した移動エンコーダとプレイヤー毎のベクトルzをアンカーするので、zは評価基準の典型的なプレーから逸脱することしか説明できない。
ベースモデルは、格付けスペクトル全体で27~37%の相対的NLL比で、最上位(2800以上)で最大の上昇率を示し、ストックフィッシュの限界値はエロ(900-1200以上+0.085ナット、2800以上)と単調に成長する。
22,620のホールトアウト決定の共通Elo-stratifiedベンチマークでは、トップ-1の移動マッチングは、Mia-2からMaia-3まで単調に上昇し、Stockfish-augmented base (0.51 -> 0.57 -> 0.68):ベースはMaia-2より+33%、Maia-3(30%低いNLL)より+19%、エンジン機能リフトはハイエロで最大である。
プレイヤーの埋め込みは、このベースの上に生の移動マッチングにほとんど加わらず -- 限界のトップ-1ゲインは95%の信頼区間に収まる -- 代わりに、その値が表される: z は過度に適合することなくホールトアウト決定に一般化し、プレイヤーを偶然に解離したゲームから再識別し、線形プローブは、R^2 = 0.06(より非線形ではない)のみでzから評価を回復し、エロオルソゴン軸上のスタイルを捉えた証拠である。
強い評価条件付きベースとコンパクトなエロディペンタングド埋め込み -- 典型的なプレイと個人差を分離する -- は、個人スタイルの経済的、解釈可能なモデルであり、プレイヤーごとの好みの微調整に代わるものだ、と我々は主張する。
関連論文リスト
- ChessMimic: Per-Rating Transformer Models for Human Move, Clock, and Outcome Prediction in Online Blitz Chess [0.08460698440162888]
ChessMimicは、移動、思考時間、結果予測のための3つのエンコーダのみのトランスフォーマーのシステムである。
Lichess Rated Blitzのゲームでは、ChessMimicの人間の動き予測精度はEloの各バンドでMaia-2を上回っている。
公開デモは1e4.aiで、コード、バンド単位の重み付け、C++データフィルタパイプラインコードをGitHubでリリースしています。
論文 参考訳(メタデータ) (2026-06-03T05:42:39Z) - Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers [3.692740024498697]
人間のようなチェスエンジンは、遊びの強さを最大化するのではなく、強い人間のプレーヤーのスタイル、エラー、一貫性を真似るべきである。
移動順序のみからのトレーニングは、ボードを移動履歴から再構築する状態トラッキングと、その再構築された状態から良い動きを選択する決定品質という2つの能力の学習をモデルに強いることを示す。
このテンションを二重能力ボトルネック P = min(T,Q) として定式化し、全体的な性能はより弱い能力によって制限される。
論文 参考訳(メタデータ) (2026-03-31T14:01:39Z) - Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation [17.451562591754698]
ドローが真に2つのモデルが等しいことを意味するかどうかを調べる。
我々は、ドローの方がクエリの難しさを示すと推測する。
我々は、既存のドローセマンティクスを再考する将来の評価システムを提案する。
論文 参考訳(メタデータ) (2025-10-02T17:59:41Z) - Multiplayer Nash Preference Optimization [79.15013211640566]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる標準パラダイムとして登場した。
最近の研究は、2人プレイのナッシュゲームとしてアライメントを再構築し、ナッシュの学習を人間のフィードバック(NLHF)から引き起こした。
マルチプレイヤーシステムにNLHFを一般化する新しいフレームワークであるMultiplayer Nash Preference Optimization (MNPO)を導入する。
論文 参考訳(メタデータ) (2025-09-27T04:18:33Z) - CHARM: Calibrating Reward Models With Chatbot Arena Scores [31.599659350165354]
リワードモデル(RM)は、人間の好みのプロキシとして機能し、大きな言語モデルを調整することで、人間のフィードバックからの強化学習において重要な役割を果たす。
我々は、RMにおけるモデル優先バイアスを特定し、特定のポリシーモデルからの応答に不均等に高いスコアを体系的に割り当てる。
この問題に対処するために,アリーナリーダーボードからのエロスコアを利用したCHARM(Chaatbot Arena Reward Modeling)というキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:51:09Z) - Chess Rating Estimation from Moves and Clock Times Using a CNN-LSTM [11.340099493701029]
本稿では,ゲームの動きや時計時間から直接プレイヤーの格付けを推定する手法を提案する。
我々のモデルアーキテクチャは、位置特徴を学習するためのCNNで構成されており、時計時間データと統合された双方向LSTMである。
このモデルは、手作りの機能を使わずにチェスのレーティングを推定し、各移動後にレーティング予測を出力した最初のモデルである。
論文 参考訳(メタデータ) (2024-09-17T19:19:16Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。