論文の概要: A Differentiable Atari VCS:A Complex, Fully Known Ground Truth for Explainable AI
- arxiv url: http://arxiv.org/abs/2606.22447v1
- Date: Sun, 21 Jun 2026 11:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:11:09.011554
- Title: A Differentiable Atari VCS:A Complex, Fully Known Ground Truth for Explainable AI
- Title(参考訳): A Differentiable Atari VCS: 説明可能なAIのための複雑で完全に知られた基盤的真実
- Authors: Andreas Maier, Siming Bayer, Patrick Krauss,
- Abstract要約: 我々は,真のコンピュータアーキテクチャであるAtari 2600 Video Computer System (VCS)を再実装した。
本稿では,その基礎を理論的および定性的な勾配研究で構築し,検証し,その上の勾配に基づくXAIが実現可能であることを示す。
- 参考スコア(独自算出の注目度): 3.9508043303559828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explanation requires ground truth: to verify an account of a system we must know its inner functioning-just what is missing where explainable AI (XAI) is most needed. Systems we can study fall into two camps. Simple, procedural one-decision trees, rule lists, sparse linear models-have a known but trivial mechanism, so explaining them tests nothing; genuinely complex ones-deep networks, real-world tasks-need XAI but have no ground-truth inner functioning, so an explanation can be plausible, confident, and wrong with no way to tell. We remove this dichotomy with a study object both genuinely complex and fully specified-inspectable by construction-and, so gradient methods apply, fully differentiable. We reimplement the Atari 2600 Video Computer System (VCS)-a real computer architecture, and the cradle of deep reinforcement learning-as two independent end-to-end differentiable emulators in Julia (jutari) and JAX (jaxtari), each validated bit-for-bit against xitari. Both reproduce xitari on all 64 supported Arcade Learning Environment (ALE) games: 64/64 byte-identical RAM and 64/64 pixel-identical screens. Treating the cartridge ROM as a weight tensor, RAM as a soft tape, and control flow as gates, we prove the differentiable (soft) execution equals the original (hard) one bit-for-bit in the forward pass at any finite temperature, while exposing surrogate gradients where the bit logic has none. The JAX port also opens a GPU path: batched differentiable rollouts reach millions of environment-steps/s on one commodity GPU. The system was built in roughly 137 active hours over 29 calendar days, much of it written autonomously by coding agents. This paper builds and validates the foundation, showing-theoretically and in a qualitative gradient study-that gradient-based XAI on it is feasible. Both ports' full code is available under the MIT license at https://github.com/akmaier/UnderstandingVCS.
- Abstract(参考訳): システムの説明を検証するためには、内部の機能を知る必要があります。
私たちが研究できるシステムは2つのキャンプに落ちます。
シンプルで手続き的な1つの決定木、ルールリスト、スパース線形モデル 既知のが自明なメカニズムを持っているため、テストは何も説明できない。
我々は、この二分法を、真に複雑で完全に特定可能であり、建設および設計によって検査できる研究対象で除去するので、勾配法が適用され、完全に微分可能である。
我々は,Atari 2600 Video Computer System (VCS) を実際のコンピュータアーキテクチャとして再実装し,Julia (jutari) とJAX (jaxtari) の2つの独立したエンドツーエンドの差別化エミュレータとしての深層強化学習を軸に,それぞれがxtariに対してビット対ビット対ビットの検証を行った。
どちらも、64/64 byte-identical RAMと64/64 pixel-identical Screenという、サポート対象のArcade Learning Environment (ALE) ゲームすべてでxitariを再現した。
カートリッジROMを重みテンソルとして、RAMをソフトテープとして、そして制御フローをゲートとして扱うと、この微分可能な(ソフト)実行は、ビットロジックが存在しないサロゲート勾配を露呈しながら、任意の有限温度でフォワードパスにおける元の(ハード)1ビットと等しいことを示す。
バッチ化された差別化可能なロールアウトは、ひとつのコモディティGPU上で数百万の環境ステップ/秒に到達します。
このシステムは29日間に約137時間のアクティブな時間で構築され、その多くはコーディングエージェントによって自律的に書かれていた。
本稿では,その基礎を構築し,その基礎を理論的かつ定性的な勾配研究で検証し,その上の勾配に基づくXAIが実現可能であることを示す。
両ポートの完全なコードはMITライセンスでhttps://github.com/akmaier/UnderstandingVCSで入手できる。
関連論文リスト
- Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX [38.43966132249977]
リイチ・マヒョン(Riichi Mahjong)は、高次元状態空間と高次元状態空間を特徴とする多人数不完全な情報ゲームである。
JAX で実装された完全ベクトル化された Riichi Mahjong 環境である textbfMahjax を導入し,大規模ロールアウト並列化を実現する。
Mahjaxは1秒あたり最大で60万、60万のスループットを実現しています。
論文 参考訳(メタデータ) (2026-05-20T00:33:28Z) - TinyTorch: Building Machine Learning Systems from First Principles [7.557409593010283]
生徒は、それらを実行するシステムを理解することなく、アルゴリズムを学ぶ。
この"algorithmsystems split"は、モデルをトレーニングできるが、メモリ障害をデバッグできない実践者を生成する。
このギャップを埋めるカリキュラム「TinyTorch」について紹介する。
カリキュラムはmlsysbook.ai/tinytorchでオープンソースで公開されている。
論文 参考訳(メタデータ) (2026-01-27T02:18:11Z) - Exploring Human-AI Conceptual Alignment through the Prism of Chess [9.971673324195761]
AIシステムは人間の概念を本当に理解しているか、それとも単に表面パターンを模倣するのか?
我々は、人間の創造性が正確な戦略的概念を満たすチェスを通してこれを調査する。
ゲームに勝つ表現は、人間の思考と一致するものとは異なる。
論文 参考訳(メタデータ) (2025-10-29T23:40:40Z) - Exploiting the Potential of Linearity in Automatic Differentiation and Computational Cryptography [0.0]
線形性の概念は数学と計算機科学の両方において中心的な役割を果たす。
この論文では線形性に基づいたプログラミングパラダイムのモデル化にLinear Logic (LL) を用いることについて論じている。
ADLLとCryptoBLLの2つの部分から構成される。
論文 参考訳(メタデータ) (2025-10-20T07:02:48Z) - GaussGym: An open-source real-to-sim framework for learning locomotion from pixels [78.05453137978132]
本稿では,3次元ガウススプラッティングをベクトル化物理シミュレータのドロップインとして統合した光現実的ロボットシミュレーションを提案する。
これにより、コンシューマGPUで毎秒10万ステップを超える、前例のないスピードを実現している。
また,シミュレーティブ・トゥ・リアル・ロボティクス・セッティングにおける適用性を実証した。
論文 参考訳(メタデータ) (2025-10-17T06:34:52Z) - PICT -- A Differentiable, GPU-Accelerated Multi-Block PISO Solver for Simulation-Coupled Learning Tasks in Fluid Dynamics [62.93137406343609]
我々はPyTorchで符号化された可変圧単純化解器であるPICTをGPU(Graphics-Processing-unit)をサポートした流体シミュレータとして提案する。
まず,様々なベンチマークにおいて,フォワードシミュレーションと導出した勾配の精度を検証した。
2次元, 3次元の複雑な乱流モデルの学習には, 解法によって得られる勾配が有効であることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:55:10Z) - Beyond The Rainbow: High Performance Deep Reinforcement Learning on a Desktop PC [6.812247730094933]
BTR(Beyond The Rainbow)は、RL文学からレインボーDQNへの6つの改良を統合する新しいアルゴリズムである。
我々は、複雑な3Dゲームを扱うBTRの能力を実証し、スーパーマリオギャラクシー、マリオカート、モルタルコンバットをプレイするエージェントのトレーニングに成功した。
計算効率を念頭に設計したBTRでは、エージェントは12時間以内に2億のAtariフレーム上のハイエンドデスクトップPCを使って訓練することができる。
論文 参考訳(メタデータ) (2024-11-06T10:42:04Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。