論文の概要: Structural Grid Descriptors Predict Within-Task Solver Success on ARC-AGI
- arxiv url: http://arxiv.org/abs/2606.09026v2
- Date: Tue, 09 Jun 2026 17:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.950131
- Title: Structural Grid Descriptors Predict Within-Task Solver Success on ARC-AGI
- Title(参考訳): ARC-AGI上でのタスク内ソルバー成功を予測する構造グリッド記述子
- Authors: Ayan Pendharkar,
- Abstract要約: 中間格子状態の構造的性質が、条件付き相互情報I(X;Ytask) > 0 の試験として、シンボルARC-AGIソルバが成功するかどうかを予測できるかどうかを問う。
44,800回にわたって、アーキテクチャ的に異なる2つのサーチとDFSソルバにまたがって実行されており、ほとんどのコンテンツは単一のグリッド-複雑軸に沿って配置されている。
信号はソルバ容量(ビームサーチとSDFS、p 95の残差AUC=0.927と0.896)で説明されず、軌道を測るために弱結合されているだけである(R2は約0)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We ask whether structural properties of intermediate grid states predict whether a symbolic ARC-AGI solver will succeed, framed as a test of conditional mutual information I(X;Y|task) > 0. Across 44,800 runs spanning two architecturally distinct solvers (beam search and Stochastic DFS), 400 ARC tasks, 28 configurations per solver, and both training and evaluation splits, hand-crafted grid descriptors measured at 50% trajectory completion discriminate successful from failed runs within the same task (mean within-task best-feature AUC = 0.885, p < 0.001 under within-task label permutation). Most predictive content lies along a single grid-complexity axis. The result generalizes across solver architectures: a feature selected on one solver predicts success on the other with AUC 0.747-0.762 in all four transfer directions (p < 0.001, leakage controlled). On a pre-registered held-out set of 41 reliable tasks, the frozen feature n_components_final achieves AUC = 0.765 (95% CI [0.717, 0.810], p < 0.001), robust under task-clustered bootstrap resampling and cross-solver task collapsing. The signal is not explained by solver capacity (configuration-residualized AUC = 0.927 and 0.896 for beam search and SDFS, p < 0.001) and is only weakly coupled to score trajectories (R^2 approximately 0). Early stopping at 50% completion reduces beam-search compute by 33.6% while retaining 98.9% of solves; degenerate-trajectory detection reduces SDFS compute by 65.3% with no solve loss. Finally, on 229 of 400 evaluation tasks the DSL primitive library produces no valid transition from the input grid. This 0-step collapse is invariant to search budget and universally failed by beam search, indicating a DSL coverage limitation rather than a search-budget effect.
- Abstract(参考訳): 我々は、条件付き相互情報 I(X;Y|task) > 0 の検定として、シンボルARC-AGIソルバが成功するかどうかを中間格子状態の構造的性質が予測するかどうかを問う。
44,800は、2つのアーキテクチャ的に異なる解法(ビームサーチと確率DSS)、400のARCタスク、1ソルバごとに28のコンフィギュレーション、およびトレーニングと評価の分割、50%の軌道完了で測定された手作りグリッド記述子は、同じタスク内で失敗した実行から識別する(つまり、タスク内最良のAUC = 0.885, p < 0.001)。
ほとんどの予測コンテンツは、単一のグリッド-複雑軸に沿っている。
1つのソルバで選択された機能は、AUC 0.747-0.762を4つの転送方向すべてで(p < 0.001, リーク制御)、もう1つのソルバで成功を予測する。
41の信頼性タスクからなる事前登録されたホールトアウトセットでは、凍結された機能 n_components_final が AUC = 0.765 (95% CI [0.717, 0.810], p < 0.001) を達成する。
信号はソルバ容量(ビームサーチとSDFSのためのAUC = 0.927と0.896、p < 0.001)で説明されず、軌跡(R^2は約0)に弱結合されている。
50%の早期停止は、解の98.9%を維持しながらビームサーチ計算を33.6%削減し、縮退軌道検出は解の損失を伴わずにSDFS計算を65.3%削減する。
最後に、400の評価タスクのうち229では、DSLプリミティブライブラリが入力グリッドから有効な遷移を生成しない。
この0ステップの崩壊は、検索予算に不変であり、ビームサーチによって普遍的に失敗し、検索予算効果よりもDSLカバレッジ制限が示される。
関連論文リスト
- AttackPathGNN: Cross-function vulnerability detection in smart contracts using state interference graphs and conjunction pooling [3.8615905456206256]
Solidityスマートコントラクトのための既存の学習ベースの検出は、脆弱性検出を単一関数内のパターンマッチングに還元する。
本稿では,グラフニューラルネットワーク(GNN)であるAttackPathGNNを提案する。
論文 参考訳(メタデータ) (2026-06-04T10:30:24Z) - Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - AXIOM: A Trust-First Neuro-Symbolic Execution Architecture for Verifiable Mathematical Reasoning [0.0]
AXIOMは、自然言語の数学的推論のための信頼第一の神経象徴的実行アーキテクチャである。
累積正解率94.36%(2,592/2,747)の4MATHカテゴリーの実証結果について報告する。
アーキテクチャは、パブリックデプロイメントを通じて3万のプロダクションクエリを提供する。
論文 参考訳(メタデータ) (2026-05-30T10:55:24Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - optimize_anything: A Universal API for Optimizing any Text Parameter [98.42497715725356]
単一タスク検索をサポートする1つのAIベースの最適化システム、クロスプロブレム転送によるマルチタスク検索、および目に見えない入力への一般化を示す。
LLMに基づく検索によるテキストの最適化は汎用的な問題解決パラダイムであることを示す。
論文 参考訳(メタデータ) (2026-05-19T10:18:12Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding [4.738949927143789]
LLMエージェントシステムは、コンポーネント(計画、ツール、メモリ、自己回帰、検索)を積み重ねて構築される
We run a full factorial experiment on all 25=32 subsets of five components on HotpotQA and GSM8K with Llama-3.1-8B/70B conditions。
シングルツールエージェントのHotpotQAは、All-Inを32%上回る(F1 0.233 vs 0.177, p23)。
以上の結果から,最大装備エージェントは相互作用認識分析によりサブセット選択に置き換えるべきであることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T06:01:43Z) - ARCS: Autoregressive Circuit Synthesis with Topology-Aware Graph Attention and Spec Conditioning [0.0]
ARCSは、検索ベースの手法で必要とされる分ではなく、完全なSPICEシミュラブルな設計をミリ秒で生成する。
単モデル推論では、ベストオブ3候補選択を備えたトポロジ対応グラフ変換器が97msで85%のシミュレーション精度に達し、ランダム検索より600倍以上高速である。
論文 参考訳(メタデータ) (2026-03-30T23:14:08Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。