論文の概要: Grounded Scaling: Why Agentic AI Needs Deterministic Environments
- arxiv url: http://arxiv.org/abs/2606.22495v1
- Date: Sun, 21 Jun 2026 13:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:54:48.87055
- Title: Grounded Scaling: Why Agentic AI Needs Deterministic Environments
- Title(参考訳): グラウンドドスケーリング:エージェントAIが決定論的環境を必要とする理由
- Authors: Liang Ding, Xintong Wang,
- Abstract要約: 長鎖エージェントの実行は、人間の寛容のために設計された環境で指数関数的に失敗する。
我々は、このフレームワークを5つの測定可能な特性に対してサプライ確実性指標(SCI)として運用する。
我々は、sim-to-real sufficiency、アライメント sufficiency、AI-as-normal-technologyという3つの競合するポジションを担っている。
- 参考スコア(独自算出の注目度): 12.666642977162468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-chain agent execution fails exponentially in environments designed for human tolerance: with per-step determinism $δ< 1$, $k$-step chain success degrades as $δ^k$. The AGI-to-ASI scaling debate (Genewein et al., 2026) has so far framed progress as a race between compute growth and a list of frictions (data wall, abstraction barrier, embodied bottleneck, multi-agent trust); we argue that environment determinism is a complementary binding axis cutting across all four, for the broad class of agentic AI tasks whose outcomes are verifiable economically, physically, or through multi-party settlement. Three formal results pin down the regime: a Determinism-Efficiency Bound on chain-task success, a Verifier-Goodharting Floor on flywheel ceilings under imperfect rewards, and a convergence condition for environment-side skill evolution. We operationalise the framework as a Supply Certainty Index (SCI) over five measurable properties, a five-level Determinism Maturity Model (DMM) as adoption ladder, and a falsifiable open-question programme (OQ1-OQ5) with explicit null results that would force retraction. The position is platform-agnostic. We engage three competing positions: sim-to-real sufficiency, alignment sufficiency, and AI-as-normal-technology.
- Abstract(参考訳): 長鎖エージェントの実行は、人間の寛容のために設計された環境において指数関数的に失敗する: ステップごとの決定性を持つ$δ<1$, $k$-stepチェーンの成功は、$δ^k$として低下する。
AGI-to-ASIスケーリングに関する議論(Genewein et al, 2026)は、これまでのところ、計算の成長と摩擦(データの壁、抽象障壁、具体化ボトルネック、マルチエージェント信頼)の競合として進展している。
3つの公式な結果は、チェーン・タスクの成功に関する決定主義=効率境界、不完全な報酬の下でフライホイール天井上の検証Goodharting Floor、環境サイドのスキル進化のための収束条件である。
提案手法は,5つの測定可能な特性に対する供給確定度指標 (SCI) として,5レベル決定性成熟度モデル (DMM) を採用ラグとして,そして,取り消しを強制する明示的な無効な結果を伴うFalsible Open-question Program (OQ1-OQ5) として運用する。
ポジションはプラットフォームに依存しない。
我々は、sim-to-real sufficiency、アライメント sufficiency、AI-as-normal-technologyの3つの競合するポジションを担っている。
関連論文リスト
- Civilizational Metamaterials: Engineering Coordination Under Capability Gradients and Structural Turbulence [0.0]
ガバナンスは規範的な規律からエンジニアリングの規律に移行しなければなりません。
メタマテリアルの物理にインスパイアされた形式的な枠組みを開発し、この遷移を定量的かつ検証可能にする。
論文 参考訳(メタデータ) (2026-05-29T18:10:00Z) - LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition [55.572260012037084]
本稿では, LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を紹介する。
モデルの潜在論理エキスパートズ(Latent Logic Expertise)からのコンセンサスを集約することで、変分論理ポテンシャルを導出する。
LC-ERDは、論理の一貫性と正確性の間のトレードオフを明らかにする、堅牢な自己進化パスを提供する。
論文 参考訳(メタデータ) (2026-05-19T07:27:50Z) - PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments [59.07829883257003]
5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:59:47Z) - Attributing Emergence in Million-Agent Systems [68.53670424791751]
大規模言語モデル(LLM)は、個々のエージェントにおける人間のような推論と意思決定をシミュレートすることができる。
このような研究は、個々のエージェントにマクロな出現をもたらす必要がある。
Aumann--Shapley path-integral attribution to LLM-powered MAS at million-agent scale。
論文 参考訳(メタデータ) (2026-05-12T01:49:41Z) - OOM-RL: Out-of-Money Reinforcement Learning Market-Driven Alignment for LLM-Based Multi-Agent Systems [4.970665847294818]
目的的アライメントパラダイムとして textbfOut-of-Money Reinforcement Learning (OOM-RL) を導入する。
本研究は,ハイターン・サイコファンティック・ベースラインから,ロバストで流動性に配慮したアーキテクチャへのシステム進化を詳述する。
我々は、厳格な経済罰と主観的人間選好の代用が、実環境における自律的エージェントの整合のための堅牢な方法論を提供すると結論付けている。
論文 参考訳(メタデータ) (2026-04-13T13:45:42Z) - The Novelty Bottleneck: A Framework for Understanding Human Effort Scaling in AI-Assisted Work [4.726153739634646]
新規性ボトルネックと呼ばれるメカニズムを分離した人間とAIのコラボレーションモデルを提案する。
モデルはタスクが原子的な決定に分解されると仮定する。
私たちの貢献は、人間の努力が線形にスケールしなければならないという証拠ではありません。
論文 参考訳(メタデータ) (2026-03-28T22:50:13Z) - When AI Levels the Playing Field: Skill Homogenization, Asset Concentration, and Two Regimes of Inequality [0.7016842616745783]
生成AIは、経済価値を集中的な補完資産にシフトしながら、タスク内スキルの違いを圧縮する。
我々は、この緊張関係を内在的教育、雇用主検診、異種企業によるタスクベースモデルで定式化する。
このモデルでは、境界がAIの技術構造に依存する2つのレジームが生成される。
論文 参考訳(メタデータ) (2026-03-05T12:41:08Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。