論文の概要: Bayesian control for coding agents
- arxiv url: http://arxiv.org/abs/2606.24453v1
- Date: Tue, 23 Jun 2026 11:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.919229
- Title: Bayesian control for coding agents
- Title(参考訳): 符号化エージェントに対するベイズ制御
- Authors: Theodore Papamarkou, Vladislav Smirnov, Viktor Mazanov, Artem Vazhentsev, Preslav Nakov, Timothy Baldwin, Artem Shelmanov,
- Abstract要約: 本稿では,コーディングエージェントのためのコスト依存型シーケンシャル仮説テストフレームワークを提案する。
ベイズ管制官は、正確性に対する信念を維持し、より多くの証拠を集め、候補者を精査し、検証し、停止するかを決定する。
本研究では, 信頼状態が, 不確実性定量化のためのトークン確率と生ツール・サクセスベースラインを上回り, 解釈可能な正当性スコアを得ることを示す。
- 参考スコア(独自算出の注目度): 63.64172141184361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern coding agents pair LLM generators with various tools, including cheap diagnostics and expensive verifiers. The tool-use decisions are typically governed by orchestrators that often use fixed rules and ignore uncertainty. We formulate orchestration as cost-sensitive sequential hypothesis testing: a Bayesian controller maintains a belief over candidate correctness and dynamically decides whether to gather more evidence, refine the candidate, verify it, or stop. Across six generators and nine coding benchmarks, Bayesian control proves to be most valuable when verification is costly and critics are informative but imperfect. Beyond control, the belief state yields an interpretable correctness score that outperforms token-probability and raw tool-success baselines for uncertainty quantification.
- Abstract(参考訳): 現代の符号化エージェントは、安価な診断や高価な検証器を含む様々なツールとLLMジェネレータを組み合わせている。
ツール使用の決定は通常、固定ルールを使用して不確実性を無視するオーケストレータによって管理される。
ベイジアンコントローラは、候補の正当性に対する信念を維持し、より多くの証拠を集め、それを精査し、検証し、停止するかを動的に決定する。
6つのジェネレータと9つのコーディングベンチマークで、ベイジアン制御は検証がコストがかかり、批判が有益だが不完全であることを証明している。
制御の他に、信念状態は、不確実性定量化のためのトークン確率と生ツール成功ベースラインを上回る解釈可能な正確性スコアを得る。
関連論文リスト
- Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning [63.24624171679711]
大規模言語モデル(LLM)ベースのエージェントは、しばしば最適なツール使用の決定を行う。
本研究では、不確実性分離を維持するための推進力として、不確実性定量化を報酬設計に組み込んだTRUSTを提案する。
論文 参考訳(メタデータ) (2026-06-05T07:08:34Z) - The Hidden Signal of Verifier Strictness: Controlling and Improving Step-Wise Verification via Selective Latent Steering [67.8271652641864]
我々は,隠蔽状態の介入によって検証の厳密性を制御できるかどうかを検討した。
VerifySteerは、サンプルレベルのルーティングに潜時補正信号を使用し、段落境界に選択的に介入する。
論文 参考訳(メタデータ) (2026-05-20T05:48:16Z) - Bayesian Sequential Verification for Budget-Aware Quantum Program Testing [5.589961715298686]
本稿では,ベイジアンシーケンシャル検証を基準ベース仮説テストワークフローとして定式化する。
QiskitではベルステートとQAOA-MaxCutという2つの補完的なワークロードで評価されている。
論文 参考訳(メタデータ) (2026-05-15T04:21:08Z) - IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation [49.796717294455796]
経済的なモチベーションのある逸脱を検出するための実践的な監査フレームワークIMMACULATEを提案する。
IMMACULATEは、検証可能な計算を用いて少数のリクエストを選択的に監査し、暗号オーバーヘッドを償却しながら強力な検出保証を達成する。
論文 参考訳(メタデータ) (2026-02-26T07:21:02Z) - When to Trust the Cheap Check: Weak and Strong Verification for Reasoning [26.38833436936642]
我々は、強い検証と弱い検証の間の緊張を形式化する。
最適ポリシは2つの閾値構造を持ち,キャリブレーションとシャープネスが弱い検証器の値を支配することを示す。
本研究では,クエリストリーム,言語モデル,弱検証器を仮定することなく,受入誤りや拒否誤りを確実に制御するオンラインアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-02-19T18:47:38Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文 参考訳(メタデータ) (2025-12-02T05:59:18Z) - Validating Solidity Code Defects using Symbolic and Concrete Execution powered by Large Language Models [0.0]
本稿では,Slither-based detectors, Large Language Models (LLMs), Kontrol, Forgeを統合した新しい検出パイプラインを提案する。
私たちのアプローチは、欠陥を確実に検出し、証明を生成するように設計されています。
論文 参考訳(メタデータ) (2025-09-16T12:46:11Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。