論文の概要: RACL: Reasoning-Agent Control Layers for Continuous Metaheuristic Learning
- arxiv url: http://arxiv.org/abs/2606.20142v1
- Date: Thu, 18 Jun 2026 12:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.838912
- Title: RACL: Reasoning-Agent Control Layers for Continuous Metaheuristic Learning
- Title(参考訳): RACL:連続メタヒューリスティック学習のための推論・エージェント制御層
- Authors: Antón Asla Manzárraga,
- Abstract要約: 本稿ではメタヒューリスティックスのためのReasoning-Agent Control LayerであるRACLを紹介する。
エージェントはガードレールを置き換えず、ビジネス制約を変更しない。
エージェントの内部探索行動は、操作記憶を観察し、過去の行動を推論し、境界仮説を定式化し、介入をテストし、結果を評価し、アルゴリズムを適用し、有用なポリシーを統合し、その決定を説明することによって、エージェントの内部探索行動を制御する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces RACL, a Reasoning-Agent Control Layer for metaheuristics. RACL places a reasoning agent above an existing optimizer. The agent does not replace the optimizer and does not modify business constraints. Instead, it controls the optimizer's internal search behavior by observing operational memory, reasoning over past behavior, formulating bounded hypotheses, testing interventions, evaluating outcomes, applying guardrails, consolidating useful policies and explaining its decisions. The experiment uses vehicle routing as a testbed, but the contribution is not a new routing solver, a particular ALNS configuration or a specific set of routing rules. The contribution is the RACL method: a way for a reasoning agent to discover, validate, consolidate and explain algorithmic control rules for a metaheuristic. In the current experimental setting, RACL improves or ties the Operational Memory Policy in 21 of 21 feasible cases and improves or ties a non-reasoning Stagnation-Triggered Policy in 18 of 21 feasible cases, with an average RACL vs STP cost delta of -0.641%. In the Sevilla-9/10 runtime sample, RACL improves average cost by -8.337% versus Fixed and -1.605% versus STP without showing material computational overhead. During the proof-of-concept, Codex was used as an in-the-loop reasoning agent observing executions, interpreting logs and proposing live bounded interventions. The policy proxy was later used only to make quantitative evaluation reproducible.
- Abstract(参考訳): 本稿ではメタヒューリスティックスのためのReasoning-Agent Control LayerであるRACLを紹介する。
RACLは既存のオプティマイザの上に推論エージェントを置く。
エージェントはオプティマイザを置き換えず、ビジネス制約を変更しない。
代わりに、オプティマイザの内部探索動作は、操作記憶を観察し、過去の振る舞いを推論し、境界仮説を定式化し、介入をテストし、結果を評価し、ガードレールを適用し、有用なポリシーを統合し、その決定を説明することで制御する。
この実験では、車両のルーティングをテストベッドとして使用するが、その貢献は、新しいルーティング解決器、特定のALNS構成、あるいは特定のルーティングルールのセットではない。
RACL法は、推論エージェントがメタヒューリスティックなアルゴリズム制御ルールを発見し、検証し、統合し、説明する方法である。
現在の実験環境では、RACLは21の可能なケースのうち21の操作記憶ポリシーを改善し、21の可能なケースのうち18のケースにおいて、21のケースのうち、平均的なRACL対STPのコスト差を-0.641%とすることで、非合理的なStagnation-Triggered Policyを改善または結び付ける。
Sevilla-9/10ランタイムサンプルでは、RACLは計算オーバーヘッドを示さずに平均コストを8.337%、固定値が1.605%、STPが1.605%改善している。
概念実証期間中、Codexはループ内の推論エージェントとして、実行を観察し、ログを解釈し、ライブバウンドな介入を提案していた。
ポリシープロキシは後に、定量的な評価再現を可能にするためにのみ使用された。
関連論文リスト
- Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge [4.511996087821266]
Reasoning-capable large language model (LLM) は、最近自動判断器として採用されている。
本研究では,明示的推論により,構造化された検証を必要とするタスクの判断精度が大幅に向上することを示す。
本稿では、推論と非推論の判断を選択可能なロバスト適応コスト効率ルーティング(RACER)を提案する。
論文 参考訳(メタデータ) (2026-05-11T16:30:20Z) - Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias [0.0]
本稿では,コンパクトなポリシークラスに対するポリシー探索のための2段階LLMフレームワークを提案する。
Critic-LLMは、結果のロールアウトを検査し、観察された状態、行動、報奨に基づくターゲットリビジョンを提案する。
R2POは10の環境で最高の報酬を得る。
論文 参考訳(メタデータ) (2026-05-08T14:26:40Z) - Process Reward Agents for Steering Knowledge-Intensive Reasoning [18.184546182516225]
本稿では,ドメインベースでオンライン,ステップワイドな報酬を凍結ポリシに提供するテストタイム手法であるProcess Reward Agents(PRA)を紹介する。
PRAは強いベースラインを一貫して上回り、Qwen3-4BでMedQAで80.8%の精度を達成した。
PRAは0.5Bから8Bまでの凍結ポリシーモデルを一般化し、ポリシーモデルを更新することなく、その精度を最大25.7%向上させる。
論文 参考訳(メタデータ) (2026-04-10T16:45:44Z) - When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。
エージェントはいつ、いつ、いつ行動すべきか?
本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-17T15:38:50Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents [11.440330367799513]
PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
論文 参考訳(メタデータ) (2026-02-02T01:56:29Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。