論文の概要: Closed-Loop Graph Algorithm Execution with Small Language Models: Step Accuracy and Rollout Reliability
- arxiv url: http://arxiv.org/abs/2606.24980v1
- Date: Tue, 23 Jun 2026 13:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.079178
- Title: Closed-Loop Graph Algorithm Execution with Small Language Models: Step Accuracy and Rollout Reliability
- Title(参考訳): 小言語モデルを用いた閉ループグラフアルゴリズムの実行:ステップ精度とロールアウト信頼性
- Authors: Michal Podstawski,
- Abstract要約: モデルが現在のグラフとアルゴリズム状態から次のアクションを繰り返し選択する閉ループ予測問題としてグラフアルゴリズムの実行について検討する。
評価フレームワークは,いくつかの古典的なグラフ処理,複数の合成グラフファミリ,解離学習,検証,テスト分割を網羅している。
- 参考スコア(独自算出の注目度): 0.48302896549293584
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small language models offer an efficient alternative to large-scale systems, but their ability to execute structured algorithms over multiple dependent decisions remains poorly understood. We study graph algorithm execution as a closed-loop prediction problem in which a model repeatedly selects the next action from the current graph and algorithmic state. Our evaluation framework covers several classical graph procedures, multiple synthetic graph families, and disjoint training, validation, and test partitions. It assesses both local decision quality and global execution behaviour using step accuracy, exact rollout accuracy, constraint validity, partial solution quality, prefix survival, and intervention-based diagnostics. The results show that adaptation can produce reliable policies for structural procedures such as traversal and coloring, while weighted algorithms remain substantially more sensitive to error accumulation. More broadly, the findings demonstrate that strong next-step prediction does not necessarily translate into reliable autonomous execution and motivate evaluating algorithmic language models through complete closed-loop rollouts rather than isolated decisions.
- Abstract(参考訳): 小型言語モデルは大規模システムに効率的な代替手段を提供するが、構造化されたアルゴリズムを複数の依存する決定に対して実行する能力はいまだによく分かっていない。
モデルが現在のグラフとアルゴリズム状態から次のアクションを繰り返し選択する閉ループ予測問題としてグラフアルゴリズムの実行について検討する。
評価フレームワークは,いくつかの古典的なグラフ処理,複数の合成グラフファミリ,解離学習,検証,テスト分割を網羅している。
ステップ精度、正確なロールアウト精度、制約妥当性、部分的なソリューション品質、プレフィックスサバイバル、介入に基づく診断を用いて、局所的な意思決定品質とグローバルな実行行動の両方を評価する。
その結果, 重み付きアルゴリズムは誤差蓄積に対して著しく敏感でありながら, トラバーサルやカラー化などの構造的手順に対する信頼性の高いポリシーを導出できることがわかった。
より広範に、この結果は、強力な次のステップ予測が必ずしも信頼できる自律実行に変換されることはなく、独立した決定ではなく、完全なクローズドループロールアウトを通じてアルゴリズム言語モデルを評価する動機であることを示している。
関連論文リスト
- The Pitfalls of Benchmarking in Algorithm Selection: What We Are Getting Wrong [1.973144426163543]
本稿では,コミュニティで頻繁に発生する方法論的問題に注目し,アルゴリズムの選択手法を評価する際に対処すべき課題について述べる。
非形式的特徴やメタモデルは高い精度を達成できることを示すが、十分に設計された評価フレームワークではそうはならない。
論文 参考訳(メタデータ) (2025-05-12T16:57:45Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Integer Programming for Learning Directed Acyclic Graphs from Non-identifiable Gaussian Models [6.54203362045253]
本研究では,連続観測データから有向非巡回グラフを学習する問題について検討する。
中規模の問題を学習するための混合整数プログラミングフレームワークを開発した。
提案手法は最先端のアルゴリズムより優れ,ノイズの不均一性に対して頑健である。
論文 参考訳(メタデータ) (2024-04-19T02:42:13Z) - It's All in the Mix: Wasserstein Classification and Regression with Mixed Features [2.2685251390114565]
我々は、離散的特徴の存在を忠実に説明できる分布的に堅牢な予測モデルを開発し、分析する。
我々のモデルは、離散的特徴の存在に非依存な既存手法を著しく上回り得ることを実証する。
論文 参考訳(メタデータ) (2023-12-19T15:15:52Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Approximating Euclidean by Imprecise Markov Decision Processes [3.0017241250121383]
我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
論文 参考訳(メタデータ) (2020-06-26T11:58:04Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。