論文の概要: Exploration Structure in LLM Agents for Multi-File Change Localization
- arxiv url: http://arxiv.org/abs/2606.11976v1
- Date: Wed, 10 Jun 2026 11:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.438732
- Title: Exploration Structure in LLM Agents for Multi-File Change Localization
- Title(参考訳): マルチファイル切替位置決めのためのLLMエージェントの探索構造
- Authors: Akeela Darryl Fattha, Kia Ying Chua, Lingxiao Jiang, Laura Wynter,
- Abstract要約: ほとんどのAIエージェントは、リポジトリを線形に探索する。
非線形・ドメインスコープ並列エージェント探索に対する線形シーケンシャル探索の比較を行った。
単一のベースコミットに固定されたGitHubイシューの永続化セッション評価のためのアプローチを構築します。
- 参考スコア(独自算出の注目度): 7.536387580547836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software engineering tools increasingly rely on LLM based agents to localize files to change to resolve a software issue. Most AI agents explore repositories linearly, that is, visiting one directory or file per step. We postulate that this is a structural mismatch for changes that span several subsystems. We compare linear sequential exploration against non-linear, domain-scoped parallel agentic exploration. Using SWE Bench Pro as initial benchmark, we focus on ansible as an exemplar. We construct an approach for persistent-session evaluation of GitHub issues anchored at a single base commit. We compare our non-linear domain-agent file traversal system against a base LLM without direct repository access, a single agent Recursive Language Model (RLM) baseline with a persistent Python REPL and an external CLI baseline using Codex 5.5 High. Domain scoped parallel agent spawning with a small Haiku-class model achieves the highest micro F1 among Haiku class models by a large margin. Domain-agents is the second highest behind only the much larger Codex 5.5 High on our own expanded benchmark including over more recent PRs from 2025 and 2026. On the original, curated, 2020 SWE-bench Pro benchmark, a larger Sonnet plain LLM baseline attains higher micro F1 by predicting few files, leading to higher precision, but at significantly lower all gold recall. We also present three additional findings. First, documentation evolution is a latent dependency unresolved by any approach. Second, naive file system access can degrade localization driven by test-file over prediction. Lastly, forced multi-agent consultation does not measurably help and raises token cost substantially.
- Abstract(参考訳): ソフトウェアエンジニアリングツールは、ソフトウェア問題を解決するためにファイルのローカライズにLLMベースのエージェントを頼りにしている。
ほとんどのAIエージェントは、リポジトリを線形に探索する。
これは、いくつかのサブシステムにまたがる変更に対する構造的ミスマッチである、と仮定する。
非線形・ドメインスコープ並列エージェント探索に対する線形シーケンシャル探索の比較を行った。
SWE Bench Proを初期ベンチマークとして使用し、例としてAnsibleに焦点を当てる。
単一のベースコミットに固定されたGitHubイシューの永続化セッション評価のためのアプローチを構築します。
直接レポジトリアクセスのないベースLLM, 単一のエージェント Recursive Language Model (RLM) ベースライン, 永続Python REPL と Codex 5.5 High を使用した外部 CLI ベースラインを比較した。
小さい俳句クラスモデルで生成するドメインスコープ並列エージェントは、俳句クラスモデルの中で最も高いマイクロF1を大きなマージンで達成する。
ドメインエージェントは、2025年と2026年の最近のPRを含む拡張ベンチマークで、はるかに大きなCodex 5.5 Highに次いで2番目に高い。
オリジナルの2020 SWE-bench Proベンチマークでは、より大きなSonnetプレーンなLCMベースラインは、ファイルが少ないことを予測して、より高いマイクロF1を達成することができ、精度は向上したが、すべてのゴールドリコールは大幅に低下した。
他にも3つの発見がある。
まず、ドキュメンテーションの進化は、どんなアプローチでも未解決の潜伏した依存性である。
第二に、ナイーブファイルシステムアクセスは、予測よりもテストファイルによって引き起こされるローカライゼーションを低下させることができる。
最後に、強制マルチエージェントコンサルテーションは測定に役立ちませんし、トークンコストを大幅に上昇させます。
関連論文リスト
- LARGER: Lexically Anchored Repository Graph Exploration and Retrieval [9.90137784523552]
リポジトリレベルのコーディングエージェントは、まずタスクに関連するファイルとシンボルをローカライズする必要がある。
既存のアプローチでは、エージェントのインタラクションループを断片化する別々のグラフツールやステージが必要になることが多い。
LARGER(Lexically anchored active-set search framework)は、語彙マッチングから始まり、それらをグラフアンカーにアライメントし、エージェントの既存のサーチループ内で信頼フィルタリングされた局所展開を実行する。
論文 参考訳(メタデータ) (2026-05-08T05:03:46Z) - Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study [39.936784974007644]
大規模言語モデル(LLM)は汎用コード生成に強く貢献するが、エンタープライズドメイン特化言語(s)への適用性は未定である。
本稿では,コード指向のLLMを用いて,Xtext ベースの DSL 用のプロジェクトルート DSL アーチファクトの生成と修正を行う,BMW の産業ケーススタディについて報告する。
構造化されたパス応答生成をリポジトリスケールでエンコードし、ファイル間の依存関係を学習します。
論文 参考訳(メタデータ) (2026-04-27T16:38:01Z) - Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration [57.23877089929136]
Graph-of-Agents (GoA)はマルチエージェントLLM通信をモデリングするための新しいグラフベースのフレームワークである。
GoAは3つの選択されたエージェントしか使用せず、最近のマルチエージェントLCMベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-18T21:13:03Z) - MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。
GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。
MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文 参考訳(メタデータ) (2026-04-15T07:39:08Z) - AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents [27.864519204078004]
大規模言語モデル(LLM)は、一般的なプログラミングタスクにおいて印象的なパフォーマンスを示している。
我々は、高品質な事前ガイダンスのためのドメイン知識ベースを統合するLLMベースのコーディングエージェントであるAutoMLGenを紹介する。
以上の結果から,AutoMLGenは平均メダル率や有効な応募率など,数多くの分野で最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-09T17:45:05Z) - Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.330697128881243]
様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。
メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。
最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文 参考訳(メタデータ) (2025-03-13T20:42:39Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Autonomous Legacy Web Application Upgrades Using a Multi-Agent System [3.456157428615978]
自動コード生成のための大規模言語モデル(LLM)が新興技術で注目を集めている。
多くの時代遅れのWebアプリケーションは、セキュリティと信頼性の課題を引き起こすが、アップグレードの複雑さとコストのために、企業はそれを使い続けている。
従来のWebアプリケーションを最新バージョンに自律的にアップグレードするLLMベースのマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:14:14Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。