論文の概要: Code Isn't Memory: A Structural Codebase Index Inside a Coding Agent
- arxiv url: http://arxiv.org/abs/2606.22417v1
- Date: Sun, 21 Jun 2026 10:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:22:07.027565
- Title: Code Isn't Memory: A Structural Codebase Index Inside a Coding Agent
- Title(参考訳): コードは記憶されない: コーディングエージェント内の構造的コードベースインデックス
- Authors: Ishaan Bhola, Adithyan Krishnan, Sravanth Kurmala, Mukunda NS,
- Abstract要約: 我々はSWE-PolyBenchとSWE-bench Proに3つのアーム(インデックス付きハーネス、それなしのハーネス、エージェント-コンパレータ)を走らせ、Opus 4.7を固定した。
内部ハーネスアブレーションは、大きなローカライズゲインと統計的に分離されたリゾルゲインを発生させるが、セル当たりのコストペナルティは無く、ソルバ当たりのコストも低い。
従って、構造指標の配置問題は、実行に高すぎるかどうか(種子全体において、インデックスはエージェントよりも低い$/solvedで着陸する)ではなく、構造ランキングが支払われるマルチファイルの変更を含むかどうかである。
- 参考スコア(独自算出の注目度): 0.13999481573773073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents now interleave LLMs with retrieval over the working repository, and retrieval implementations vary widely across deployed harnesses. Inside a fixed coding-agent harness on a fixed model, does adding a structural codebase index actually change cost or resolve? We ran three arms (the harness with the index, the same harness without it, and an agentic-grep comparator) on SWE-PolyBench Verified and SWE-bench Pro with Claude Opus 4.7 held fixed throughout, across three seeds, inside a leak-audited per-task sandbox. The within-harness ablation produces a large localization gain and a statistically separated resolve gain, with no cost penalty per cell and lower cost per solve. The cross-harness check shows that the index does not regress against an agentic-grep baseline on resolve or localization, again at no cost penalty. We release the per-cell exclusion ledger, the leak-audit script, the localization extractor, and the results database. The deployment question for a structural codebase index is thus not whether it is too expensive to run (across seeds, the index lands at a lower $/solved than agentic grep) but whether the workload includes multi-file changes where structural ranking pays off.
- Abstract(参考訳): コーディングエージェントは、LLMをワーキングリポジトリ上の検索とインターリーブし、検索の実装は、デプロイされたハーネス間で広く異なる。
固定モデル上の固定コードエージェントのハーネスの中で、構造的なコードベースインデックスを追加することは、実際にコストを変えるか、解決するか?
我々はSWE-PolyBench VerifiedとSWE-bench Proの3つのアーム(インデックス付きハーネス、それなしのハーネス、およびエージェントグレープコンパレータ)をクロードオプス4.7が3つの種にわたって、調査対象の砂箱内に固定した。
内部ハーネスアブレーションは、大きなローカライズゲインと統計的に分離されたリゾルゲインを発生させるが、セル当たりのコストペナルティは無く、ソルバ当たりのコストも低い。
クロスハーネスチェックは、インデックスが再びコストペナルティなしで、解決またはローカライゼーションにおいてエージェントグレープベースラインに対して回帰しないことを示しています。
我々は,セル単位の排除台帳,リーク監査用スクリプト,ローカライゼーション抽出器,結果データベースをリリースする。
したがって、構造的コードベースインデックスのデプロイメント問題は、実行に高すぎるかどうか(種子全体において、インデックスはエージェントのグレープよりも低い$/solvedに着陸する)ではなく、構造的ランク付けが報われるような複数ファイルの変更を含むかどうかである。
関連論文リスト
- Probe-and-Refine Tuning of Repository Guidance for Coding Agents [0.0]
LLMベースのコーディングエージェントは、リポジトリに関するより高度な運用知識を必要とする。
近年の研究では, LLMによる誘導がエージェント性能に悪影響を及ぼすか否かが議論されている。
本稿では,その指導方法が決定変数であることを示す。
論文 参考訳(メタデータ) (2026-06-18T17:30:15Z) - SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers [55.39407031861402]
本稿では,スマートコントラクトデコンパイルのためのデータセットとベンチマーク手法であるSCDBenchを紹介する。
データセットには600の現実のSolidityコントラクトと、ペア化されたバイトコード入力、地味なソースコード、再生可能なセマンティックチェックポイントが含まれている。
我々は,GLM-5の変種を含むゼロショット逆コンパイル設定において,Claude Opus 4.7,GPT-5.3-Codex,GLM-5を評価した。
論文 参考訳(メタデータ) (2026-05-27T20:08:47Z) - BLAgent: Agentic RAG for File-Level Bug Localization [2.2917707112773593]
BLAgentはファイルレベルのバグローカライゼーションのための新しいエージェントRAGフレームワークである。
BLAgentは、オープンソースモデルで78%以上のTop-1精度を達成した。
BLAgentは、エンドツーエンドの修復の成功を20%以上改善する。
論文 参考訳(メタデータ) (2026-05-18T07:20:13Z) - MEME: Multi-entity & Evolving Memory Evaluation [76.57263966646404]
MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。
3つの記憶パラダイムにまたがる6つの記憶システムの評価。
デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
論文 参考訳(メタデータ) (2026-05-12T17:55:10Z) - Mitigating Implicit Inconsistencies in Patch Porting [13.153399281876451]
暗黙の矛盾は、開発者がその非ローカルな性質のために解決する上での課題となる。
我々は,LLM,コンパイラ,コード解析ユーティリティ間の協調を可能にするMIPを提案する。
クロスフォークとクロスブランチのパッチポーティングという2つの代表的なシナリオの実験は、MIPが両方の設定において最高のパフォーマンスのベースラインの2倍以上のパッチを解決したことを示している。
論文 参考訳(メタデータ) (2026-04-02T06:33:31Z) - Pull Requests as a Training Signal for Repo-Level Code Editing [49.82435173554125]
Clean Pull Request(Clean-PR)は、現実のGitHubプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、トレーニング中のパラダイムである。
ノイズの多いプルリクエストの差分を,再構築と検証を通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入する。
SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
論文 参考訳(メタデータ) (2026-02-07T09:22:25Z) - Co-Designing Quantum Codes with Transversal Diagonal Gates via Multi-Agent Systems [1.5948632947109136]
我々は、所定の対角ゲートを持つ量子符号を共設計するマルチエージェント・ヒューマン・イン・ザ・ループワークフローを提案する。
このワークフローはGPT-5を使っており、RA(https://texra.ai)-マルチエージェントリサーチアシスタントプラットフォームで実装されている。
論文 参考訳(メタデータ) (2025-10-23T16:45:39Z) - MapCoder-Lite: Squeezing Multi-Agent Coding into a Single Small LLM [9.44363104217319]
MapCoder-Liteは、単一の7Bモデルを4つのロール特化エージェント-retriever、プランナー、コーダ、デバッガ使用のみランク32にアップグレードする。
MapCoder-LiteはxCodeEvalの精度を2倍以上にし($13.2%から$28.3%まで)、すべてのフォーマットの失敗を排除し、32Bベースラインの6ポイント以内に閉じる。
論文 参考訳(メタデータ) (2025-09-22T08:19:11Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。