論文の概要: LLM Agents Can See Code Repositories
- arxiv url: http://arxiv.org/abs/2606.14061v2
- Date: Mon, 15 Jun 2026 09:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.2974
- Title: LLM Agents Can See Code Repositories
- Title(参考訳): LLMエージェントはコードリポジトリを見ることができます
- Authors: Dongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu,
- Abstract要約: 大規模言語モデルを利用したコーディングエージェントは、ソフトウェア工学のタスクに強いパフォーマンスを示してきた。
ほとんどのエージェントは、ほとんど完全にテキストとしてリポジトリを消費します。
標準テキストインタフェースと並行して、リポジトリ構造を視覚的に表現することで、エージェントは構造をより効率的に理解できるようになる。
- 参考スコア(独自算出の注目度): 14.881212557304414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents powered by large language models have demonstrated strong performance on software engineering tasks. Yet most agents consume repositories almost entirely as text, which differs from how human developers use visual structure such as folder hierarchies and dependency relationships to orient themselves in large codebases. With multimodal large language models (MLLMs), it is an open question whether agents can effectively benefit from visual representations of repositories. This paper presents the first systematic empirical study of visual repository representations for LLM-based agents on repository-level issue resolution. We evaluate four recent multimodal models. Our results show that a strictly vision-only setup degrades accuracy and increases token cost, because agents lack sufficient symbolic detail and compensate with repeated visual queries. In contrast, integrating visual graphs of repository structure as a supplementary modality alongside standard text interfaces helps agents understand structure more efficiently: input token consumption decreases by up to 26% while issue-resolution accuracy is maintained or improved. Visualization is most useful during fault localization and when the agent autonomously controls exploration depth. These findings point to a practical hybrid text-and-vision design for next-generation coding agents.
- Abstract(参考訳): 大規模言語モデルを利用したコーディングエージェントは、ソフトウェア工学のタスクに強いパフォーマンスを示してきた。
しかし、ほとんどのエージェントは、ほとんど完全にテキストとしてリポジトリを消費します。これは、大規模なコードベースにおいて、フォルダ階層や依存性の関係といった視覚的構造を、人間の開発者がどのように使っているかとは違います。
マルチモーダルな大言語モデル(MLLM)では、エージェントがリポジトリの視覚的表現を効果的に活用できるかどうかが疑問視される。
本稿では,レポジトリレベルの課題解決のためのLCMエージェントの視覚的リポジトリ表現に関する,最初の体系的実証的研究について述べる。
最近の4つのマルチモーダルモデルを評価する。
エージェントは十分な記号の詳細を欠き、繰り返し視覚的なクエリを補うため、厳密に視覚のみのセットアップは精度を低下させ、トークンコストを増大させる。
対照的に、標準テキストインタフェースと並行してリポジトリ構造の視覚グラフを統合することで、エージェントが構造をより効率的に理解できるようになる。
可視化は、断層の局所化や、エージェントが探査深度を自律的に制御するときに最も有用である。
これらの知見は、次世代の符号化エージェントのための実用的なハイブリッドテキスト・ビジョン設計を示唆している。
関連論文リスト
- Agentic Authoring of Interactive Multiview Visualizations in Genomics [10.74947096548303]
エージェントおよび大規模言語モデル(LLM)アプローチは、複雑な科学的タスクにますます適用されている。
自然言語の会話インタフェースは、複雑な視覚化の著者を民主化するための有望な道を提供する。
ゲノムヴィジュアライゼーションは異種データ型を統合し、複数のリンクされたインタラクティブビューで構成されている。
論文 参考訳(メタデータ) (2026-05-29T21:22:16Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - LogicLens: Leveraging Semantic Code Graph to explore Multi Repository large systems [0.2519906683279152]
複雑なソフトウェアシステムの探索を支援するリアクティブ対話エージェントであるLogicLensを紹介する。
本稿では,システムのアーキテクチャを提示し,創発的行動について議論し,実世界のマルチリポジトリのシナリオ上での有効性を評価する。
論文 参考訳(メタデータ) (2026-01-15T15:35:23Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。