論文の概要: tap: A File-Based Protocol for Heterogeneous LLM Agent Collaboration
- arxiv url: http://arxiv.org/abs/2606.14445v1
- Date: Fri, 12 Jun 2026 13:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.912384
- Title: tap: A File-Based Protocol for Heterogeneous LLM Agent Collaboration
- Title(参考訳): tap: 異種LDMエージェントコラボレーションのためのファイルベースのプロトコル
- Authors: Minseo Kim,
- Abstract要約: 本稿では,共有メモリや同一ランタイムを使わずに,ClaudeとCodexのコラボレーションを可能にする,ファイルベースのコラボレーションプロトコルであるTapを提案する。
tapはオープンソースのnpmパッケージ@hua-labs/tap (v0.5.2)として配布される。
- 参考スコア(独自算出の注目度): 2.7254915857994324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-agent software development systems have proposed many forms of agent collaboration, including role-based collaboration and automated code review. However, many systems assume a common runtime, a central conversation server, or the same API family. Under these assumptions, LLM agents from different vendors cannot easily exchange messages directly from their own execution environments while dividing development and review work on a shared codebase. This paper presents tap, a file-based collaboration protocol that allows Claude (Anthropic) and Codex (OpenAI) to collaborate on one codebase without shared memory or an identical runtime. The core of tap is a file-first design that preserves markdown files with metadata as original messages, combines a file inspection path (file communication, Tier 1) with real-time notification paths for Claude and Codex (real-time communication, Tier 2), and isolates work through separate git worktrees. Even if real-time notification fails or a receiver restarts, the message file remains available and the same content can be inspected again. In a 27-day, 37-generation self-applied operation where tap was used to develop and review itself, we collected 209 tap-related pull requests and 717 operational artifacts. An analysis of 375 review artifacts showed that the share of reviews recording at least one defect or requested change was 69.8% for heterogeneous model pairs and 53.1% for homogeneous model pairs. These results show that tap, which combines file-based message preservation with real-time notification, operates in a real production repository, and that combining heterogeneous models and execution environments can broaden review perspectives. tap is distributed as the open-source npm package @hua-labs/tap (v0.5.2).
- Abstract(参考訳): 既存のマルチエージェントソフトウェア開発システムでは,役割ベースのコラボレーションや自動コードレビューなど,エージェントコラボレーションのさまざまな形態が提案されている。
しかし、多くのシステムは共通のランタイム、中央の会話サーバ、あるいは同じAPIファミリを前提としています。
これらの前提の下では、異なるベンダーのLLMエージェントは、開発とレビュー作業を共有コードベースで分割しながら、自分の実行環境から直接メッセージを交換することができない。
本稿では,共有メモリや同一ランタイムを使わずに,Claude(Anthropic)とCodex(OpenAI)をひとつのコードベースでコラボレーション可能にする,ファイルベースのコラボレーションプロトコルであるTapを提案する。
tapの中核は、マークダウンファイルとメタデータを元のメッセージとして保存するファイルファースト設計であり、ファイル検査パス(ファイル通信、Tier 1)とClaudeとCodexのリアルタイム通知パス(リアルタイム通信、Tier2)を組み合わせて、別々のgitワークツリーを通して作業を分離する。
リアルタイム通知が失敗したり、受信者が再起動しても、メッセージファイルは引き続き利用可能であり、同じコンテンツを再度検査することができる。
27日間の37世代セルフアプライド・オペレーションにおいて,タップ関連プルリクエスト209件と運用成果717件を収集した。
375のレビューアーティファクトの分析によると、少なくとも1つの欠陥や要求された変更を記録するレビューのシェアは、異種モデルペアが69.8%、同種モデルペアが53.1%であった。
これらの結果は、ファイルベースのメッセージ保存とリアルタイム通知を組み合わせたタップが実運用リポジトリで動作し、異種モデルと実行環境を組み合わせることで、レビューの視点を広げることができることを示している。
tapはオープンソースのnpmパッケージ@hua-labs/tap (v0.5.2)として配布される。
関連論文リスト
- Collaborative Human-Agent Protocol (CHAP) [0.18352113484137622]
本稿では,協調型ヒューマンエージェントプロトコルCHAPについて述べる。
CHAPでは、チャットスレッドに紛失したオーバーライドは、差分、合理、コンテンツハッシュを含む構造化イベントとなる。
このプロトコルは、小さなコア(ワークスペース、参加者、タスク、アーティファクト、追加のみのエビデンスログ)を通じて、レビュー、モード、ルーティング、検討、ハンドオフ、アイデンティティ、シグネチャ、デプロイに必要な透過的な監査を追加する構成可能なプロファイルとともに、これを実現する。
論文 参考訳(メタデータ) (2026-06-08T17:11:42Z) - Remember Your Trace: Memory-Guided Long-Horizon Agentic Framework for Consistent and Hierarchical Repository-Level Code Documentation [27.40384564559557]
我々は、リポジトリ全体にまたがる単一の統合コンテキスト内でドキュメントを生成するフレームワークであるMemDocAgentを提案する。
MemDocAgentは、オープンソースベースラインとクローズドソースベースラインの両方で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T08:35:20Z) - ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - MPAC: A Multi-Principal Agent Coordination Protocol for Interoperable Multi-Agent Collaboration [2.643905034529239]
MPACはアプリケーション層プロトコルで、このギャップを5つの層にまたがる明示的なコーディネーションセマンティクスで埋める。
仕様では21のメッセージタイプ、標準トランジションテーブルを備えた3つのステートマシン、Lamport-clock因果電子透かし、2つの実行モデル、3つのセキュリティプロファイル、共有状態の楽観的な制御を定義している。
制御された3エージェントのコードレビューベンチマークでは、調整オーバーヘッドが95%削減され、壁時計の4.8倍のスピードアップを示した。
論文 参考訳(メタデータ) (2026-04-10T01:12:05Z) - ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation [7.907933839674293]
大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:04:15Z) - M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark [45.755057449698825]
M3-Benchは、Model Context Protocolの下で使用されるマルチモーダルツールを評価するための最初のベンチマークである。
我々は,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入し,類似性に富んだハンガリー語マッチングを実行する。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供する。
論文 参考訳(メタデータ) (2025-11-21T19:27:02Z) - Gistify! Codebase-Level Understanding via Runtime Execution [97.63528391679807]
Gistifyは、コーディング LLM が特定の機能を再現できる単一で最小限の自己完結型ファイルを作成する必要があるタスクである。
現在の最先端モデルは、Gistifyタスク、特に長時間実行のあるタスクを確実に解くのに苦労している。
論文 参考訳(メタデータ) (2025-10-30T17:58:26Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。