論文の概要: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents
- arxiv url: http://arxiv.org/abs/2606.13995v1
- Date: Fri, 12 Jun 2026 00:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.695074
- Title: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents
- Title(参考訳): 対話型SWE-Bench:対話型コーディングエージェントのベンチマーク
- Authors: Brendan King, Jeffrey Flanigan,
- Abstract要約: 対話型SWE-Benchは,ユーザとの対話を通じて,現実のソフトウェア工学の問題を解決するためのコーディングエージェントの能力を評価する,自動ベンチマークデータセットである。
我々は,タスク評価を支援するために,対話品質の自動評価によりタスク評価を向上する新規な人為的なユーザシミュレータを設計する。
以上の結果から,より優れた符号化モデルが必ずしも優れた対話モデルに対応するとは限らないことが示唆され,対話能力は符号化エージェントの性能の異なる,現在検討中の次元であることが示唆された。
- 参考スコア(独自算出の注目度): 14.719418250158677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents have rapidly transformed software engineering, powering widely used interactive coding assistants. Despite their interactive real-world use, existing benchmarks evaluate them as fully-autonomous systems. In this work, we introduce Dialogue SWE-Bench, an automatic benchmark dataset for evaluating the ability of coding agents to resolve real-world software engineering problems through dialogue with a user. We design a novel, persona-grounded user simulator to support our task evaluation, and augment our task evaluation with automatic evaluations of dialogue quality. We also propose a new schema-guided agent, aimed at improving the dialogue capabilities of off-the-shelf coding agents, which improves over strong baselines by 3-14%. Our results indicate that better coding models do not always correspond to better dialogue models, suggesting that dialogue capability is a distinct and currently understudied dimension of coding agent performance.
- Abstract(参考訳): AIコーディングエージェントは、ソフトウェアエンジニアリングを急速に変革し、広く使われている対話型コーディングアシスタントを動かしている。
インタラクティブな現実世界の使用にもかかわらず、既存のベンチマークはそれらを完全に自律的なシステムとして評価している。
本稿では,ユーザとの対話を通じて,現実のソフトウェアエンジニアリング問題を解決するためのコーディングエージェントの能力を評価する,自動ベンチマークデータセットであるDialogue SWE-Benchを紹介する。
我々は,タスク評価を支援するために,対話品質の自動評価によりタスク評価を向上する新規な人為的なユーザシミュレータを設計する。
また,オフザシェルフ符号化エージェントの対話性向上を目的としたスキーマ誘導エージェントを提案する。
以上の結果から,より優れた符号化モデルが必ずしも優れた対話モデルに対応するとは限らないことが示唆され,対話能力は符号化エージェントの性能の異なる,現在検討中の次元であることが示唆された。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation [0.0]
ChatCheckerは複雑な対話システムの自動評価とテストのためのフレームワークである。
大きな言語モデル(LLM)を使用して、多様なユーザインタラクションをシミュレートし、対話のブレークダウンを特定し、品質を評価する。
論文 参考訳(メタデータ) (2025-07-22T17:40:34Z) - Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Using Textual Interface to Align External Knowledge for End-to-End
Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。
我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文 参考訳(メタデータ) (2023-05-23T05:48:21Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Actionable Conversational Quality Indicators for Improving Task-Oriented
Dialog Systems [2.6094079735487994]
本稿では、ACQI(Actionable Conversational Quality Indicator)の使用について紹介し、解説する。
ACQIは、改善可能なダイアログの一部を認識し、改善する方法を推奨するために使用される。
本稿では、商用顧客サービスアプリケーションで使用されるLivePersonの内部ダイアログシステムにおけるACQIの使用の有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T22:41:42Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。