論文の概要: SWE-Future: Forecast-Conditioned Data Synthesis for Future-Oriented Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2606.18733v1
- Date: Wed, 17 Jun 2026 06:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.03361
- Title: SWE-Future: Forecast-Conditioned Data Synthesis for Future-Oriented Software Engineering Agents
- Title(参考訳): SWE-Future: 未来指向ソフトウェアエンジニアリングエージェントのための予測型データ合成
- Authors: Qiao Zhao, JianYing Qu, Jun Zhang, Yehua Yang, Hanwen Du, Zhongkai Sun,
- Abstract要約: 将来指向型符号化タスクのための予測条件付きデータ合成手法であるSWE-Futureを提案する。
我々は、SWE-Futureが、歴史的プル-リクエストリプレイへの直接的な依存を低減しつつ、現実的で未来指向のコーディング-タスク合成を導くことができることを示す。
- 参考スコア(独自算出の注目度): 7.478327602641997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic coding-agent benchmarks often replay public GitHub issues and pull requests, making them vulnerable to overlap with model pretraining, fine-tuning, synthetic-data generation, or benchmark-driven model selection. Fully synthetic tasks avoid direct historical replay, but can drift away from real repository needs. We propose SWE-Future, a forecast-conditioned data synthesis method for future-oriented coding tasks. Given a forecast snapshot at time $T_0$, the method uses only pre-$T_0$ repository evidence to forecast future feature implementation/enhancement, bugfix, and refactor task families. We first validate this forecasting step retrospectively: after forecasts are fixed, later pull requests are used only to measure whether the predicted task families match future repository work. In an 80-repository study, the forecaster achieves 58.1\% future-work relevance under the main semantic matching metric. We then use validated forecast families as conditioning signals to synthesize a 200-task coding-agent dataset across 61 repositories from a task-generation snapshot, rather than replaying the later pull requests used for validation. SWE-Future shows that repository-evolution forecasts can guide realistic, future-oriented coding-task synthesis while reducing direct dependence on historical pull-request replay.
- Abstract(参考訳): 現実的なコーディングエージェントベンチマークは、GitHubの公開問題やプルリクエストをリプレイすることが多く、モデル事前トレーニング、微調整、合成データ生成、ベンチマーク駆動モデル選択と重複する危険性がある。
完全な合成タスクは、直接的な履歴の再生を避けるが、実際のリポジトリのニーズから遠ざかることができる。
将来指向型符号化タスクのための予測条件付きデータ合成手法であるSWE-Futureを提案する。
T_0$の予測スナップショットが与えられた場合、このメソッドは、将来のフィーチャの実装/改善、バグフィックス、リファクタリングタスクファミリを予測するために、プリ$T_0$リポジトリエビデンスのみを使用する。
予測が修正された後、後のプルリクエストは、予測されたタスクファミリが将来のリポジトリの作業にマッチするかどうかを測定するためにのみ使用されます。
80-repository studyでは、予測器はメインのセマンティックマッチングメトリックの下で58.1\%の今後の作業関連性を達成する。
次に、検証済みの予測ファミリを条件付け信号として使用し、検証に使用するプルリクエストを再生するのではなく、タスク生成スナップショットから61リポジトリに200タスクのコーディングエージェントデータセットを合成する。
SWE-Futureは、レポジトリ進化予測が、歴史的プルリクエストリプレイへの直接的な依存を減らしながら、現実的で将来指向のコーディングタスク合成を導くことができることを示している。
関連論文リスト
- Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Scaling Open-Ended Reasoning to Predict the Future [56.672065928345525]
我々は、オープンエンドの予測質問の予測を行うために言語モデルを訓練する。
トレーニングデータをスケールアップするために、毎日のニュースで報告されるグローバルイベントから新しい予測質問を合成する。
トレーニングの予測によるキャリブレーションの改善は、一般的なベンチマークで一般化されている。
論文 参考訳(メタデータ) (2025-12-31T18:59:51Z) - SynDelay: A Synthetic Dataset for Delivery Delay Prediction [50.56729406793283]
配送遅延予測のための合成データセットであるSynDelayを提案する。
これはサプライチェーンAIにおけるデータセットの共有とベンチマークを促進するオープンイニシアチブである。
論文 参考訳(メタデータ) (2025-08-30T21:54:37Z) - Bench to the Future: A Pastcasting Benchmark for Forecasting Agents [0.14980193397844666]
Bench To the Futureは、数百の高品質な質問がすでにその解決が知られている"pastcasting"ベンチマークである。
その結果,我々の過去の放送環境は,未解決の質問に対してインターネットを用いた予測に基づく結果に匹敵する結果が得られることが示唆された。
これは生きたベンチマークであり、トレーニングデータのカットオフ日数の増加を考慮し、新たな質問を継続的に追加するつもりです。
論文 参考訳(メタデータ) (2025-06-11T16:18:40Z) - Wisdom of the Crowds in Forecasting: Forecast Summarization for Supporting Future Event Prediction [17.021220773165016]
Future Event Prediction (FEP) は、複数のドメインにまたがる需要とアプリケーションの範囲にまたがる重要なアクティビティである。
予測方法の1つは、将来についての集合的な意見を収集して集約し、累積的な視点が今後の出来事の可能性を推定する可能性をもたらすように予測することである。
本研究では,個々の予測を集約することで,群衆の知恵に基づく今後のイベント予測を支援するために,既存の研究・フレームワークを編成する。
論文 参考訳(メタデータ) (2025-02-12T08:35:10Z) - A Predictive Approach To Enhance Time-Series Forecasting [6.377828331013327]
本稿では、時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。
本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。
脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが23.4%減少した。
論文 参考訳(メタデータ) (2024-10-19T21:22:55Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - ForecastQA: A Question Answering Challenge for Event Forecasting with
Temporal Text Data [43.400630267599084]
イベント予測は、人間が常に未来に向けて計画しようとするため、難しいが重要な課題である。
タスクを定式化し、データセットを構築し、大量の構造化されていないテキストデータを用いたイベント予測手法を開発するためのベンチマークを提供する。
BERTベースのモデルを用いてForecastQA実験を行い、データセット上で最高のモデルが60.1%の精度で達成していることを確認した。
論文 参考訳(メタデータ) (2020-05-02T11:03:40Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。