論文の概要: Tmax: A simple recipe for terminal agents
- arxiv url: http://arxiv.org/abs/2606.23321v1
- Date: Mon, 22 Jun 2026 13:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:38:29.430984
- Title: Tmax: A simple recipe for terminal agents
- Title(参考訳): Tmax:端末エージェントの簡単なレシピ
- Authors: Hamish Ivison, Junjie Oscar Yin, Rulin Shao, Teng Xiao, Nathan Lambert, Hannaneh Hajishirzi,
- Abstract要約: 我々は,これまでで最強のオープンなRLレシピであるTmaxを提示する。
提案手法はターミナルベンチ2.0において,9Bパラメータしか持たない27%を達成し,従来よりはるかに大きなモデルよりも優れていた。
我々は、以前リリースされた端末エージェントデータセットの2.5倍以上の大きさの端末データセットをオープンソース化した。
- 参考スコア(独自算出の注目度): 61.38802510209322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terminal-using agents have quickly become the most popular downstream application of language models (LMs). Despite their prevalence, relatively little academic work has examined RL-based training of these models, likely due to difficult benchmarks, a lack of data, and a lack of simple baseline recipes. We present Tmax, the strongest open RL recipe for terminal agents to date, bringing open data recipes closer to the frontier. While simple, our recipe achieves 27\% on Terminal-Bench 2.0 with only 9B parameters, outperforming much larger models from prior work. Concretely, we generate data using a novel taxonomy, combining difficulty control, personas, and verifier diversification, which allows us to cheaply generate large amounts of terminal environments for RL and SFT training. We open-source our terminal dataset, which is over 2.5x larger than previously released terminal-agent datasets. We then train open-weight models using RL with our data, using a simple, outcome-only recipe. We release our data, models, and code as a strong baseline for future open academic work on terminal agents at https://github.com/hamishivi/tmax.
- Abstract(参考訳): ターミナル利用エージェントは、言語モデル(LM)のダウンストリームアプリケーションとして急速に普及している。
その流行にもかかわらず、比較的学術的な研究はこれらのモデルのRLベースのトレーニングを調査してきたが、それはおそらく、難しいベンチマーク、データの欠如、単純なベースラインレシピの欠如によるものである。
我々は、端末エージェントにとって最も強力なオープンなRLレシピであるTmaxを紹介し、フロンティアにオープンなデータレシピをもたらす。
簡単なことながら、私たちのレシピは9Bパラメータしか持たないterminal-Bench 2.0で27\%を実現し、従来よりもはるかに大きなモデルよりも優れています。
具体的には、新しい分類法を用いてデータを生成し、難易度制御、ペルソナ、検証器の多様化を組み合わせ、RLおよびSFTトレーニングのための大量の端末環境を安価に生成する。
我々は、以前リリースされた端末エージェントデータセットの2.5倍以上の大きさの端末データセットをオープンソース化した。
そして、シンプルな結果のみのレシピを使って、RLを使ってオープンウェイトモデルをトレーニングします。
我々は、将来のオープンな学術研究のベースラインとして、データ、モデル、コードをhttps://github.com/hamishivi/tmax.comで公開しています。
関連論文リスト
- AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use [13.583197273673974]
本稿では,マルチラウンド強化学習(RL)を用いて学習したAgenticQwenモデル群と,限られた量のオープンソースデータについて紹介する。
我々のトレーニングフレームワークは、推論RLとエージェントRLと2つのデータフライホイールを組み合わせることで、ますます困難なタスクを自動的に生成します。
これらのモデルは,複数のエージェントベンチマークにおいて高い性能を達成し,我々の産業エージェントシステムでは,探索およびデータ解析タスクにおいて,はるかに大きなモデルとのギャップを埋める。
論文 参考訳(メタデータ) (2026-04-23T12:14:52Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Synthetic Data RL: Task Definition Is All You Need [27.637296092731322]
強化学習(Reinforcement Learning, RL)は、基礎モデルを専門的なタスクに適応させる強力な方法であるが、大規模な人間ラベルデータに依存しているため、広く採用が制限される。
本稿では,タスク定義から生成された合成データのみを用いて微細構造モデルを補強する,シンプルで汎用的なフレームワークであるSynthetic Data RLを紹介する。
提案手法はまず,タスク定義と検索された文書から質問と回答のペアを生成し,モデルの可解性に基づいて質問の難易度に適応し,RL学習用サンプルの平均通過率を用いて質問を選択する。
論文 参考訳(メタデータ) (2025-05-18T05:35:13Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - OpenChat: Advancing Open-source Language Models with Mixed-Quality Data [29.938434364765534]
混合品質データを用いたオープンソースの言語モデルを進化させる新しいフレームワーク、OpenChatを提案する。
提案するC(onditioned)-RLFTは,異なるデータソースを粗い報酬ラベルとみなし,クラス条件のポリシーを学習する。
C-RLFTで微調整したopenchat-13bは、13bのオープンソース言語モデルの中で最も高い平均性能を達成する。
論文 参考訳(メタデータ) (2023-09-20T11:54:40Z) - Skill over Scale: The Case for Medium, Domain-Specific Models for SE [4.2630881518611226]
コードラベリングタスクにおいて、控えめな大きさのドメイン固有モデルは、はるかに大きなモデルよりも優れていることを示す。
SOBertBase (125Mパラメータ)とSOBertLarge (762Mパラメータ)の2つのモデルを、それぞれ374ドルと1600ドルでトレーニングしています。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。