論文の概要: What Fits (Into Few Tokens) Doesn't Overfit: Compression and Generalization in ML Research Agents
- arxiv url: http://arxiv.org/abs/2606.11045v1
- Date: Tue, 09 Jun 2026 16:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.603775
- Title: What Fits (Into Few Tokens) Doesn't Overfit: Compression and Generalization in ML Research Agents
- Title(参考訳): Fits (Into Faew Tokens):ML研究エージェントの圧縮と一般化
- Authors: Martin Andres Bertran, Aaron Roth, Zhiwei Steven Wu,
- Abstract要約: 魅力的な仮説は、成功した機械学習戦略は極めて圧縮性が高いというものである。
我々は、LSM駆動型研究エージェントの設定においてこれを研究する。
これらのボトルネックはパフォーマンスにはほとんど影響しない。
- 参考スコア(独自算出の注目度): 26.891854386652266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reusing a held-out benchmark adaptively should, in principle, invite overfitting. Yet benchmark-driven machine learning (ML) has produced surprisingly little overfitting in practice. An attractive hypothesis is that successful ML strategies are highly compressible. We study this in the setting of LLM-driven research agents, where the hypothesis becomes directly testable via two complementary information bottlenecks. In \emph{output compression}, an exploration agent adaptively searches for high-performance models using a validation set, and we test whether a fresh ``reproducer agent'' can reproduce its performance given only an extremely short prompt and the training data. In \emph{input compression}, the explorer receives only one-bit feedback indicating whether each submitted model improves on the running best. Across 8 datasets spanning tabular classification, vision, language modeling, diffusion modeling, and reward modeling, we find that these bottlenecks have little effect on performance: short prompts and compressible feedback are sufficient to reproduce and find high-performance models. The hypothesis is falsifiable: when we deliberately induce validation-set overfitting, the results fail to reproduce with short prompts. Taken together, our results support a description-length explanation for the lack of overfitting in benchmark-driven ML: successful strategies occupy a low-complexity region of strategy space.
- Abstract(参考訳): ホールドアウトベンチマークを適応的に再利用するには、原則として過剰適合を招待する必要がある。
しかし、ベンチマーク駆動機械学習(ML)は、実際には驚くほど過度に適合していない。
魅力的な仮説は、成功するML戦略は極めて圧縮可能であるということである。
本研究は,LLM駆動型研究エージェントの設定において,2つの相補的な情報ボトルネックを通じて仮説を直接検証可能であることを示す。
In \emph{output compression}, a exploration agent, a adaptly search for high- performance models using a validation set, and we test that a fresh ``reproducer agent'' can successfully a short prompt and the training data。
emph{input compression} では、エクスプローラーは1ビットのフィードバックのみを受け取り、各提案されたモデルが実行時のベストを改善するかどうかを示す。
表の分類,視覚,言語モデリング,拡散モデリング,報酬モデリングにまたがる8つのデータセットにおいて,これらのボトルネックが性能にほとんど影響を与えないことが判明した。
検証セットのオーバーフィッティングを意図的に誘導すると、結果は短いプロンプトで再現できない。
本研究の結果は,ベンチマーク駆動型MLにおけるオーバーフィッティングの欠如に関する記述長の説明を裏付けるものである。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry [41.26991813225211]
曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
本稿では,セマンティック・キャパシティ非対称性仮説を提案する。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
論文 参考訳(メタデータ) (2026-01-30T05:34:24Z) - The Sweet Danger of Sugar: Debunking Representation Learning for Encrypted Traffic Classification [3.064166155269814]
本稿では、表現学習モデルを利用して交通表現を作成する提案を批判的に再評価する。
Pcap-Encoderは,プロトコルヘッダから特徴を抽出する,LMに基づく表現学習モデルである。
この結果から,データセット作成とモデルトレーニングの欠陥が明らかとなり,より優れた,より意識的なテスト設計が求められた。
論文 参考訳(メタデータ) (2025-07-22T10:32:50Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。