論文の概要: Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models
- arxiv url: http://arxiv.org/abs/2606.07157v2
- Date: Thu, 11 Jun 2026 19:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.409814
- Title: Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models
- Title(参考訳): 高速に考える:フロンティアAIモデルの非CoTタスク完了時間ホライズンの推定
- Authors: Dewi Gould, Francis Rhys Ward, Anders Cairns Woodruff, Rauno Arike, Josh Hills, Alex Serrano, Ida Caspary, Jason Ross Brown, Jo J. Jiao, Patrick Leask, Twm Stone, Ram Potham, Ionut Gabriel Stan, Harry Mayne, Simeon Hellsten, Shubhorup Biswas, Ariana Azarbal, William L. Anderson, Elle Najt, Ryan Greenblatt, Julian Stastny,
- Abstract要約: 私たちは3万以上の質問をまとめて、チェーンオブソート推論(CoT)なしで、フロンティアモデルがどれだけ理にかなっているかを測定します。
フェデラーモデルの非CoTの50%$ THは、この6年間でほぼ毎年倍増している。
われわれの中央値は、2028年までにフロンティア非CoT THsが7分、2030年までに25分を超えると予測している。
- 参考スコア(独自算出の注目度): 5.0731699113706155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many efforts to ensure frontier AI models are safe rely on monitoring their chain-of-thought (CoT) reasoning. If models become able to perform sufficiently complex reasoning internally, without explicit thinking tokens, this would undermine such oversight. We measure how well frontier models reason without CoT across a suite of over 30,000 questions spanning 43 benchmarks in domains including math, coding, puzzles, causality, theory-of-mind, and strategic reasoning. To compare models against humans, we estimate the $50\%$-task-completion time horizon (TH): the human time required for tasks a model completes with $50\%$ success rate. We complement this with a $50\%$ reasoning token horizon: the minimum number of o3-mini reasoning tokens needed for tasks a model solves with $50\%$ success rate. We find that the no-CoT $50\%$ TH of frontier models has been doubling roughly every year over the past six years, with GPT-5.5's TH reaching over 3 minutes and reasoning token horizon exceeding 1,500 tokens. Our median estimates predict that frontier no-CoT THs could exceed 7 minutes by 2028, and 25 minutes by 2030, though these projections carry substantial uncertainty. We recommend frontier developers track this explicitly.
- Abstract(参考訳): フロンティアAIモデルを保証するための多くの取り組みは、彼らのチェーン・オブ・ソート(CoT)推論の監視に依存している。
もしモデルが、明示的な思考トークンを使わずに、十分に複雑な推論を内部で行うことができれば、そのような監視を損なうことになる。
私たちは、数学、コーディング、パズル、因果関係、ミンド理論、戦略的推論を含む43のベンチマークにまたがる3万以上の質問に対して、CoTなしでのフロンティアモデルの理性を評価する。
人間に対するモデルを比較するために、50\%$-task-completion time horizon (TH)を推定する。
モデルが50 %$成功率で解決するタスクに必要な最小数の o3-mini 推論トークン。
GPT-5.5 の TH は3分以上に達し、トークンの水平線は1,500トークンを超えている。
我々の中央値は、2028年までにフロンティア非CoT THsが7分、2030年までに25分を超える可能性があると予測しています。
私たちは、フロンティア開発者がこれを明示的に追跡することを推奨します。
関連論文リスト
- The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits [12.316478346055618]
思考の連鎖推論はしばしば、モデルを長く考えることで言語モデル精度を改善するための単調な方法として扱われる。
トレースと最終回答の推論が1つのアウトプットの予算を共有している場合、長いトレースは彼らがサポートしようとしている回答をかき集めることができます。
GSM8K、MATH-500、および5つのBIG-Bench HardタスクをQwen3モデルで3つのスケールで実行し、GSM8KとMATH-500では最大2048トークンまでの予算で非思考モードマッチや優れた思考モードを実現した。
論文 参考訳(メタデータ) (2026-05-08T12:54:53Z) - LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning [50.27907326876949]
LongCoTは、化学、数学、計算機科学、チェス、論理学にまたがる2500の専門家によって設計された問題のスケーラブルなベンチマークである。
LongCoTは長い水平推論の厳密な尺度を提供し、フロンティアモデルが長期にわたって確実に推論できる能力を追跡する。
論文 参考訳(メタデータ) (2026-04-15T17:58:05Z) - Can LLMs Perceive Time? An Empirical Investigation [0.8460698440162889]
大規模な言語モデルは、自分たちのタスクがどれくらいかかるかを見積もることはできない。
68のタスクと4つのモデルファミリーにまたがる4つの実験を通して、この制限について検討する。
モデルは、トレーニングから持続時間に関する命題的な知識を持っているが、自身の推論時間に経験的な根拠がない。
論文 参考訳(メタデータ) (2026-03-09T18:51:04Z) - SyncThink: A Training-Free Strategy to Align Inference Termination with Reasoning Saturation [11.021989271617835]
我々は、モデルの重みを変更することなく、Chain-of-Thoughtオーバーヘッドを低減する、トレーニングフリーでプラグイン・アンド・プレイのデコーディング手法SyncThinkを提案する。
答えトークンは、初期の推論に弱い従属し、代わりに情報ボトルネックを示す特別なトークン"/think"に注目します。
GSM8K、MMLU、GPQA、BBHを3つのDeepSeek-R1蒸留モデルで実験した結果、SyncThinkの平均Top-1精度は62.00%であることがわかった。
論文 参考訳(メタデータ) (2026-01-07T07:00:15Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - TriDet: Temporal Action Detection with Relative Boundary Modeling [85.49834276225484]
既存の手法はビデオのあいまいな動作境界による不正確な境界予測に悩まされることが多い。
本稿では,その境界付近の相対確率分布を推定して,行動境界をモデル化する新しいトライデントヘッドを提案する。
TriDetは3つの挑戦的なベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-13T17:59:59Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。