論文の概要: Capacity, Not Format: Rethinking Structured Reasoning Failures
- arxiv url: http://arxiv.org/abs/2606.09410v1
- Date: Mon, 08 Jun 2026 12:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.982213
- Title: Capacity, Not Format: Rethinking Structured Reasoning Failures
- Title(参考訳): 容量 - 形式ではなく - 構造的推論の失敗を再考する
- Authors: Hengxin Fan,
- Abstract要約: それまでの作業では、構造化された生産物は推論税として扱われていたが、このフレーミングは不完全である。
情報マッチングされた散文制御と4段階のスキーマ勾配を用いて,プロンプト長のコンファウンドからフォーマット固有の効果を分離する。
構造化フォーマットはキャパシティに依存している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work treats structured output as a reasoning tax, but this framing is incomplete: the cost of formatting depends strongly on a model's spare capacity. Using information-matched prose controls and a four-level schema complexity gradient, we separate format-specific effects from prompt-length confounds across 4 models and 5 benchmarks with 0% parse failures on successfully generated responses. We find that structured formats are capacity-dependent. Models with sufficient headroom absorb JSON constraints without degradation (Sonnet: $88.7\pm4.0$% JSON vs. $89.3\pm1.7$% CoT on MATH-Hard). In contrast, formats severely degrade models operating near their limits through two distinct mechanisms. First, under standard token budgets, Haiku drops 36.2pp ($p < 0.0001$) largely due to truncation. Second, even with extended budgets eliminating truncation, GPT-4o-mini drops 28.0pp ($p < 0.001$), revealing pure capacity competition independent of token exhaustion. This format penalty scales with schema complexity (McNemar $p < 0.0001$) and cannot be explained by prompt length alone. Furthermore, these results qualify claims of frontier model immunity: on AIME competition math, Opus 4.7 drops from 96.2% to 91.0% under JSON ($-5.3$pp; the displayed percentages are independently rounded, exact difference is $7/133 = 5.26$pp $\approx 5.3$pp). A delayed-structure ablation -- reasoning freely before formatting -- recovers most of the lost accuracy (3-run mean: 80--87%), supporting the capacity competition mechanism. The practical implication is not to avoid structured output, but to match it to capacity: when a model is near its limits, think first, format later.
- Abstract(参考訳): 以前の作業では、構造化されたアウトプットを推論税として扱うが、このフレーミングは不完全であり、フォーマットのコストはモデルの予備能力に強く依存する。
情報マッチングされた散文制御と4段階のスキーマ複雑性勾配を用いて、4つのモデルと0%のパース障害を持つ5つのベンチマーク間のプロンプト長のコンファウンドから、フォーマット固有の効果を分離する。
構造化フォーマットはキャパシティに依存している。
十分なヘッドルームを持つモデルは、劣化せずにJSON制約を吸収する(Sonnet: 88.7\pm4.0$% JSON対 89.3\pm1.7$% CoT on MATH-Hard)。
対照的に、フォーマットは2つの異なるメカニズムを通してその限界近くで動作するモデルを著しく劣化させる。
第一に、標準的なトークンの予算の下で、俳句は36.2pp(p < 0.0001$)を下げる。
第二に、予算が延長されても、GPT-4o-miniは28.0pp (p < 0.001$) となり、トークンの枯渇とは無関係に純粋な容量競争が引き起こされる。
このフォーマットのペナルティはスキーマの複雑さ(McNemar $p < 0.0001$)でスケールし、プロンプト長だけでは説明できない。
さらに、これらの結果はフロンティアモデルの免疫の主張を許容する: AIME の競技数学では Opus 4.7 は 96.2% から 91.0% まで低下し(5.3$pp)、表示されたパーセンテージは独立して丸められ、正確な差は 7/133 = 5.26$pp $\approx 5.3$pp である。
遅延構造アブレーション -- フォーマッティング前に自由に推論 -- は、失われた精度のほとんどを回復し(平均80~87%)、容量競争メカニズムをサポートする。
実際の意味は、構造化された出力を避けるのではなく、それをキャパシティにマッチさせることである。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models [0.5482532589225553]
本稿では、デバイス上および低コストのSLM(Small Language Model)デプロイメントを対象としている。
出力制約が根底にある答えを変えることなく信頼性を向上させることを示す。
我々は,回答と実行可能精度損失を分離するための測定プロトコルであるEmphconstraint Taxを導入する。
論文 参考訳(メタデータ) (2026-05-20T07:11:32Z) - One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness [12.183451602438753]
単純な語彙制約(句読解文字または共通単語の禁止)により、命令調整されたLLMが応答を崩壊させることを示す。
ベースモデルでは,同じ制約の下で,小さな,騒々しい,双方向的な効果を伴って,体系的な崩壊を示さないことを示す。
論文 参考訳(メタデータ) (2026-04-14T17:40:01Z) - The Format Tax [30.128781228264216]
構造化された出力要求は、オープンウェイトモデル間での推論と書き込み性能を著しく低下させる。
この診断は単純な原則であり、形式から推論を分離するものである。
最近のクローズドウェイトモデルは形式税をほとんど示していないが、この問題は構造化された生成に固有のものではなく、現在のオープンウェイトモデルがまだ解決していないギャップを示唆している。
論文 参考訳(メタデータ) (2026-04-04T07:16:28Z) - Did You Forget What I Asked? Prospective Memory Failures in Large Language Models [0.0]
大規模な言語モデルは、必要なタスクを同時に実行する必要があるときに、フォーマット命令を満たさないことが多い。
制御パラダイムを用いて、認知心理学から先進記憶にインスパイアされたレンズを通して、この行動を研究する。
脆弱性は型に依存しやすく、50%まで低下する一方、回避制約は比較的堅牢である。
サリエンス強化フォーマット(明示的な命令フレーミングと後続のリマインダー)は、多くの設定で性能を90-100%に回復する。
論文 参考訳(メタデータ) (2026-03-07T05:58:19Z) - PromptPort: A Reliability Layer for Cross-Model Structured Extraction [0.11280931253550518]
LLMによる構造化抽出は、モデルが理解できないためではなく、出力フォーマットがモデルやプロンプト間で信頼できないため、本番環境では失敗する。
本稿では,決定論的正準化と軽量検証器(DistilBERT)と安全オーバライドポリシを組み合わせた信頼性層であるPromptPortを提案する。
この方法は、保留モデルファミリに一般化し、不確実な場合には明示的な棄権を与え、プロダクションデプロイメントにおける信頼性の高い構造化抽出を可能にする。
論文 参考訳(メタデータ) (2026-01-06T03:54:27Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。