論文の概要: CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression
- arxiv url: http://arxiv.org/abs/2606.24083v1
- Date: Tue, 23 Jun 2026 02:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.749937
- Title: CAVEWOMAN: How Large Language Models Behave Under Linguistic Input and Output Compression
- Title(参考訳): CAVEWOMAN:言語入力および出力圧縮下での大規模言語モデル
- Authors: Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt,
- Abstract要約: 本稿では,2チャンネル評価プロトコルであるCavewomanについて述べる。
我々は5つのデータセットの8つのモデルを5つの還元レベルで評価し、両方のチャネルは同じ項目で測定した。
- 参考スコア(独自算出の注目度): 77.41779716950387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Talk short. Drop grammar. Save token." This caveman style is widely promoted as a way to cut inference cost, but whether it actually saves anything depends on which channel (the user's prompt or the model's response) is being compressed. We present Cavewoman, a two-channel evaluation protocol that scores every generation on task accuracy, realized per-item cost, and reference-text agreement against the model's unconstrained reference. We evaluate eight models on five datasets at five reduction levels, with both channels measured on the same items. Output compression cuts realized cost on most API models (1.4-2.4x per model, up to 3x in the best case) and on all four open-weight models under public-tier pricing. Input compression has the opposite effect, a strict lose-lose: it raises net cost rather than lowering it (~1.15x on the five-benchmark mean, up to 1.8x on the worst dataset and 2.7x under stronger compression), because models compensate with longer responses even as accuracy collapses. Under the same setting, surface text diverges from the unconstrained reference: on the non-reasoning models, roughly half of all generations are correct yet their surface text no longer entails the model's own unconstrained baseline generation. The divergence survives length-controlled re-scoring, multiple-comparisons correction, and replication under complementary semantic measures. Code and data are available at https://github.com/danielle34/cavewoman.
- Abstract(参考訳): 「簡単に言って、文法を落とせ、トークンを救え」
この洞穴式は推論コストを削減する方法として広く推奨されているが、実際に何かを節約するかどうかは、どのチャンネル(ユーザーのプロンプトまたはモデルの応答)が圧縮されているかによって異なる。
本稿では,2チャンネル評価プロトコルであるCavewomanについて述べる。タスクの正確性に基づいて各世代をスコアし,イテム単位のコストを実現し,制約のない参照に対する参照テキストの合意を実現する。
我々は5つのデータセットの8つのモデルを5つの還元レベルで評価し、両方のチャネルは同じ項目で測定した。
アウトプット圧縮は、ほとんどのAPIモデル(モデル毎に1.4-2.4倍、ベストケースでは3倍)と、パブリックレベルの価格で4つのオープンウェイトモデルすべてにおいてコストを削減した。
入力圧縮には逆効果があり、厳格なロスロースがある: コストを下げるよりもネットコストを上げる(5ベンチマーク平均では1.15倍、最悪のデータセットでは1.8倍、より強い圧縮では2.7倍)。
同じ条件下では、表面テキストは制約のない参照から分岐する:非推論モデルでは、ほぼ半数の世代が正しいが、それらの表面テキストはモデル自身の制約のないベースライン生成をもはや必要としない。
分岐は、相補的な意味尺度の下で、長さ制御された再描画、多重比較補正、複製を生き残る。
コードとデータはhttps://github.com/danielle34/cavewoman.comで公開されている。
関連論文リスト
- Capacity, Not Format: Rethinking Structured Reasoning Failures [0.0]
それまでの作業では、構造化された生産物は推論税として扱われていたが、このフレーミングは不完全である。
情報マッチングされた散文制御と4段階のスキーマ勾配を用いて,プロンプト長のコンファウンドからフォーマット固有の効果を分離する。
構造化フォーマットはキャパシティに依存している。
論文 参考訳(メタデータ) (2026-06-08T12:26:54Z) - The Format Tax [30.128781228264216]
構造化された出力要求は、オープンウェイトモデル間での推論と書き込み性能を著しく低下させる。
この診断は単純な原則であり、形式から推論を分離するものである。
最近のクローズドウェイトモデルは形式税をほとんど示していないが、この問題は構造化された生成に固有のものではなく、現在のオープンウェイトモデルがまだ解決していないギャップを示唆している。
論文 参考訳(メタデータ) (2026-04-04T07:16:28Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Overfitting for Fun and Profit: Instance-Adaptive Data Compression [20.764189960709164]
ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
論文 参考訳(メタデータ) (2021-01-21T15:58:58Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。