論文の概要: Closing the Social-Semantic Gap: SPSD for Edge-Based Prompt Compression in Cloud LLM Inference
- arxiv url: http://arxiv.org/abs/2606.19364v1
- Date: Wed, 10 Jun 2026 09:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.392083
- Title: Closing the Social-Semantic Gap: SPSD for Edge-Based Prompt Compression in Cloud LLM Inference
- Title(参考訳): ソーシャルセマンティックギャップの閉鎖:クラウドLLM推論におけるエッジベースプロンプト圧縮のためのSPSD
- Authors: Abhinit Sen, Ajeet Kumar, Manaranjan Pradhan,
- Abstract要約: 提案するSPSD(Sentiment Preserving Semantic Distillation)は,クラウドにデプロイした大規模言語モデルに送信する前にユーザのプロンプトを圧縮するエッジベースのパイプラインである。
オンデバイス・プロンプト蒸留は, 実用的非負のマージン内で応答品質を保ちながら, クラウドLLM入力トーケンコストを低減できることを示す。
- 参考スコア(独自算出の注目度): 1.0195618602298684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prefill stage of Large Language Model (LLM) inference is a growing contributor to cloud-scale energy cost. Many consumer-support and conversational prompts contain social scaffolding: politeness markers, apologetic preamble, repetition, and rapport-building language that is important for human communication but carries low marginal information for machine reasoning. We call this discrepancy the Social-Semantic Gap. We present SPSD (Sentiment Preserving Semantic Distillation), an edge-based pipeline that compresses user prompts using a 4-bit quantised Small Language Model before transmission to a cloud-deployed LLM. Evaluation on a 248-prompt corpus using Gemma-2-2B-Instruct (Q4_K_M) as the SLM and Llama-3.1-8B-Instruct as the cloud evaluation model yields a mean input token saving of 99.9 tokens per distilled call, with all 146 distilled calls yielding positive savings. Response quality, assessed by blind LLM-as-judge scoring across 121 pairs, is non-inferior to the raw path within a pre-specified 1-point margin on a 15-point rubric; the judge awarded 43 percent ties, 28 percent distilled wins, and 29 percent raw wins. Cosine similarity is mixed: mean 0.682, median 0.712, with 54.1 percent of pairs above the 0.70 reference threshold. Safety-critical domains are conservatively routed to passthrough via rule-based gates. Per-call net energy saving is estimated at 70-270 uWh under stated assumptions. SPSD shows that on-device prompt distillation can reduce cloud LLM input-token cost while preserving response quality within a practical non-inferiority margin.
- Abstract(参考訳): LLM(Large Language Model)推論のプリフィルステージは、クラウドスケールのエネルギーコストの増大に寄与している。
多くの消費者支援的・会話的プロンプトには社会的足場が含まれている: 丁寧なマーカー、謝罪的前奏曲、反復、そして人間のコミュニケーションにとって重要な言語であるが、機械推論のための限界情報の少ないラプポート構築言語である。
これをソーシャル・セマンティック・ギャップ(Social-Semantic Gap)と呼ぶ。
本研究では,SPSD(Sentiment Preserving Semantic Distillation)という,4ビット量子化小言語モデルを用いてユーザプロンプトを圧縮し,クラウドにデプロイしたLCMに送信するエッジベースのパイプラインを提案する。
Gemma-2B-Instruct (Q4_K_M)をSLMとし、Llama-3.1-8B-Instructをクラウド評価モデルとして、248プロンプトコーパスの評価を行った。
LLM-as-judgeが121対のスコアで評価した回答の質は、15ポイントのルーブリックで事前に指定された1ポイントのマージンの範囲内にある生のパスに反し、審査員は43%の結びつき、28%の蒸留された勝利、29%の生の勝利を与えられた。
平均0.682、中央0.712、対が0.70以上の54.1%である。
安全クリティカルなドメインは、ルールベースのゲートを介して、保守的にパススルーされる。
コール毎の省エネは、所定の仮定で70-270 uWhと推定される。
SPSD は, オンデバイス・プロンプト蒸留により, 実用的非負のマージン内で応答品質を保ちながら, クラウド LLM 入力トーケンコストを低減できることを示した。
関連論文リスト
- Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - ESPO: Early-Stopping Proximal Policy Optimization [78.79610718910628]
ESPO(Early-Stopping Proximal Policy Optimization)は、軌道上の障害を検出し、ロールアウトを早期に終了する。
DeepSeek-R1-Distill-Qwen-7Bでは、ESPOはAIME2024(46.28%対45.25%)、AMC2023(85.83%対82.94%)、MATH-500(87.42%対85.43%)でPPOを上回っている。
論文 参考訳(メタデータ) (2026-05-28T12:40:22Z) - Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking [22.825786049667602]
本稿では,1つのヒト・ラタのコンセンサスに有効性を確保するために,複製第一パラダイムを提案する。
楽器を4つの特性で認証する - Kランの信頼性、アーキテクチャ的に異なる審査員間のクロスインストラクトレプリケーション、以前のトレーニングコホートからの審査員による歴史的フットプリントキャリブレーション、事前登録された予測。
本研究は, 自己発達型データ駆動による情緒的伴奏で, 次元は事前に決められず, 手順は9次元に安定化する。
論文 参考訳(メタデータ) (2026-05-27T03:41:11Z) - Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images [52.50752250573993]
MLLM(Multimodal Large Language Models)は、視覚的知覚が強いが、視点の変化による空間の推論には限界がある。
本研究では、この課題を全方位360度画像におけるパースペクティブ・コンディションド・スペース・推論(PCSR)として検討する。
我々は2,600全方位画像から84,373組の質問応答対の診断ベンチマークであるPCSR-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-12T17:11:17Z) - Human-Inspired Memory Architecture for LLM Agents [0.9507070656654629]
6つの認知機構からなる生体記憶アーキテクチャを提案する。
各メカニズムは、単純メモリ蓄積の特定の障害モードに対処する。
S層スケール(50セッション)では、デダップベースのコンソリデーションにより、好みのリコールが+13.3pp向上する。
論文 参考訳(メタデータ) (2026-05-08T22:52:37Z) - The Autocorrelation Blind Spot: Why 42% of Turn-Level Findings in LLM Conversation Analysis May Be Spurious [35.76482964927589]
202のマルチターン会話における66のターンレベルメトリクスの自己相関構造を特徴付ける。
標準プールテストでは,42%のアソシエーションがクラスタ・ロバスト補正に成功しなかった。
我々は、Chelton (1983) の有効自由度と会話レベルのブロックブートストラップを組み合わせた2段階補正フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-15T20:54:39Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。