論文の概要: Improving Cross-Format Robustness in Language Models with Multi-Format Training
- arxiv url: http://arxiv.org/abs/2606.11643v1
- Date: Wed, 10 Jun 2026 04:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.286522
- Title: Improving Cross-Format Robustness in Language Models with Multi-Format Training
- Title(参考訳): マルチフォーム学習による言語モデルにおけるクロスフォームロバスト性の改善
- Authors: June M. Liu, Shaomian Zheng, He Cao, Dingnan Jin, Qing Cui, Jun Zhou,
- Abstract要約: クロスフォーマットロバスト性(クロスフォーマットロバスト性、cross-format robustness)とは、モデルが複数のフォーマットで同じ疑問に一貫して答える程度である。
FormatMixはトレーニング項目のサブセットのみを複数の等価フォーマットに拡張します。
トレーニングセットの約30%を複数のフォーマットに拡張するだけで、フルフォーマットのトレーニングで得られる利益のほとんどを回復できることが分かっています。
- 参考スコア(独自算出の注目度): 17.87388405562304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often remain sensitive to answer format: a question solved correctly in one form may fail in another semantically equivalent form. To study this gap, we define cross-format robustness as the extent to which a model answers the same underlying question consistently across formats. We then compare full-format training with FormatMix, which expands only a subset of training items into multiple equivalent formats using either random or targeted selection. Across GLM4 and Llama-3.1, multi-format supervision consistently improves both task performance and cross-format robustness, whereas Multiple-choice question (MCQ)-only supervision alone brings little benefit and can even reduce robustness. We further find that expanding only about 30% of the training set into multiple formats often recovers most of the gain from full-format training, and this effect appears across the model families and sizes we study. These results suggest that format diversity, rather than additional supervision alone, is the key driver of robustness. That lightweight multi-format augmentation is a practical way to make LLMs less sensitive to answer format without changing the base model.
- Abstract(参考訳): 大規模な言語モデルは、解答形式に敏感なままであり、ある形式で正しく解かれた質問は、別の意味論的に等価な形式で失敗することがある。
このギャップを研究するために、我々は、モデルが複数のフォーマットで同じ疑問に一貫して答える範囲として、クロスフォーマットロバスト性を定義する。
次に、フルフォーマットのトレーニングをFormatMixと比較します。これは、トレーニング項目のサブセットのみをランダムまたはターゲットの選択を使用して、複数の等価フォーマットに拡張します。
GLM4 と Llama-3.1 全体では、マルチフォーマットの監督はタスクパフォーマンスとクロスフォーマットの堅牢性の両方を一貫して改善するが、MCQ(Multiple-choice Question) のみの監督だけでは利益が得られず、ロバスト性も低減できる。
さらに、トレーニングセットの約30%を複数のフォーマットに拡張するだけで、フルフォーマットのトレーニングで得られる利益のほとんどを回復することがよくあり、この効果は、私たちが研究しているモデルファミリーやサイズにまたがって現れます。
これらの結果は、さらなる監督のみではなく、フォーマットの多様性が堅牢性の主要な要因であることを示唆している。
この軽量なマルチフォーマット拡張は、LLMがベースモデルを変更することなく、応答形式に敏感さを損なうための実用的な方法である。
関連論文リスト
- MF-QAT: Multi-Format Quantization-Aware Training for Elastic Inference [1.938624051379935]
量子化対応トレーニング(QAT)は通常、単一のターゲット数値フォーマットで実行される。
マルチフォーマットQATについて検討し、単一のモデルを複数の量子化フォーマットで堅牢にトレーニングする。
本稿では,MXINT と MXFP の双方に対するスライス・アンド・スケール変換手法を提案する。
論文 参考訳(メタデータ) (2026-04-01T06:12:19Z) - Format-Adapter: Improving Reasoning Capability of LLMs by Adapting Suitable Format [93.99600697438079]
以前の研究では、複数の推論フォーマットが複数の回答を生成する場合、単一のフォーマットより優れていることが示されている。
与えられたタスクに適切なフォーマットを適応させ、フォーマットを生成して選択する。
Format-Adapterは,従来の作業よりも平均4.3%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-06-29T08:11:52Z) - ReFF: Reinforcing Format Faithfulness in Language Models across Varied Tasks [32.021938679807555]
FormatBenchは,大規模言語モデル(LLM)のフォーマット関連ベンチマークである。
ベンチマーク実験によると、最先端のオープンソースおよびクローズドソースのLLMは、フォーマット忠実性の深刻な欠如に悩まされている。
本稿では,LLMが汎用品質を損なうことなく,形式化された出力を生成するのを支援するために,ReFF(Reinforce Format Faithfulness)を提案する。
論文 参考訳(メタデータ) (2024-12-12T11:03:25Z) - LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs [69.40865293066885]
本稿では,大規模言語モデル(LLM)の性能評価において,形式バイアスを考慮した最初の体系的評価を提案する。
本稿では,複数の質問回答,ラッピング,リスト,マッピングの4つのカテゴリにまたがる経験的形式バイアス評価について述べる。
論文 参考訳(メタデータ) (2024-08-16T10:45:45Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Transforming Sequence Tagging Into A Seq2Seq Task [10.130389627403433]
入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
論文 参考訳(メタデータ) (2022-03-16T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。