論文の概要: EASE-TTT: Evidence-Aligned Selective Test-Time Training for Long-Context Question Answering
- arxiv url: http://arxiv.org/abs/2606.06906v1
- Date: Fri, 05 Jun 2026 04:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.571379
- Title: EASE-TTT: Evidence-Aligned Selective Test-Time Training for Long-Context Question Answering
- Title(参考訳): EASE-TTT: 長期質問応答のためのエビデンスアライン選択テストタイムトレーニング
- Authors: Xiaopeng Yuan, Zebin Wang, Suwen Wang, Zongxin Yang, Haohan Wang, Yushun Dong,
- Abstract要約: 長文質問応答のためのEvidence-Aligned Selective Test-Time Training (EASE-TTT)を提案する。
EASE-TTTは、選択されたエビデンスチャンクをトークン位置に対するソフトアテンション監視ターゲットに変換する。
完全コンテキスト推論、検索専用ベースライン、qTTTの中では最強のマクロ平均性能を実現している。
- 参考スコア(独自算出の注目度): 61.89411578705886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context question answering (QA) remains challenging for smaller language models even when answer-bearing evidence is already present in the input. Existing within-context retrieval methods localize and expose candidate evidence chunks for the question, but they stop at input-level evidence exposure rather than adapting the query-side attention parameters that control how the model allocates attention over full-context positions. In contrast, lightweight test-time adaptation methods, such as query-only test-time training (qTTT), leave evidence localization unresolved because their generic span-level self-supervised objectives do not identify which context positions support the current answer. In this paper, we propose Evidence-Aligned SElective Test-Time Training (EASE-TTT), a within-context retrieval-augmented test-time training framework that converts selected evidence chunks into a soft attention supervision target over their token positions. Instead of replacing the full context with retrieved chunks, EASE-TTT uses the resulting attention target to guide query-side adaptation, with the adapted model generating the final answer from the original full context. Experiments on six LongBench QA tasks and three small decoder-only language models show that EASE-TTT achieves the strongest macro-average performance among full-context inference, retrieval-only baselines, and qTTT, supporting evidence-aligned test-time adaptation in long-context QA.
- Abstract(参考訳): 長文質問応答 (Long-context Question answering, QA) は, 入力にすでに答えを持つ証拠が存在する場合でも, より小さな言語モデルでは依然として困難である。
既存のコンテキスト内検索手法では、候補の証拠チャンクをローカライズして公開するが、完全なコンテキスト位置よりもどのように注意を割り当てるかを制御するクエリ側注意パラメータを適応するのではなく、入力レベルのエビデンス露光で停止する。
対照的に、クエリオンリーのテストタイムトレーニング(qTTT)のような軽量なテストタイム適応手法では、汎用的なスパンレベルの自己管理目的が現在の回答をサポートするコンテキストの位置を特定しないため、エビデンスローカライゼーションは未解決のままである。
本稿では,選択されたエビデンスチャンクをトークン位置上のソフトアテンション監視ターゲットに変換する,テキスト内検索強化テストタイムトレーニングフレームワークであるEvidence-Aligned Selective Test-Time Training (EASE-TTT)を提案する。
完全なコンテキストを取得したチャンクに置き換える代わりに、EASE-TTTはクエリ側の適応をガイドするために、結果のアテンションターゲットを使用し、適応モデルは元のフルコンテキストから最終回答を生成する。
6つのLongBench QAタスクと3つの小さなデコーダのみの言語モデルの実験により、EASE-TTTは、完全コンテキスト推論、検索専用ベースライン、およびqTTTの中で最強のマクロ平均性能を達成し、長期コンテキストQAにおけるエビデンス整合テスト時間適応をサポートすることが示された。
関連論文リスト
- TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning [54.70019148172847]
テスト時強化学習(Test-Time Reinforcement Learning)のパラダイムをビデオ言語データに活用することにより,事前学習されたモデルを明示的なラベルなしで,テスト時のビデオサンプルに適応させることができる。
ビデオアプローチのためのテスト時間適応(TTA-Vid)は、同時に動作する2つのコンポーネントを組み合わせる。
TTA-Vidは、様々なビデオ推論タスクで一貫した改善をもたらし、大規模データで訓練された最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-04-01T09:52:57Z) - Context-Picker: Dynamic context selection using multi-stage reinforcement learning [4.539896456749749]
長文質問応答のための推論対応フレームワークであるemphContext-Pickerを紹介した。
Context-Pickerはコンテキスト選択を、人間にインスパイアされた2段階の強化学習スケジュールを通じて最適化された意思決定プロセスとして扱う。
5つの長コンテキストおよびマルチホップQAベンチマークの実験は、Context-Pickerが強力なRAGベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-16T14:52:11Z) - In-Context Learning for Pure Exploration [28.404325855738502]
本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説検定の課題について考察する。
In-Context Pure Exploration (ICPE)を導入し、トランスフォーマーをメタトレーニングして、観測履歴をクエリアクションと予測仮説にマッピングする。
ICPEは、新しいタスクの証拠を積極的に収集し、パラメータの更新なしに真の仮説を推測する。
論文 参考訳(メタデータ) (2025-06-02T17:04:50Z) - Options-Aware Dense Retrieval for Multiple-Choice query Answering [5.098112872671412]
長文複数選択質問応答タスクは、広範囲なテキストソースに対して頑健な推論を必要とする。
この領域における先行研究は、主に事前訓練された高密度検索モデルを利用している。
本稿では,これらの課題に対処するため,OADR (Options Aware Dense Retrieval) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T15:03:26Z) - Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長いコンテキスト言語モデル(LM)に挑戦し、インコンテキスト学習(ICL)を通して言語タスクのシーケンスを学習する問題設定であるLifelong ICLを導入する。
長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文 参考訳(メタデータ) (2024-07-23T17:57:41Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。