論文の概要: Measuring Semantic Progress in Multi-turn Dialogue via Information Gain
- arxiv url: http://arxiv.org/abs/2606.12332v1
- Date: Wed, 10 Jun 2026 17:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.580216
- Title: Measuring Semantic Progress in Multi-turn Dialogue via Information Gain
- Title(参考訳): 情報ゲインによる多ターン対話のセマンティック・プログレスの測定
- Authors: Paul He, Shiva Kasiviswanathan, Dominik Janzing,
- Abstract要約: 我々は,情報探索対話における重要な側面であるセマンティック・プログレスに焦点を当てた。
埋め込み空間に近似する情報理論計量を導入する。
実験の結果,提案指標は人間の判断と競合する一致を示した。
- 参考スコア(独自算出の注目度): 7.146946575593476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating multi-turn dialogue is challenging because quality emerges across turns rather than within individual responses. We focus on a key dimension of information-seeking dialogue: semantic progress, defined as the accumulation of new, question-relevant, and non-redundant information over the course of a conversation. We formalize semantic progress as question-conditioned uncertainty reduction and introduce an information-theoretic metric that approximates it in embedding space. Our main estimator uses a tractable Gaussian formulation with closed-form updates, while a complementary maximum-entropy argument shows why log-determinant structure arises more broadly when only second-order embedding information is retained. This formulation yields desirable theoretical properties, including monotonicity, additive decomposition of total information gain across turns, and diminishing returns for redundant evidence. Unlike LLM-as-a-judge approaches, our metric requires no autoregressive inference at evaluation time and is fully reproducible for a fixed embedding model. Experiments on MT-Bench, Chatbot Arena, and UltraFeedback show that the proposed metric achieves competitive agreement with human judgments despite targeting only semantic progress, with improved alignment on MT-Bench and UltraFeedback compared to several LLM-based judges. Notably, the method remains effective with lightweight embedding models under CPU-only execution, indicating that semantic progress can be captured without reliance on large model capacity.
- Abstract(参考訳): マルチターン対話の評価は、個々の応答ではなく、ターンごとに品質が現れるため、難しい。
我々は、会話の過程で、新しい、質問関連、非冗長な情報の蓄積として定義される意味的進歩という、情報探索対話の重要な次元に焦点を当てる。
我々は,意味的進歩を質問条件の不確実性低減として定式化し,それを埋め込み空間に近似する情報理論計量を導入する。
主推定器は, 閉形式更新を伴うトラクタブルガウス式を用いており, 補足的最大エントロピー論は, 二次埋め込み情報のみを保持する場合に, 対数決定構造がより広範に現れることを示す。
この定式化は、単調性、全情報ゲインのターン間での加法分解、冗長な証拠に対するリターンの減少など、望ましい理論的性質をもたらす。
LLM-as-a-judgeアプローチとは異なり、評価時に自己回帰推論は不要であり、固定埋め込みモデルに対して完全に再現可能である。
MT-Bench,Chatbot Arena,UltraFeedbackの実験により,MT-BenchとUltraFeedbackのアライメントを改善するとともに,意味的進歩のみを目標としながら,人間の判断と競合する合意を達成できることが示された。
特に、この手法は、CPUのみの実行下で軽量な埋め込みモデルで有効であり、大きなモデルキャパシティに依存することなくセマンティック・プログレスをキャプチャできることを示している。
関連論文リスト
- MM-Snowball: Evaluating and Mitigating Hallucination Snowballing in Multimodal Multi-Turn Dialogue [98.58433916474472]
MM-Snowballは,対話内における幻覚雪球の診断のための最初のベンチマークである。
本稿では,この劣化に対処するために,コンフリクト・アウェア・ビジュアル・リクティフィケーション(CAVR)を提案する。
論文 参考訳(メタデータ) (2026-05-30T08:53:34Z) - Max-pooling Network Revisited: Analyzing the Role of Semantic Probability in Multiple Instance Learning for Hallucination Detection [31.935824861650005]
幻覚検出は、大規模言語モデルの信頼性を向上させるためにますます重要になっている。
近年,MIL(Multiple Instance Learning)による内部モデル状態とセマンティック一貫性を組み合わせたHaMIのようなハイブリッドアプローチが,最先端のパフォーマンスを実現している。
本研究では,まず,決定マージンの観点からHaMIの理論的解析を行い,内部状態を意味的整合性で拡張すると決定マージンが大きくなることを示した。
論文 参考訳(メタデータ) (2026-05-09T10:30:30Z) - LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations [53.20772659095155]
本稿では、トレーニング時不完全観察において、より困難なIMLの設定に取り組む。
本稿では,この課題を条件付きシーケンス推論タスクとして再構成したLIMSSR(LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-05-01T06:11:42Z) - Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition [36.36218470387896]
私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内のオブジェクトと背景の期待値を推定し、反ファクトの埋め込みを合成する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善する。
論文 参考訳(メタデータ) (2025-10-30T13:11:23Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [8.926050258264844]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。
小さなLMの生成過程における幻覚の蓄積と伝播を計算する。
検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文 参考訳(メタデータ) (2025-05-05T01:45:56Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。