論文の概要: Evaluating LLM Personalization via Semantic Constraint Verification
- arxiv url: http://arxiv.org/abs/2606.16368v1
- Date: Mon, 15 Jun 2026 08:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.168933
- Title: Evaluating LLM Personalization via Semantic Constraint Verification
- Title(参考訳): 意味的制約検証によるLLMパーソナライゼーションの評価
- Authors: Xuran Li, Guanqin Zhang, Imran Razzak, Hakim Hacid, Eleanna Kafeza, Hao Xue, Flora D. Salim,
- Abstract要約: 自然言語推論制約検証(NLICV)を導入する。
NLICVは文の意味を真理条件集合にマッピングし、自然言語推論(NLI)モデルを介してパーソナライズ制約を検証する。
実験によると、NLICVは人間のアノテーションと密接に一致し、LLMの審査員によるレイテンシとトークンコストを大幅に削減している。
- 参考スコア(独自算出の注目度): 25.539904066738288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation paradigms for Large Language Model (LLM) personalization rely heavily on brittle surface-matching metrics or computationally expensive LLM-as-a-judge protocols, both of which lack interpretability. To address these limitations, we introduce Natural Language Inference Constraint Verification (NLICV), a scalable, semantically invariant framework that maps sentence meanings to truth-condition sets to verify personalization constraints via a Natural Language Inference (NLI) model. Moving beyond binary scoring, NLICV categorizes LLM behaviors into four distinct modes: personalization, generalization, sycophancy, and failure. Extensive experiments demonstrate that NLICV aligns closely with human annotations while drastically reducing the latency and token costs associated with LLM judges (up to 2100 inference speedup). Finally, through an ablation-based procedure, NLICV pinpoints the exact sentences driving the constraint verification, yielding faithful, understandable evidence for its evaluations.
- Abstract(参考訳): LLM(Large Language Model)のパーソナライズのための現在の評価パラダイムは、不安定な表面マッチングメトリクスや計算コストの高いLCM-as-a-judgeプロトコルに大きく依存しており、どちらも解釈性に欠ける。
これらの制約に対処するため、自然言語推論制約検証(NLICV)を導入し、文の意味を真理条件にマッピングし、自然言語推論(NLI)モデルを介してパーソナライズ制約を検証する。
バイナリスコアを超えて、NLICVはLLMの動作をパーソナライズ、一般化、梅毒、失敗の4つのモードに分類する。
大規模な実験では、NLICVは人間のアノテーションと密接に一致し、LLMの審査員によるレイテンシとトークンコストを大幅に削減する(最大2100の推論スピードアップ)。
最後に、アブレーションに基づく手続きを通じて、NLICVは制約検証を駆動する正確な文をピンポイントし、その評価に対して忠実で理解可能な証拠を与える。
関連論文リスト
- ActTraitBench: Quantifying the Knowledge-Decision Gap in Large Language Models via Human-Grounded Behavioral Validation [8.82034003345674]
大規模言語モデル(LLM)は、明示的な自己報告でペルソナを確実にシミュレートするが、暗黙の行動決定においてしばしば逸脱する。
既存のベンチマークは、構成の妥当性の制限、多次元の絡み合い、分布バイアスのために、この非対称性を測定するのに苦労している。
本稿では,LLMの人格整合性を評価するための人為的評価フレームワークである ActTraitBench を提案する。
論文 参考訳(メタデータ) (2026-05-28T11:40:35Z) - Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies [0.9867902290081937]
検索強化生成のような大規模言語モデル(LLM)アプリケーションでは,根拠付きクレームの事実性チェックが重要である。
本報告では, 根拠付き事実性チェックを真偽読解タスクとして定式化することによって, この問題に対処する。
本手法は未案内のオープンエンド推論と比較してトークン使用率を80%以上削減する。
論文 参考訳(メタデータ) (2026-05-28T10:11:42Z) - Learning and Enforcing Context-Sensitive Control for LLMs [48.58004364546273]
本稿では,大規模言語モデルの相互作用から文脈依存制約を自動的に学習するフレームワークを提案する。
実験により,本手法は,LLM (1Bパラメータ) の学習と生成を完全制約付きで行うことができることを示した。
論文 参考訳(メタデータ) (2026-04-12T14:50:03Z) - Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity [6.285055089721361]
モデルが言語学的に関係のある手がかりに依存しているかどうかをテストするために,トークンレベルの難易度に基づく基本的解釈可能性フレームワークを導入する。
本手法は,不安定な特徴帰属技術に頼ることなく,正確な仮説駆動解析を可能にする。
論文 参考訳(メタデータ) (2026-03-31T08:00:55Z) - FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。