論文の概要: Janus: A Benchmark for Goal-Conditioned Information Distortion in LLMs
- arxiv url: http://arxiv.org/abs/2606.10852v1
- Date: Tue, 09 Jun 2026 13:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.521384
- Title: Janus: A Benchmark for Goal-Conditioned Information Distortion in LLMs
- Title(参考訳): Janus: LLMにおけるゴールコンディション情報歪みのベンチマーク
- Authors: Polydoros Giannouris, Mohsinul Kabir, Sophia Ananiadou,
- Abstract要約: 本稿では,実地LLM出力における目標条件の実用的歪みを測定するためのベンチマークであるJANUSを紹介する。
Janusには8つのドメインにまたがる160のシナリオがあり、各シナリオには中立的なプロンプトと目標条件付きプロンプトとアノテートされた物質的事実がペアリングされている。
- 参考スコア(独自算出の注目度): 19.170821005516036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM deception is often evaluated through direct markers such as fabricated claims, explicit lies, or strategic concealment. However, many real-world misleading communications do not depend on false statements, rather, they arise from selective treatment of true material facts: omitting adverse evidence, softening unfavorable details, emphasizing favorable details, or replacing precise qualifications with vague language. Existing benchmarks largely miss this subtler and arguably more dangerous failure mode. We introduce JANUS, a benchmark for measuring goal-conditioned pragmatic distortion in fact-grounded LLM outputs. Each scenario in our benchmark provides a fixed pool of favorable and adverse facts and compares a neutral condition against a goal-directed condition, such as increasing adoption, enrollment, approval, or support, despite potential harm to directly affected individuals or groups. Because all outputs are constrained to use the same fact pool, JANUS isolates misleading net impressions from hallucination and fabrication. JANUS contains 160 scenarios across 8 domains, with each scenario paired with neutral and goal-conditioned prompts and annotated material facts. Extensive experiments across 12 LLMs reveal consistent goal-conditioned distortions, demonstrating that current models remain sensitive to incentive and framing objectives and lack robust safeguards against selectively misleading communication. We publicly release our corpus and code for future research.
- Abstract(参考訳): LLMの偽造は、しばしば、製造されたクレーム、明示的な嘘、戦略的隠蔽などの直接的なマーカーによって評価される。
しかし、現実世界の誤解を招くコミュニケーションの多くは、偽の言明に頼らず、悪質な証拠を省略したり、好ましくない詳細を和らげたり、好ましくない詳細を強調したり、厳密な資格を曖昧な言語に置き換えたりといった、真の物質的事実を選択的に扱うことから生じる。
既存のベンチマークでは、この微妙で、おそらくもっと危険な障害モードを見逃している。
本稿では,実地LLM出力における目標条件の実用的歪みを測定するためのベンチマークであるJANUSを紹介する。
ベンチマークの各シナリオは、好ましくない事実と悪い事実の固定されたプールを提供し、直接影響を受ける個人やグループに害を与える可能性があるにもかかわらず、採用、登録、承認、サポートなどの、中立的な条件を目標指向の状態と比較する。
全ての出力は同じ事実プールを使用するよう制約されているため、JANUSは幻覚や製造から誤解を招くネットインプレッションを分離する。
JANUSには8つのドメインにまたがる160のシナリオがあり、各シナリオには中立的なプロンプトと目標条件付きプロンプトと注釈付き物質事実がペアリングされている。
12のLLMにわたる大規模な実験では、目標条件付き歪みが一貫し、現在のモデルがインセンティブやフレーミング目標に敏感であり、選択的な誤解を招くコミュニケーションに対する堅牢な保護が欠如していることが示されている。
今後の研究のためのコーパスとコードを公開する。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs [16.173245551933178]
コンテキストグラウンドド・幻覚(Context-grounded hallucination)は、モデル出力がソーステキストに対して検証できない情報を含む場合である。
このような幻覚を局在化するためのLCMの適用性について検討する。
論文 参考訳(メタデータ) (2025-09-26T17:03:24Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - Neutralizing Bias in LLM Reasoning using Entailment Graphs [13.5088417466172]
LLMは自然言語推論(NLI)が可能であるとしばしば主張されるが、これはより複雑な推論の基盤として広く見なされている。
我々は,検証バイアスを低減するために,非教師なしのフレームワークを設計し,反実的推論データと微調整LDMを構築した。
我々のフレームワークは、元のNLIデータセットとバイアスニュートラル化されたNLIデータセットの推論性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-03-14T17:33:30Z) - Towards Statistical Factuality Guarantee for Large Vision-Language Models [15.51028935811803]
LVLM出力の事実性に関する有限サンプル分布自由統計保証を実現するためのフレームワークを提案する。
ConfLVLMは、シーン記述においてLLaVa-1.5が生成したクレームの誤り率を87.8%から10.0%に下げ、95.3%の真の正のクレームをフィルタリングする。
さらに, ConfLVLMは高い柔軟性を示し, 画像条件付き自由形式のテキスト生成タスクに対して, 不確実性を考慮した任意のブラックボックスLVLMに適用可能であることを示した。
論文 参考訳(メタデータ) (2025-02-27T22:01:22Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。