Fugu-MT 論文翻訳(概要): KITE: A Tri-Modal Transformer Integrating Text, Images, and Knowledge Graphs for Fake News Detection

論文の概要: KITE: A Tri-Modal Transformer Integrating Text, Images, and Knowledge Graphs for Fake News Detection

arxiv url: http://arxiv.org/abs/2606.07651v1
Date: Tue, 02 Jun 2026 18:03:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.189795
Title: KITE: A Tri-Modal Transformer Integrating Text, Images, and Knowledge Graphs for Fake News Detection
Title（参考訳）: KITE:フェイクニュース検出のためのテキスト,画像,知識グラフを統合した3モード変換器
Authors: Kevin Patel, Shashi Bhushan Jha,
Abstract要約: 本稿では,テキスト,視覚,事実の知識表現を共同でモデル化する3モーダルな偽ニュース検出フレームワークKITEを紹介する。 KITEは、テキスト、視覚、知識機能を統合するためにマルチモーダルトランスフォーマー内で、相互に注意を払っており、各モーダルが相互にどのように関連しているかを理解するのに役立っている。ベンチマークデータセットによる評価は、KITEが単調なベースラインとバイモーダルのベースラインを著しく上回っていることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional fake news detection methods are falling behind as multimodal misinformation grows more advanced, seamlessly blending deceptive text, manipulated visuals, and factually incorrect claims. Most prior work focuses on text-image fusion or applies external knowledge only as a post-processing step, limiting their ability to detect deeper semantic inconsistencies. In this paper, we introduce KITE (Knowledge-Integrated Text-Image Encoder), a tri-modal fake news detection framework that jointly models textual, visual, and factual knowledge representations. KITE leverages Roberta [23,14] and CLIP [24] for linguistic and visual encoding, while a Graph Attention Network (GAT) processes structured facts retrieved from Wikidata. KITE uses cross-modal attention [9] within a multimodal transformer to integrate text, visual, and knowledge features, helping it understand how each modality relates to one another. Modality-specific confidence scores are generated alongside the final prediction, offering interpretability by indicating which input type most influenced the decision. Evaluations on benchmark datasets demonstrate that KITE significantly outperforms unimodal and bimodal baselines, particularly in scenarios involving image-text mismatches or contradictions with external knowledge.
Abstract（参考訳）: 従来のフェイクニュース検出手法は、マルチモーダルな誤報がより進歩し、詐欺的テキスト、操作された視覚、そして事実的に誤った主張をシームレスにブレンドするにつれて、遅れを取っている。これまでの作業のほとんどは、テキストイメージの融合や、後処理のステップとしてのみ外部知識を適用し、より深いセマンティックな矛盾を検出する能力を制限する。本稿では,テキスト,視覚,事実の知識表現を共同でモデル化する3モーダルなフェイクニュース検出フレームワークであるKITE(Knowledge-Integrated Text-Image Encoder)を紹介する。 KITEはロバータ[23,14]とCLIP[24]を言語的および視覚的エンコーディングに利用し、グラフ注意ネットワーク(GAT)はWikidataから取得した構造化事実を処理する。 KITEはテキスト,視覚,知識機能を統合するために,マルチモーダルトランスフォーマー内の相互注意[9]を使用し,各モーダルが相互にどのように関連しているかを理解するのに役立ちます。モーダリティ固有の信頼スコアは最終予測と共に生成され、どの入力タイプが決定に最も影響したかを示すことによって解釈可能性を提供する。ベンチマークデータセットによる評価では、KITEは、特に画像テキストのミスマッチや外部知識との矛盾を含むシナリオにおいて、ユニモーダルとバイモーダルのベースラインを著しく上回っている。

関連論文リスト

KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection [3.221633413708485]
本稿では,視覚的,テキスト的,知識に基づく表現を統合した,新しいマルチモーダルフェイクニュース検出フレームワークを提案する。本提案では,知識基底型マルチモーダル推論という新たなパラダイムを提案する。
論文参考訳（メタデータ） (2025-05-18T13:08:38Z)
Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。 3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文参考訳（メタデータ） (2023-09-15T04:39:11Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
PV2TEA: Patching Visual Modality to Textual-Established Information Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。 PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文参考訳（メタデータ） (2023-06-01T05:39:45Z)
Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文参考訳（メタデータ） (2023-04-15T21:11:55Z)
Contextual information integration for stance detection via cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。文脈情報をテキストとして統合する手法を提案する。
論文参考訳（メタデータ） (2022-11-03T15:04:29Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。