論文の概要: GTA-Net: Cooperative Game Theory for Vision-Language Alignment in Chest X-Ray Report Generation
- arxiv url: http://arxiv.org/abs/2606.21915v1
- Date: Sat, 20 Jun 2026 07:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:56:36.068171
- Title: GTA-Net: Cooperative Game Theory for Vision-Language Alignment in Chest X-Ray Report Generation
- Title(参考訳): GTA-Net:胸部X線レポート生成における視覚言語アライメントのための協調ゲーム理論
- Authors: Saif ur Rehman Khan, Imad Ahmed Waqar, Sebastian Vollmer, Muhammad Nabeel Asim,
- Abstract要約: 協調ゲーム理論アライメント問題としてレポート生成を定式化するビジョン言語フレームワークを提案する。
GTA-Netは、SwinベースのビジュアルエンコーダとLoRA対応の大規模言語モデルを組み合わせて、生成とアライメントのための統一された目的で訓練されている。
- 参考スコア(独自算出の注目度): 2.3449131636069898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated chest X-ray report generation requires precise cross-modal grounding to ensure clinically reliable descriptions. However, existing vision-language models rely on implicit attention mechanisms that fail to enforce explicit region-word correspondence and disease-level consistency. We propose Game-Theoretic Alignment Network (GTA-Net), a vision-language framework that formulates report generation as a cooperative game-theoretic alignment problem. The model introduces a BinaryGameAligner that models interactions between image regions and text tokens using similarity-based payoff matrices with Shapley-inspired importance weighting. To enforce clinical semantics, we further develop a Disease-Aware Ternary Aligner, which captures joint interactions among images, reports, and structured disease concepts. GTA-Net combines a Swin-based visual encoder with a LoRA-adapted large language model and is trained with a unified objective for generation and alignment. Experiments on CheXpertPlus and IU-XRay demonstrate state-of-the-art performance across standard generation metrics and improved clinical consistency, highlighting the effectiveness of explicit game-theoretic alignment for medical vision-language generation.
- Abstract(参考訳): 自動胸部X線レポート生成は、臨床的に信頼性の高い記述を確実にするために、正確なクロスモーダルグラウンドを必要とする。
しかし、既存の視覚言語モデルは、明示的な地域語対応と疾患レベルの一貫性を強制できない暗黙の注意機構に依存している。
協調的なゲーム理論アライメント問題としてレポート生成を定式化する視覚言語フレームワークであるゲーム理論アライメントネットワーク(GTA-Net)を提案する。
このモデルはBinaryGameAlignerを導入し、Shapleyにインスパイアされた重み付けによる類似性ベースのペイオフ行列を使用して、画像領域とテキストトークン間のインタラクションをモデル化する。
臨床的セマンティクスを施行するために,画像,報告,構造化された疾患概念間の協調的相互作用をキャプチャーする病的認識三項利得器の開発を更に進める。
GTA-Netは、SwinベースのビジュアルエンコーダとLoRA対応の大規模言語モデルを組み合わせて、生成とアライメントのための統一された目的で訓練されている。
CheXpertPlusとIU-XRayの実験では、標準生成指標間の最先端のパフォーマンスを示し、臨床一貫性を改善し、医療ビジョン言語生成における明示的なゲーム理論アライメントの有効性を強調した。
関連論文リスト
- RIHA: Report-Image Hierarchical Alignment for Radiology Report Generation [14.781219175876883]
放射線学報告生成(RRG)は、放射線学者の作業負荷を軽減し、人的ミスを減らすための有望なアプローチとして浮上している。
RRGにおける重要な課題は、複雑な視覚特徴と長大な画像診断レポートの構造を微調整することである。
放射線画像とそれに対応するレポートを多レベルにアライメントする新しいエンドツーエンドフレームワークであるRIHAを提案する。
論文 参考訳(メタデータ) (2026-04-30T08:08:46Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。