論文の概要: MODF-SIR: A Multi-agent Omni-modal Distilled Framework for Social Intelligence Reasoning
- arxiv url: http://arxiv.org/abs/2606.12018v1
- Date: Wed, 10 Jun 2026 12:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.451439
- Title: MODF-SIR: A Multi-agent Omni-modal Distilled Framework for Social Intelligence Reasoning
- Title(参考訳): MODF-SIR:ソーシャルインテリジェンス推論のためのマルチエージェントオムニモーダル蒸留フレームワーク
- Authors: Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua,
- Abstract要約: 軽量なマルチモーダル大言語モデル(MLLM)に基づくマルチエージェント協調フレームワークを提案する。
このアーキテクチャでは、ソーシャルインテリジェンスに関連するマルチモーダルデータが正確にローカライズされている。
IntentTrainのトレーニングデータの約30%で、最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 80.41987492855971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a multi-agent collaborative framework built upon a lightweight Multimodal Large Language Model (MLLM), specifically designed for social intelligence reasoning. A key feature of our approach is that both the training and inference phases are augmented via knowledge distillation. Within this architecture, multi-modal data pertinent to social intelligence is precisely localized. Furthermore, relevant long-tail events are identified, extracted, and rendered as formatted, explicit text. This formatting strategy prevents critical long-tail information from being overshadowed by head events and environmental noise during the tokenization process. Specifically, we integrate Test-Time Adaptation (TTA) across the entire reasoning pipeline, encompassing the extraction and representation of long-tail events, Chain-of-Thought (CoT) prompting, and self-reflection. This TTA mechanism is also distillation-enhanced, utilizing Low-Rank Adaptation (LoRA) to fine-tune the foundation model exclusively for instance-level reasoning. Extensive evaluations against various open-source and proprietary AI models across multiple benchmarks demonstrate the effectiveness of the proposed framework. With around 30% of training data from IntentTrain, we achieve state-of-the-art results. Codes are available at https://github.com/eeee-sys/MODF-SIR, demo is available at https://huggingface.co/spaces/Harry-1234/MODF-SIR, LoRA is available at https://huggingface.co/Harry-1234/MODF-SIR and the dataset for training router is available at https://huggingface.co/datasets/Harry-1234/IntentRouterTrain.
- Abstract(参考訳): 本稿では,ソーシャルインテリジェンス推論に特化して設計された,軽量なマルチモーダル大規模言語モデル(MLLM)に基づくマルチエージェント協調フレームワークを提案する。
提案手法の重要な特徴は, 学習段階と推論段階の両方が知識蒸留によって増強される点である。
このアーキテクチャでは、ソーシャルインテリジェンスに関連するマルチモーダルデータが正確にローカライズされている。
さらに、関連するロングテールイベントを識別し、抽出し、フォーマット化し、明示的なテキストとしてレンダリングする。
このフォーマット戦略は、トークン化プロセス中に、ヘッドイベントや環境ノイズによって重要なロングテール情報が隠蔽されることを防止する。
具体的には、ロングテールイベントの抽出と表現、CoT(Chain-of-Thought)プロンプト、自己回帰を含む、推論パイプライン全体にわたってテスト時間適応(TTA)を統合します。
このTTA機構は蒸留強化され、ローランド適応(LoRA)を利用して、インスタンスレベルの推論のみに基礎モデルを微調整する。
複数のベンチマークにわたるさまざまなオープンソースおよびプロプライエタリなAIモデルに対する大規模な評価は、提案されたフレームワークの有効性を示している。
IntentTrainのトレーニングデータの約30%で、最先端の結果が得られます。
コードはhttps://github.com/eeee-sys/MODF-SIRで、デモはhttps://huggingface.co/spaces/Harry-1234/MODF-SIRで、LoRAはhttps://huggingface.co/Harry-1234/MODF-SIRで、トレーニングルータのデータセットはhttps://huggingface.co/datasets/Harry-1234/IntentRouterTrainで入手できる。
関連論文リスト
- LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer? [69.71754384259167]
マルチモーダル大言語モデル(MLLM)は、OCR、チャート理解、空間的推論、視覚的質問応答、コスト、レイテンシにまたがるヘテロジニアスな強度を持つ。
本稿では,MLLMルーティングを実効的マルチモーダルユーティリティ予測として定式化するルータであるLatentを提案する。
MMR-BenchとVL-Benchの実験では、Latentは固定モデル、特徴レベル、学習ルータベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-05-11T22:42:12Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Self-Supervised Multimodal Learning: A Survey [23.526389924804207]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文 参考訳(メタデータ) (2023-03-31T16:11:56Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。