Fugu-MT 論文翻訳(概要): Vision-Assisted Foundation Model for Solving Multi-Task Vehicle Routing Problems

論文の概要: Vision-Assisted Foundation Model for Solving Multi-Task Vehicle Routing Problems

arxiv url: http://arxiv.org/abs/2606.10431v1
Date: Tue, 09 Jun 2026 05:15:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.332108
Title: Vision-Assisted Foundation Model for Solving Multi-Task Vehicle Routing Problems
Title（参考訳）: マルチタスク車両ルーティング問題の解決のための視覚支援基礎モデル
Authors: Shuangchun Gui, Zhiguang Cao, Wen Song, Yew-Soon Ong,
Abstract要約: マルチタスク車両ルーティング問題は、様々な産業やサービス分野における効率向上に重要な役割を果たしている。既存のソルバはグラフベースのモダリティのみを使用し、複数の制約で変形に対処する能力を制限する。これらの課題に対処するために,視覚支援基礎モデル(VaFM)を提案する。
参考スコア（独自算出の注目度）: 68.42726166302654
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-task vehicle routing problems play a critical role in enhancing efficiency across various industries and service sectors. These problems consist of multiple variants that optimize routing costs while meeting diverse customer constraints. Existing multi-task VRP solvers solely utilize a graph-based modality, limiting their ability to address variants with multiple constraints. As a format to represent complex semantics, vision modality shows great potential for encoding diverse VRP constraints. This motivates us to learn patch-level semantics from the vision images, and then integrate them into a graph-based model to solve various VRP variants simultaneously. However, directly applying this approach to multi-task VRPs presents three challenges: 1) existing VRP images lack constraint representations, which are essential for multi-task VRPs, 2) the fixed receptive field of individual patches cannot effectively accommodate varying requirements across tasks, and 3) imbalanced pixel distribution among constraints may cause the model to overlook constraints with fewer pixels. In this paper, we propose a vision-assisted foundation model (VaFM) to address these challenges. In the vision modality, input images tailored to all constraints are encoded by a convolutional neural network. The obtained patch embeddings are fused with graph-based nodes to generate solutions, with an auxiliary task designed to address the pixel-imbalanced issue. The performance of VaFM is evaluated across 16 different VRP variants. The experimental results demonstrate the superiority of VaFM over state-of-the-art methods, especially for variants with complex constraints.
Abstract（参考訳）: マルチタスク車両ルーティング問題は、様々な産業やサービス分野における効率向上に重要な役割を果たしている。これらの問題は、さまざまな顧客の制約を満たしながら、ルーティングコストを最適化する複数のバリエーションで構成されています。既存のマルチタスクVRPソルバは、グラフベースのモダリティのみを使用し、複数の制約で変形に対処する能力を制限する。複雑なセマンティクスを表現するフォーマットとして、視覚的モダリティは多様なVRP制約を符号化する大きな可能性を示している。これにより、視覚画像からパッチレベルのセマンティクスを学習し、それをグラフベースモデルに統合して、さまざまなVRP変異を同時に解決することが可能になる。しかし、このアプローチをマルチタスクVRPに直接適用することは、3つの課題を提示します。 1)既存のVRP画像には制約表現がないため,マルチタスクVRPには不可欠である。 2)個別のパッチの固定受容領域は、タスク間での要求の変化を効果的に適応することができず、 3)制約間の不均衡なピクセル分布は,制約を少ないピクセルで見落としてしまう可能性がある。本稿では,これらの課題に対処するために,視覚支援基礎モデル(VaFM)を提案する。視覚モダリティでは、全ての制約に合わせた入力画像が畳み込みニューラルネットワークによって符号化される。得られたパッチ埋め込みは、グラフベースのノードで融合してソリューションを生成し、ピクセル不均衡問題に対処する補助的なタスクを設計する。 VaFMの性能は16種類のVRPで評価されている。実験結果は,特に複雑な制約を持つ変種に対して,最先端手法よりもVaFMの方が優れていることを示す。

関連論文リスト

FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing [0.0]
24種類のMDVRP変異体に対する新しい統合型ニューラルベースモデルを提案する。 FiLMMeDは、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2026-04-30T16:48:13Z)
MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models [34.365616310655575]
multi-Resolution Fusion (MuRF) は、このシナジーを推論時に活用するための単純かつ普遍的な戦略である。 MuRFは、凍結されたVFMを通して複数の解像度で画像を処理して統一表現を構築する。我々は、 MuRF を複数の異なる VFM ファミリーにまたがる重要なコンピュータビジョンタスクの幅広い範囲に適用することによって、これを実証的に検証する。
論文参考訳（メタデータ） (2026-03-26T17:59:58Z)
Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions [51.22818149833102]
マルチエージェント強化学習(MARL)は、車間通信(C-V2X)ネットワークにおける無線リソース割り当ての有望なアプローチとして登場した。しかし、MARLに固有の多面的課題はしばしば絡み合っており、車載環境における個々の影響を理解することは困難である。我々は, C-V2X RRA を, 複雑さが徐々に増大する多エージェント干渉ゲーム列として定式化し, このギャップを埋める。
論文参考訳（メタデータ） (2026-02-18T14:46:56Z)
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2025-10-14T17:58:10Z)
Hypercomplex Prompt-aware Multimodal Recommendation [6.862998546677475]
提案するHPMRecは,ハイパーコンプレックスなマルチモーダルレコメンデーションフレームワークである。我々は,HPMRecが4つの公開データセットの実験において,最先端のレコメンデーション性能を達成することを示す。
論文参考訳（メタデータ） (2025-08-14T15:36:00Z)
SHIELD: Multi-task Multi-distribution Vehicle Routing Solver with Sparsity and Hierarchy [26.708590440636527]
疎性と階層性の両方の原則を活用する新しいモデルであるShielDを紹介する。より優れた局所表現を生成するために,問題における階層構造の存在を活かしたコンテキストベースのクラスタリング層を開発する。提案手法は, 実世界の9つの地図において, 16種類のVRPのバリエーションを持つ既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-10T03:55:14Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Recurrent Multi-view Alignment Network for Unsupervised Surface Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文参考訳（メタデータ） (2020-11-24T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。