論文の概要: AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model
- arxiv url: http://arxiv.org/abs/2606.19100v1
- Date: Wed, 17 Jun 2026 14:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.194309
- Title: AMALIA-VL: A Native European Portuguese Open-Source Vision and Language Model
- Title(参考訳): AMALIA-VL: ポルトガルのネイティブなオープンソースビジョンと言語モデル
- Authors: Diogo Glória-Silva, João Cardeira, Manuel Letras da Luz, Afonso Simplício, Gonçalo Vinagre, Diogo Tavares, Rafael Ferreira, Inês Calvo, Inês Vieira, David Semedo, João Magalhães,
- Abstract要約: AMALIA-VLはpt-PT用に開発された最初のオープンソースの命令調整型LVLMである。
我々は、pt-PT LVLM開発を民主化するため、モデルウェイト、トレーニングデータ、建設パイプラインと、機械翻訳されたpt-PT評価ベンチマークをリリースする。
- 参考スコア(独自算出の注目度): 6.462620395914082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision and Language Models (LVLMs) have advanced rapidly, yet European Portuguese (pt-PT) remains systematically underserved by existing open-source multimodal models, which either conflate it with Brazilian Portuguese or severely under-represent it in their training data mixes. We introduce AMALIA-VL, the first open-source instruction-tuned LVLM built natively for pt-PT, pairing a high-resolution vision encoder with dynamic image tiling and a fully open pt-PT-optimized language model via a learned connector. We contribute with a purposefully designed three-stage training process - vision-language alignment, general visual instruction tuning, and preference optimization - together with a pt-PT-centric multimodal data mix combining curated and translated public datasets with novel datasets that address the near-total absence of European Portuguese multimodal resources. Our evaluation shows that AMALIA-VL establishes a strong baseline for open-source pt-PT LVLMs.We will release model weights, training data, and construction pipelines along with machine-translated pt-PT evaluation benchmarks to help democratize pt-PT LVLM development.
- Abstract(参考訳): LVLM(Large Vision and Language Models)は急速に進歩しているが、ヨーロッパのポルトガル語(pt-PT)は既存のオープンソースのマルチモーダルモデルによって体系的に守られている。
AMALIA-VLは、pt-PT用にネイティブに構築された最初のオープンソース命令チューニングLVLMであり、動的画像タイリングと完全にオープンなpt-PT最適化言語モデルを組み合わせた高解像度ビジョンエンコーダである。
我々は、目的的に設計された3段階のトレーニングプロセス – 視覚言語アライメント、一般的な視覚指導チューニング、嗜好最適化 – と、カリキュラムと翻訳された公開データセットを組み合わせたpt-PT中心のマルチモーダルデータと、ヨーロッパのポルトガルのマルチモーダルリソースのほぼ不在に対処する新しいデータセットを組み合わせることで、コントリビュートする。
評価の結果,AMALIA-VL はオープンソース pt-PT LVLM の強力なベースラインを確立しており,モデルウェイト,トレーニングデータ,建設パイプラインおよび機械翻訳 pt-PT 評価ベンチマークを公開し,pt-PT LVLM 開発を民主化する。
関連論文リスト
- Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework [38.98519875112922]
視覚言語モデル(VLM)は英語中心のデータに基づいて訓練され、他の言語や文化的な文脈での性能を制限する。
我々は、LLaVA-Next方法論を再現し、適応し、ポーランドのVLMのセットを作成します。
我々は,LLaVA-1.6-una-13Bをポーランド適応MMBenchで+9.5%改善し,高い品質の字幕を生成評価に用いた。
論文 参考訳(メタデータ) (2026-02-15T09:54:40Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。