論文の概要: NutriMLLM: Multimodal Large Language Models for Dietary Micronutrient Analysis
- arxiv url: http://arxiv.org/abs/2606.08948v1
- Date: Mon, 08 Jun 2026 02:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.659684
- Title: NutriMLLM: Multimodal Large Language Models for Dietary Micronutrient Analysis
- Title(参考訳): NutriMLLM:栄養分析のための多モード大言語モデル
- Authors: Runze Yan, Minxiao Wang, Jiaying Lu, Darren Liu, Xiao Hu, Hanqi Luo,
- Abstract要約: 既存のマルチモーダル大規模言語モデル (MLLM) は, 包括的マイクロ栄養素推定では信頼性が低いことを示す。
専門家のアノテーションを伴わずにこのギャップに対処するため、私たちは、テキスト・ツー・イメージ生成のための構造化プロンプトとして、24時間の食事リコールを10年間再利用した。
このパイプラインは、約1100万枚の画像記述栄養三重項からなる合成コーパスを生成し、それぞれが生成された食品イメージと65個の栄養ラベルをペアリングした。
- 参考スコア(独自算出の注目度): 4.334404218740802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but training such models requires large multimodal datasets linking diverse foods to complete nutrient profiles. We first show that existing multimodal large language models (MLLMs), including leading proprietary models, are unreliable for this task. Across five model families and four independent evaluation benchmarks (ASA24, SNAPMe, FNDDS, and NutriBench), models frequently abstained or returned statistically implausible values. To address this gap without costly expert annotation, we repurposed a decade of population-scale 24-hour dietary recalls as structured prompts for text-to-image generation. This pipeline produced a synthetic corpus of about 1.1 million image-description-nutrient triplets, each pairing a generated food image with a complete 65-nutrient label. To our knowledge, this is the largest synthetic food-image corpus with comprehensive micronutrient annotation planned for public release upon publication. Fine-tuning Qwen3-VL (2B/4B/8B/30B) and GLM-4.6V-Flash on this corpus yielded NutriMLLM, the first family of vision-language models specialized for comprehensive dietary micronutrient estimation. We evaluate these models with a four-component framework that separately measures abstention, hallucination, overall usability, and per-nutrient numerical accuracy. On real food images, every NutriMLLM variant achieved near-complete coverage across all 65 nutrients, and the largest variant matched or exceeded proprietary baselines (GPT-5, Gemini 3, and Claude Sonnet 4.5) in accuracy on most nutrients. These results show that recall-driven synthetic supervision can make image-based comprehensive micronutrient estimation a tractable engineering problem and support dietary assessment, personalized nutrition guidance, and population-scale micronutrient surveillance.
- Abstract(参考訳): 食品画像からの食物マイクロ栄養素の包括的推定は、臨床栄養管理を改善する可能性があるが、そのようなモデルの訓練には、多様な食品と栄養プロファイルを結びつける大規模なマルチモーダルデータセットが必要である。
まず、主要なプロプライエタリモデルを含む既存のマルチモーダル大言語モデル(MLLM)が、この課題に対して信頼できないことを示す。
5つのモデルファミリと4つの独立した評価ベンチマーク(ASA24、SNAPMe、FNDDS、NutriBench)で、しばしば統計的に予測不能な値が無視されるか、返される。
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのための構造化プロンプトとして,人口規模24時間リコールの10年間を再利用した。
このパイプラインは、約1100万枚の画像記述栄養三重項からなる合成コーパスを生成し、それぞれが生成された食品イメージと65個の栄養ラベルをペアリングした。
我々の知る限り、これは出版前に公開予定の包括的マイクロ栄養素アノテーションを備えた、最大の合成食品画像コーパスである。
微調整されたQwen3-VL(2B/4B/8B/30B)とGLM-4.6V-Flashは、包括的栄養素推定に特化した視覚言語モデルであるNutriMLLMを生産した。
我々はこれらのモデルを,禁忌,幻覚,全体使用性,栄養数毎の精度を別々に測定する4成分フレームワークを用いて評価した。
実際の食品画像では,すべてのNutriMLLM変異体が65種類の栄養素をほぼ完全にカバーし,最大の変異体はプロプライエタリなベースライン (GPT-5, Gemini 3, Claude Sonnet 4.5) とほぼ一致した。
以上の結果から,リコール駆動型総合的栄養管理は,画像に基づく包括的栄養評価をトラクタブルエンジニアリングの問題にし,食生活評価,個別栄養指導,人口規模マイクロ栄養監視を支援できることが示唆された。
関連論文リスト
- OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion [32.43875223470578]
既存の食品データセットのほとんどは、主に西洋料理に焦点を当てており、中国の料理を十分に網羅していない。
我々は8,036個の食品サンプルからなる総合マルチモーダルデータセットであるOmniFood8Kを紹介する。
本稿では,1枚のRGB画像から栄養予測を行うためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T06:45:32Z) - Comprehensive Evaluation of Large Multimodal Models for Nutrition Analysis: A New Benchmark Enriched with Contextual Metadata [16.03960240895014]
栄養分析のための食事画像にはLMM(Large Multimodal Models)が適用されてきている。
本研究は、文脈メタデータの解釈が、重要な栄養価を推定する際のLMM性能をいかに向上させるかを検討する。
実験結果から, 即時的プロンプト戦略によりメタデータをインテリジェントに統合すると, 栄養価の予測値において, 平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) が著しく減少することが示された。
論文 参考訳(メタデータ) (2025-07-09T17:10:33Z) - Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion [69.84988999191343]
我々はファストフード(FastFood)について紹介する。ファストフード(FastFood)は、908のファストフードカテゴリーに84,446のイメージを持つデータセットで、成分や栄養のアノテーションが特徴である。
栄養推定の精度を高めるために,新しいモデル非依存型ビジュアル・イングレディエント・フィーチャー・フュージョン (VIF$2$) 法を提案する。
論文 参考訳(メタデータ) (2025-05-13T17:01:21Z) - NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions [6.223619389512576]
NutriBenchは、初めて公開された自然言語による食事記述栄養ベンチマークである。
世界の食事摂取データから生成された11,857件の食事記述から成っている。
データは人間によって検証され、炭水化物、タンパク質、脂肪、カロリーを含むマクロ栄養ラベルで注釈付けされている。
論文 参考訳(メタデータ) (2024-07-04T15:10:51Z) - NutritionVerse-Direct: Exploring Deep Neural Networks for Multitask Nutrition Prediction from Food Images [63.314702537010355]
自己申告法はしばしば不正確であり、重大な偏見に悩まされる。
近年、食品画像から栄養情報を予測するためにコンピュータビジョン予測システムを用いた研究が進められている。
本稿では,様々なニューラルネットワークアーキテクチャを活用することにより,食事摂取量推定の有効性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-05-13T14:56:55Z) - NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene
Dataset for Dietary Intake Estimation [68.49526750115429]
食事摂取推定のための2D食品シーンデータセットであるNutritionVerse-Realを導入する。
NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手作業で収集し、各成分の重量を測定し、各料理の食生活内容を計算することによって作成されました。
論文 参考訳(メタデータ) (2023-11-20T11:05:20Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - UMDFood: Vision-language models boost food composition compilation [26.5694236976957]
本稿では, 食品組成プロファイルを正確に推定するために, フロント・オブ・パッケージ・ラベリングと製品画像を用いた新しい視覚言語モデル, UMDFood-VLを提案する。
化学分析結果とモデル推定結果の誤差の最大82.2%は10%未満である。
この性能は、他の食品および栄養関連データコンパイルと触媒化への一般化に光を当てている。
論文 参考訳(メタデータ) (2023-05-18T03:18:12Z) - NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake
Estimation [65.47310907481042]
高齢者の4人に1人は栄養不良です。
機械学習とコンピュータビジョンは、食品の自動栄養トラッキング方法の約束を示す。
NutritionVerse-3Dは、105個の3D食品モデルの大規模な高解像度データセットである。
論文 参考訳(メタデータ) (2023-04-12T05:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。