Fugu-MT 論文翻訳(概要): MinhwaNet: Faithful but Insufficient Object Grounding in Korean Folk Painting

論文の概要: MinhwaNet: Faithful but Insufficient Object Grounding in Korean Folk Painting

arxiv url: http://arxiv.org/abs/2606.09855v2
Date: Thu, 11 Jun 2026 10:24:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 07:09:36.811131
Title: MinhwaNet: Faithful but Insufficient Object Grounding in Korean Folk Painting
Title（参考訳）: MinhwaNet:韓国の民族絵画における信心深いが不十分な物体の接地
Authors: Joonhyung Bae,
Abstract要約: 朝鮮の民画(ミンフワ)は、象徴の小さな語彙、保護のための虎、夫婦の調和のための鳥のペア、富のためのペニーから作られており、多くのジャンルにまたがっている。これは、絵画に現れるシンボルを特定し、在庫からジャンルを読み取るという、明らかな計算アプローチを示唆している。このアプローチは機能しない。絵画を含むシンボルのリストのみを付与したモデルが、画像とキュラリアルテキストを融合させるモデルよりもはるかに悪いジャンルを予測している。
参考スコア（独自算出の注目度）: 0.5076419064097734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Korean folk painting (minhwa) is built from a small vocabulary of auspicious symbols, a tiger for protection, a pair of birds for marital harmony, a peony for wealth, that recur across many of its painted genres. This suggests an obvious computational approach, identify which symbols appear in a painting and read the genre from the inventory. Working with a public corpus that pairs whole paintings, eight-field bilingual curatorial captions, and a separate set of expert object crops, we find that this approach does not work. A model given only a list of which symbols a painting contains predicts the genre far worse than a model that fuses the image with the curatorial text, and forcing the genre representation to be object-grounded actively hurts accuracy. The visual evidence on which the genre prediction rests is nonetheless localized and inspectable. A leakage-safe object evidence map projected from a part-level detector is spatially faithful to where curators isolated symbolic objects and to a patch-based surrogate's own gradient saliency. We name this configuration a faithful-but-insufficient dissociation. The part-level explanation is honest about what the part-level model sees, yet the genre target turns on how symbols are arranged rather than on which ones appear. The same lens separates a content label that survives transfer to held-out source institutions, genre, from a style label that does not, era, a prediction we confirm on two further labels in the corpus. We release the multimodal system, a worked-example reading of one painting's evidence map against its catalogue, and a set of evaluation cautions that recur in long-tailed heritage collections.
Abstract（参考訳）: 朝鮮の民画(ミンフワ)は、象徴の小さな語彙、保護のための虎、夫婦の調和のための鳥のペア、富のためのペニーから作られており、多くのジャンルにまたがっている。これは、絵画に現れるシンボルを特定し、在庫からジャンルを読み取るという、明らかな計算アプローチを示唆している。絵画全体と8フィールドのバイリンガル・キュラトリー・キャプションと、別の専門的対象作物のセットを組み合わせた公開コーパスで作業した結果、このアプローチはうまくいかなかったことが判明した。絵画を含む図柄のリストのみを付与したモデルは、画像とキュラリアルテキストを融合させるモデルよりもはるかに悪いジャンルを予測し、ジャンル表現をオブジェクト指向に強制することは、精度を積極的に損なう。ジャンル予測が残されている視覚的証拠は、それでも局所化され、検査可能である。部分レベルの検出器から投影されるリークセーフなオブジェクトエビデンスマップは、キュレーターがシンボルオブジェクトを分離した場所や、パッチベースのサロゲート自身の勾配塩分に空間的に忠実である。我々はこの構成を忠実だが不十分な解離と呼ぶ。パートレベルの説明は、パートレベルのモデルが何を見るかについて正直であるが、ジャンルのターゲットは、どのシンボルが現れるかではなく、どのように配置されるかに変わる。同じレンズは、保持されたソース機関、ジャンルへの転送を生き残るコンテンツラベルと、コーパス内の2つの別のラベルで確認されないスタイルラベルとを分離する。本報告では, マルチモーダルシステム, 一つの絵画のエビデンスマップのカタログに対する動作例, 長い歴史遺産コレクションに再帰する評価評価のセットを公表する。

関連論文リスト

More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage [3.968258676030377]
視覚的抽象下では,高い視覚的忠実度が慣用的な構成性に干渉するか否かを検討する。このベンチマークでは,リテラルと慣用的な読み出しのためのペア化,センスアンコールによる可視化を生成することで,高忠実度な視覚的ディテールを図形的象徴性に置き換える。この結果から,構成理解の向上には視覚入力の図形的抽象化と,意図した意味によるアンカリング解釈と生成が必要であることが示唆された。
論文参考訳（メタデータ） (2026-04-19T10:00:41Z)
Semi-supervised Chinese Poem-to-Painting Generation via Cycle-consistent Adversarial Networks [2.250406890348191]
本稿では,周期整合型対数ネットワークを用いた半教師付き手法を提案する。生成した詩や絵画の品質,多様性,一貫性を評価するために,新しい評価指標を導入する。提案手法は従来の手法よりも優れており,芸術表現の象徴的本質をとらえる可能性を示唆している。
論文参考訳（メタデータ） (2024-10-25T04:57:44Z)
Context Disentangling and Prototype Inheriting for Robust Visual Grounding [56.63007386345772]
ビジュアルグラウンドディング(VG)は、与えられた言語クエリに基づいて、画像内の特定のターゲットを特定することを目的としている。本稿では,両シーンを両シーンで処理する堅牢な視覚的グラウンド化のために,コンテキストの切り離しとプロトタイプを継承する新しいフレームワークを提案する。本手法は両シナリオにおいて最先端の手法よりも優れる。
論文参考訳（メタデータ） (2023-12-19T09:03:53Z)
The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文参考訳（メタデータ） (2023-06-01T17:57:08Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文参考訳（メタデータ） (2021-09-06T03:38:52Z)
Paint by Word [32.05329583044764]
ゼロショット・セマンティック・イメージ・ペインティングの問題点について検討する。具体的な色やセマンティックな概念の有限セットのみを用いて画像に修正を描き込む代わりに、オープンなフルテキスト記述に基づいてセマンティックペイントを作成する方法について尋ねる。本手法は,現実的な画像の最先端生成モデルと,最先端のテキスト画像意味的類似性ネットワークを組み合わせる。
論文参考訳（メタデータ） (2021-03-19T17:59:08Z)
Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents [17.672677325827454]
画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。本稿では,オブジェクト検出や画像タグ付けのベースラインを越えた精度の向上とリコールを実現する,単純なクラスタリングに基づくクラスタリング手法を提案する。提案手法は, 単語の局所的文脈意味に対して特に有効である。例えば, 不動産データセットのカウンタートップと, ウィキペディアデータセットの岩の多いランドスケープとを関連付ける。
論文参考訳（メタデータ） (2020-10-30T16:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。