論文の概要: Visual Retrieval-Augmented Generation for Silhouette-Guided Animal Art
- arxiv url: http://arxiv.org/abs/2606.17431v1
- Date: Tue, 16 Jun 2026 02:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.220162
- Title: Visual Retrieval-Augmented Generation for Silhouette-Guided Animal Art
- Title(参考訳): シルエット誘導型動物芸術の視覚的検索型生成
- Authors: Quoc-Duy Tran, Anh-Tuan Vo, Trung-Nghia Le,
- Abstract要約: 本稿では,自然のシルエットから動物芸術を直接生成するVisual Retrieval-Augmented Generation (Visual-RAG)を紹介する。
本手法は,28,586個の高品質シルエットの硬化体から構造的に類似した動物形状を回収する。
結果は、Visual-RAGがもっともらしい解釈を提供する一方で、高い知覚的影響を達成する上での課題が残っていることを示している。
- 参考スコア(独自算出の注目度): 4.154815727446656
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI has advanced the ability to render photorealistic or artistic images, yet it remains limited in a key aspect of human creativity: interpreting ambiguous shapes. This phenomenon, rooted in pareidolia, allows humans to perceive meaningful forms in random patterns such as clouds, stones, or leaves. To computationally replicate this imaginative process, we introduce Visual Retrieval-Augmented Generation (Visual-RAG), a framework that generates animal art directly from natural silhouettes. Our method retrieves structurally similar animal shapes from a curated corpus of 28,586 high-quality silhouettes and uses them as reference exemplars to guide diffusion-based generation with ControlNet and IP-Adapter. Ablation studies confirm that shape Context with RANSAC provides the most accurate alignment, while removing shape standardization reduces the inlier ratio to just 13.4\%, underscoring the importance of structural fidelity in Visual-RAG. A user study with 12 participants evaluated the outputs in terms of aesthetics, silhouette fidelity, and overall impression. Results reveal that while Visual-RAG provides plausible interpretations, challenges remain in achieving high perceptual impact. This work lays the foundation for computational pareidolia, showing how machines can contribute to the early stages of imaginative discovery.
- Abstract(参考訳): 生成AIは、フォトリアリスティックまたは芸術的な画像を描画する能力を進歩させたが、人間の創造性の重要な側面であるあいまいな形を解釈することはまだ限られている。
この現象はパレドリアに根付いており、雲や石、葉といったランダムなパターンで意味のある形を知覚することができる。
この想像的過程を計算的に再現するために,自然のシルエットから動物芸術を直接生成するVisual Retrieval-Augmented Generation (Visual-RAG)を導入する。
提案手法は,28,586個の高品質シルエットの硬化体から構造的に類似した動物形状を検索し,参照例として,ControlNetとIP-Adapterを用いて拡散型世代を誘導する。
アブレーション研究では、形状コンテキストとRANSACが最も正確なアライメントを提供するのに対して、形状標準化の除去は、不整合比をわずか13.4\%に減らし、ビジュアルRAGにおける構造的忠実性の重要性を強調している。
被験者12名によるユーザスタディでは,美学,シルエットの忠実度,全体的な印象の点からアウトプットを評価した。
結果は、Visual-RAGがもっともらしい解釈を提供する一方で、高い知覚的影響を達成する上での課題が残っていることを示している。
この研究は、機械が想像上の発見の初期段階にどのように貢献できるかを示す計算パリドリアの基礎を築いた。
関連論文リスト
- From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images [1.77513002450736]
網膜-V1大脳皮質のいくつかの既知の事実に対応するバイオインスパイアされたアーキテクチャであるPerceptNetは、画像再構成に関連するさまざまなタスクにエンドツーエンドで最適化されている。
以上の結果から,エンコーダの段階は画像歪みに対する人間の知覚的判断と一貫した相関を示すことがわかった。
論文 参考訳(メタデータ) (2025-08-14T08:37:30Z) - RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [54.07026389388881]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文 参考訳(メタデータ) (2025-02-02T16:41:54Z) - Generative AI in Agriculture: Creating Image Datasets Using DALL.E's Advanced Large Language Model Capabilities [0.4143603294943439]
テキスト・ツー・イメージと画像・ツー・イメージ(変分)の両手法を用いた研究
画像から画像への生成は、平均PSNRがテキストから画像への変換よりも5.78%増加した。
また,画像から画像までの手法を用いて生成した画像は,テキストから画像へのアプローチで生成した画像よりも現実的であった。
論文 参考訳(メタデータ) (2023-07-17T19:17:10Z) - MagicPony: Learning Articulated 3D Animals in the Wild [81.63322697335228]
そこで本研究では,オブジェクトカテゴリのワンビュー画像から,この予測器を純粋に学習するMagicPonyを提案する。
その中核は、明瞭な形状と外観を暗黙的に表現し、神経磁場とメッシュの強さを組み合わせたものである。
論文 参考訳(メタデータ) (2022-11-22T18:59:31Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Predictive coding feedback results in perceived illusory contours in a
recurrent neural network [0.0]
脳にインスパイアされたリカレントダイナミクスを備えたディープフィードフォワード畳み込みネットワークを備える。
照明輪郭の知覚にはフィードバック接続が関与する可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-03T09:07:09Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。