論文の概要: LapidaryEngine: Fully Conversational Crystal Generation
- arxiv url: http://arxiv.org/abs/2606.14215v1
- Date: Fri, 12 Jun 2026 07:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.808188
- Title: LapidaryEngine: Fully Conversational Crystal Generation
- Title(参考訳): LapidaryEngine: 完全な会話型結晶生成
- Authors: Yusei Ito, Yuta Suzuki, Tomoya Murata, Masaki Adachi,
- Abstract要約: LapidaryEngineは完全に対話型結晶生成をサポートする最初のモデルである。
自由形式の自然言語要求を受け入れ、対話的な方法で反復的な洗練と編集を行う。
鍵となる革新はピボット表現であり、テキストと結晶構造の間の双方向翻訳を可能にする第3の中間形式である。
- 参考スコア(独自算出の注目度): 9.90130000354593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) has inspired the vision of generating bespoke crystal materials directly from natural-language instructions, enabling users to design materials through intuitive, conversational interaction. Existing text-to-crystal generative models represent important early steps toward this goal, but they suffer from two critical limitations: (i) restricted input formats that require highly structured descriptions (e.g., chemical formulas), and (ii) one-directional generation, where models can map text to crystal but cannot perform the inverse. These limitations prevent fully conversational workflows and hinder alignment with users' inherently ambiguous and evolving desiderata. We address these challenges with LapidaryEngine, the first model to support fully conversational crystal generation. LapidaryEngine accepts free-form natural-language requests and performs iterative refinement and editing in a dialogue-like manner. The key innovation is a pivot representation, a third, intermediate form that enables bidirectional translation between text and crystal structures despite the absence of direct paired datasets. Leveraging this pivot allows robust interpretation of user feedback and precise structural control. We demonstrate LapidaryEngine across diverse tasks, including insulator discovery, stability optimization, compositional modification, and structural editing, showcasing its ability to align generated materials with user intent in an interactive manner.
- Abstract(参考訳): LLM(Large Language Models)の出現は、自然言語による指示から直接ベスパイク結晶材料を生成するというビジョンに刺激を与え、ユーザーは直感的で対話的な相互作用を通じて材料を設計することができるようになった。
既存のテキスト・結晶生成モデルは、この目標に向けた重要な初期段階を示しているが、それらは2つの重要な限界に悩まされている。
一 高度に構造化された記述を必要とする入力形式(例えば化学式)及び
(ii) モデルがテキストを結晶にマッピングするが、逆は実行できない一方向生成。
これらの制限は、完全な会話ワークフローを防ぎ、ユーザの本質的にあいまいで進化するdesiderataとの整合を妨げる。
完全会話結晶生成をサポートする最初のモデルであるLapidaryEngineで、これらの課題に対処する。
LapidaryEngineは、自由形式の自然言語要求を受け入れ、対話的な方法で反復的な洗練と編集を行う。
重要な革新はピボット表現であり、直接ペア化されたデータセットが存在しないにもかかわらず、テキストと結晶構造の間の双方向の変換を可能にする第3の中間形式である。
このピボットを活用することで、ユーザのフィードバックと正確な構造制御の堅牢な解釈が可能になる。
本稿では, インシュレータの発見, 安定性の最適化, 構成の修正, 構造的編集など, 多様なタスクにまたがるLapidaryEngineについて紹介する。
関連論文リスト
- Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - TextOCVP: Object-Centric Video Prediction with Language Guidance [16.513260843365902]
TextOCVPは、テキスト記述によってガイドされるビデオ予測のためのオブジェクト中心モデルである。
構造化されたオブジェクト中心表現は、新しいシーン構成に対して優れたロバスト性を提供することを示す。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - Generative Hierarchical Materials Search [91.93125016916463]
結晶構造の制御可能な生成のための生成階層材料探索(GenMS)を提案する。
GenMSは(1)高レベル自然言語を入力とし、結晶に関する中間テキスト情報を生成する言語モデルからなる。
GenMSはまた、生成された結晶構造から特性(たとえば生成エネルギー)を予測するためにグラフニューラルネットワークを使用する。
論文 参考訳(メタデータ) (2024-09-10T17:51:28Z) - Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following [59.997857926808116]
画像にテキストのデコードとして意味パネルを導入する。
パネルは、入力テキストから解析された視覚概念をアレンジすることで得られる。
我々は,実用的なシステムを開発し,連続生成とチャットベースの編集の可能性を示す。
論文 参考訳(メタデータ) (2023-11-28T17:57:44Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
本稿では,ニューラルネットワークモデリングとルールベース生成の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。