論文の概要: REFLEX: Reflective Evolution from LLM Experience
- arxiv url: http://arxiv.org/abs/2606.16496v1
- Date: Mon, 15 Jun 2026 09:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.361036
- Title: REFLEX: Reflective Evolution from LLM Experience
- Title(参考訳): REFLEX: LLMの経験からの反射的進化
- Authors: Pan Wang,
- Abstract要約: 視覚的診断は、監査可能かつ効率的なポリシー探索を実現するために、コード生成から構造的に切り離さなければならない。
REFLEXでは、視覚対応のCriticが、まずタスク固有の行動証拠を構造化され監査可能な診断に蒸留する。
テキスト最適化アクターは、再利用可能なコードスニペットの永続的で自己進化的なスキルメモリとともに、これらの診断を使用して子ポリシーを合成する。
このアーキテクチャは、透過的な突然変異トレースを提供するだけでなく、プログラム間の知識伝達も可能にする。
- 参考スコア(独自算出の注目度): 1.1746215656478116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal language models (LLMs) have emerged as powerful tools for guiding evolutionary search toward interpretable programmatic policies. However, existing frameworks rely on a monolithic model call to simultaneously interpret visual behavioral evidence and synthesize corrective code. This diagnosis-repair entanglement creates an opaque feedback loop, obscuring the rationale behind mutations and preventing the retention of algorithmic insights across independent runs. To achieve auditable and efficient policy search, we argue that visual diagnosis must be structurally decoupled from code generation. We present REFLEX, a train-free evolutionary framework that operationalizes this decoupling. In REFLEX, a vision-enabled Critic first distills task-specific behavioral evidence into structured, auditable diagnoses. Subsequently, a text-optimized Actor synthesizes child policies using these diagnoses alongside a persistent, self-evolving Skill Memory of reusable code snippets. This architecture not only provides transparent mutation traces but also enables cross-run programmatic knowledge transfer. Extensive evaluations across control benchmarks (Lunar Lander, Acrobot, Pendulum) and a 36-dimensional antenna array synthesis task demonstrate exceptional sample efficiency. Notably, REFLEX solves Acrobot and Pendulum in under 10 LLM calls and reaches a best Normalized Weighted Score of 1.092 on Lunar Lander, achieving highly competitive final performance while significantly accelerating the early-stage discovery of transparent policies.
- Abstract(参考訳): 大規模マルチモーダル言語モデル (LLM) は、解釈可能なプログラムポリシーへの進化的探索を導く強力なツールとして登場した。
しかし、既存のフレームワークは、視覚行動証拠を同時に解釈し、修正コードを合成するためにモノリシックなモデルコールに依存している。
この診断と修復の絡み合いは不透明なフィードバックループを生成し、突然変異の背後にある理論的根拠を隠蔽し、独立した実行中にアルゴリズム的な洞察が保持されるのを防ぐ。
聴覚的かつ効率的なポリシー探索を実現するためには、視覚的診断をコード生成から構造的に切り離さなければならないと論じる。
本稿では、この分離を運用する列車フリー進化フレームワークREFLEXを紹介する。
REFLEXでは、視覚対応のCriticが、まずタスク固有の行動証拠を構造化され監査可能な診断に蒸留する。
その後、テキスト最適化アクターは、再利用可能なコードスニペットの永続的で自己進化的なスキルメモリとともに、これらの診断を使用して子ポリシーを合成する。
このアーキテクチャは、透過的な突然変異トレースを提供するだけでなく、プログラム間の知識伝達も可能にする。
制御ベンチマーク(Lunar Lander, Acrobot, Pendulum)と36次元アンテナアレイ合成タスクによる広範囲な評価は、例外的なサンプル効率を示している。
特に、REFLEXはアクロボットとペンデュラムを10LLMの呼び出しで解き、Lunar Landerで1.092の最高の正規化された重み付けスコアに達した。
関連論文リスト
- Deliberate Evolution: Agentic Reasoning for Sample-Efficient Symbolic Regression with LLMs [52.89778838903305]
Deliberate Evolution (DE) は、検索制御からシンボル生成を分離するエージェントフレームワークである。
LLM-SRBenchの実験では、DEMは様々な科学領域でLLMベースのSRベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-06-03T02:22:16Z) - Geometry-Aware Uncertainty Coresets for Robust Visual In-Context Learning in Histopathology [8.2867621159451]
GAUCは,事前学習されたマルチモーダル埋め込み空間で直接動作する,トレーニング不要なコアセット選択法である。
CRC-100K と MHIST が複数のオープンソース VLM アーキテクチャにまたがっている場合、GAUC は精度、キャリブレーション、高速な勾配ロバスト性を改善している。
論文 参考訳(メタデータ) (2026-05-18T13:54:04Z) - Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing [52.825281124618535]
反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
論文 参考訳(メタデータ) (2026-03-16T09:17:05Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - Diagnostics of cognitive failures in multi-agent expert systems using dynamic evaluation protocols and subsequent mutation of the processing context [0.0]
この研究は、専門家システムのための診断フレームワークを導入し、評価だけでなく、専門家行動のLSMエージェントへの転送を容易にする。
我々は,多エージェント採用支援システム上での枠組みを実証し,潜在的認知障害を明らかにした。
論文 参考訳(メタデータ) (2025-09-18T19:08:03Z) - Hierarchical Verification of Speculative Beams for Accelerating LLM Inference [0.0]
階層的検証木(Hierarchical Verification Tree、HVT)は投機的ビーム復号化を高度に優先順位付けすることで再構成する新しいフレームワークである。
HVTは既存の投機的復号法を一貫して上回り、推論時間とエネルギー消費を大幅に削減する。
発見は、大規模言語モデル推論を加速するための新しい方向として階層的検証戦略の可能性を強調している。
論文 参考訳(メタデータ) (2025-07-30T02:58:03Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。