論文の概要: Heuresis: Search Strategies for Autonomous AI Research Agents Across Quality, Diversity and Novelty
- arxiv url: http://arxiv.org/abs/2606.25198v1
- Date: Tue, 23 Jun 2026 21:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.158595
- Title: Heuresis: Search Strategies for Autonomous AI Research Agents Across Quality, Diversity and Novelty
- Title(参考訳): Heuresis: 品質、多様性、ノベルティにまたがる自律型AI研究エージェントの探索戦略
- Authors: Antonis Antoniades, Deepak Nathani, Ritam Saha, Alfonso Amayuelas, Ivan Bercovich, Zhaotian Weng, Vignesh Baskaran, Kunal Bhatia, William Yang Wang,
- Abstract要約: Heuresisは、研究パイプラインを汎用的で構成可能なプリミティブのセットに抽象化するフレームワークである。
全く新しいアイデアは稀である。得点したアイデアは「オリジナル(Original)」と評価され、前作と比べて「マイナーな類似性(Minor similarity)」しか達成できない。
- 参考スコア(独自算出の注目度): 39.97857268041792
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous AI Research promises to accelerate the scientific progress of machine learning. To realise this goal, current Large Language Model (LLM)-based agents need to go beyond just writing code, to mastering the exploration of simultaneously performant, diverse and novel ideas. To this end, we introduce Heuresis, a framework that abstracts the research pipeline into a set of general and composable primitives, enabling open-ended scientific exploration in machine learning research. We implement six search strategies: a greedy baseline, two archive-based (MAP-Elites, Go-Explore), one evolutionary (Islands), and two divergent (Curiosity, Omni), and evaluate them across three axes (Quality, Diversity, and Novelty) on three domains (LLM Pretraining, On-Policy RL, and Model Unlearning), totalling 3,222 scored runs. We find that completely novel ideas are rare. No idea across our scored runs is rated as "Original", and only a few achieve only "Minor Similarity" to prior work. Moreover, novel ideas never approach the highest-performing known-recipe scores. Across all six strategies and three domains, only one such idea lands in the top-10 by quality. We also observed agents resorting to a variety of reward-hacking techniques during execution (40 confirmed fabrications across 1,628 scored runs), and detecting them was necessary to keep the search faithful to the task. Our results show that while current search and Quality-Diversity strategies enable us to steer where the generated ideas land on the quality, diversity, and novelty axes, they do not expand the quality-novelty frontier. Bridging this gap is the open challenge towards the ultimate goal of perpetual, autonomous scientific progress. Code is available at github.com/a-antoniades/Heuresis.
- Abstract(参考訳): 自律型AI研究は、機械学習の科学的進歩を加速することを約束する。
この目標を実現するために、現在のLLM(Large Language Model)ベースのエージェントは、単にコードを書くだけでなく、同時にパフォーマンス、多様性、斬新なアイデアの探求をマスターする必要がある。
この目的のために,研究パイプラインを汎用的で構成可能なプリミティブの集合に抽象化するフレームワークであるHeuresisを導入し,機械学習研究におけるオープンな科学的探索を可能にする。
我々は,3つの領域(LLM Pretraining, On-Policy RL, Model Unlearning, LLM Pretraining, On-Policy RL, モデルアンラーニング)上の3つの軸(Quality, Diversity, ノベルティ)にまたがって,6つの探索戦略を実装した: 強欲ベースライン, 2つのアーカイブベース(MAP-Elites, Go-Explore)、1つの進化(Islands)、2つの分岐(Curiosity, Omni)、3つの分岐(Curiosity, Omni)。
全く新しいアイデアは稀である。
スコア付けされたアウトラインは"Original"と評価され、前回の作業で"Minor similarity"を達成できたのはごくわずかです。
さらに、新しいアイデアは、最高の実績のある既知のスコアに決して近づかない。
6つの戦略と3つのドメインにまたがって、そのようなアイデアがトップ10に入るのは1つだけです。
また,実行中に様々な報酬獲得手法(1,628ラン当たり40製造が確認された)を取り入れたエージェントも観察した。
以上の結果から,現在の検索・品質多様性戦略は,生成したアイデアが品質,多様性,新奇性軸にどこに着くかを判断する上で有効であるが,品質ノベルティフロンティアの拡大は行わないことが示唆された。
このギャップを埋めることは、永続的で自律的な科学的進歩という究極の目標へのオープンな挑戦である。
コードはgithub.com/a-antoniades/Heuresisで入手できる。
関連論文リスト
- AI Research Agents Narrow Scientific Exploration [12.949322198287417]
我々は、AIと機械学習の引用定義研究領域にまたがって、共有されたシード文献から37,802の科学的アイデアを生成する。
得られたAIのアイデアを、同じ研究分野の人間による論文、同じシード文学から生まれてくる人間研究、そしてシード文学自体と比較する。
全体として、現在のAI研究エージェントは、科学的探索を広げるよりも、局所的な実験に適しているように見える。
論文 参考訳(メタデータ) (2026-05-27T03:26:43Z) - GEAR: Genetic AutoResearch for Agentic Code Evolution [11.641689406945202]
GEAR(英: Genetic AutoResearch、遺伝子自動検索)は、単一パス検索を、複数の研究状況における集団ベースの検索に置き換える。
強力な候補ソリューションのセットを保持し、生産性、ノベルティ、カバレッジに基づいて両親を選択し、突然変異と交叉を通じて新しいアイデアを探求する。
本稿では,GEARの3つのバージョンについて検討する。1つはプロンプトによって制御され,もう1つはプログラム型検索コントローラを使用し,もう1つは実行中にコントローラ自体を進化させることができる。
論文 参考訳(メタデータ) (2026-05-08T00:25:09Z) - AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。
エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。
最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文 参考訳(メタデータ) (2026-04-28T06:05:17Z) - Enhancing Research Idea Generation through Combinatorial Innovation and Multi-Agent Iterative Search Strategies [9.063254770910948]
本研究では,複合双対的革新理論に触発されたマルチエージェント反復計画探索戦略を提案する。
このフレームワークは、反復的な知識探索とLLMベースのマルチエージェントシステムを組み合わせて、研究のアイデアを生成し、評価し、再定義する。
自然言語処理領域における実験により,提案手法は多様性と新規性の両方において最先端のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-22T13:31:12Z) - CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery [67.47220507982522]
大規模言語モデル(LLM)ベースの進化は、オープンな発見のための有望なアプローチである。
オープンエンド問題における自律的マルチエージェント進化のための最初のフレームワークであるCORALを紹介する。
コーラルは、厳格な制御を長期にわたるエージェントに置き換え、探索し、反射し、協力する。
論文 参考訳(メタデータ) (2026-04-02T05:59:06Z) - AI Co-Scientist for Ranking: Discovering Novel Search Ranking Models alongside LLM-based AI Agents with Cloud Computing Access [60.37646376282544]
本稿では,全検索ランキング研究パイプラインを自動化したAI共同科学者フレームワークを提案する。
これは、AIの共同科学者フレームワークをアルゴリズム研究に利用した、ランキングコミュニティで初めての研究である。
論文 参考訳(メタデータ) (2026-03-23T09:29:08Z) - Training AI Co-Scientists Using Rubric Rewards [36.857905469178796]
AIの共同研究者の重要な特徴は、目的と制約のセットから研究計画を生成する能力である。
本研究では,既存の研究論文の膨大なコーパスを活用して,より良い研究計画を生み出す言語モデルを訓練する方法について検討する。
複数のドメインにわたる論文から研究目標と目標固有のグルーブを自動抽出することで、スケーラブルで多様なトレーニングコーパスを構築します。
論文 参考訳(メタデータ) (2025-12-29T18:59:33Z) - Reinforcement Learning for Generative AI: State of the Art,
Opportunities and Open Research Challenges [2.9008806248012333]
強化学習(Reinforcement Learning, RL)は、さまざまな機械学習タスクのパラダイムとして非常に成功した。
目的を指定せずに生成する代替手段として,RLという3種類のアプリケーションについて論じる。
我々は,この魅力的な新興地域の機会と課題について,深く議論して,調査を締めくくった。
論文 参考訳(メタデータ) (2023-07-31T18:00:02Z) - Discovering and Achieving Goals via World Models [61.95437238374288]
この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
論文 参考訳(メタデータ) (2021-10-18T17:59:58Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。