論文の概要: Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation
- arxiv url: http://arxiv.org/abs/2606.14945v1
- Date: Fri, 12 Jun 2026 20:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.470115
- Title: Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation
- Title(参考訳): トケイン効率な自律実験のためのステートフル・リアクト・エージェント(動画あり)
- Authors: Faramarz Jabbarvaziri,
- Abstract要約: 本稿では,LangGraphを用いたステートフルなReActエージェントとして,自動検索パターンを再構成する。
ステートレスエージェントは全履歴を1イテレーションあたり$O(n)$コストで再読み取りし、ステートフルエージェントは固定サイズの会話ウィンドウ内で$O(1)$コストで動作します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The autoresearch pattern enables autonomous experimentation by having a large language model (LLM) iteratively modify code to optimize a target metric. Its stateless design, however, reconstructs experimental context from scratch at every iteration, incurring $O(n)$ token cost per iteration and $O(n^{2})$ total. This work reformulates the pattern as a stateful ReAct agent using LangGraph, where typed persistent state carries experimental history across iterations via a tool-calling interface. Two benchmarks are evaluated: hyperparameter tuning (15 iterations, small per-iteration observations) and code performance optimization (40 iterations, large per-iteration observations containing full source code and benchmark results). On hyperparameter tuning, the stateful agent consumes 90\% fewer tokens (2{,}492 vs.\ 24{,}465). On code optimization, the stateful agent consumes 52\% fewer tokens (627K vs.\ 1{,}275K) while achieving comparable optimization quality on both tasks. The token reduction is structural: the stateless agent re-reads the full history at $O(n)$ cost per iteration, while the stateful agent operates within a fixed-size conversation window at $O(1)$ cost. This paper describes the architecture in sufficient detail for practitioners to implement a stateful autoresearch agent for their own workflows.
- Abstract(参考訳): 自動検索パターンは、大規模言語モデル(LLM)を反復的にコード修正して、ターゲットメトリックを最適化することで、自律的な実験を可能にする。
しかし、そのステートレス設計は、反復ごとに実験コンテキストをゼロから再構築し、反復ごとに$O(n)$トークンコストと$O(n^{2})$トータルを発生させる。
この作業では、LangGraphを使用して、パターンをステートフルなReActエージェントとして再構築する。
2つのベンチマークが評価されている。ハイパーパラメータチューニング(15のイテレーション、小さなイテレーション毎の観察)とコードパフォーマンス最適化(40のイテレーション、完全なソースコードとベンチマーク結果を含む大規模なイテレーション毎の観察)である。
ハイパーパラメータチューニングでは、ステートフルエージェントは90\%少ないトークン(2{,}492 vs.)を消費する。
24{,}465)。
コード最適化では、ステートフルエージェントは52\%のトークンを消費する(627K対627K)。
1{,}275K)に匹敵する最適化品質を両タスクで達成する。
ステートレスエージェントは全履歴を1イテレーションあたり$O(n)$コストで再読み取りし、ステートフルエージェントは固定サイズの会話ウィンドウ内で$O(1)$コストで動作します。
本稿では,自らのワークフローにステートフルな自動検索エージェントを実装する上で,そのアーキテクチャを十分に詳細に記述する。
関連論文リスト
- Automating Formal Verification with Agent-Guided Tree Search [0.0]
形式的検証は、ソフトウェアを確実に修正する道を提供するが、検証済みのコードを書くのに十分な費用がかかるため、本番ではほとんど使われない。
最近のベンチマークでは、仕様をコードに変換する能力と、マシンチェックによる正確さの反復を計測している。
この論文は、リーンにおけるLCM駆動による検証コード生成の状況を評価し、パフォーマンスを改善するための検索ベースの手法を開発する。
論文 参考訳(メタデータ) (2026-05-26T14:50:47Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs [75.62489398666644]
我々は,Claude Codeをベースとしたemphautoresearchスタイルのパイプライン citepkarpathy2026autoresearch が,新しいホワイトボックス対逆攻撃を発見できることを示した。
textbfsignantは、jailbreakで既存のすべての(30以上のメソッド)を著しく上回り、インジェクション評価を促します。
論文 参考訳(メタデータ) (2026-03-25T16:50:56Z) - Prune, Don't Rebuild: Efficiently Tuning $α$-Reachable Graphs for Nearest Neighbor Search [7.168741876130465]
完全なインデックスを再構築することなく$$$パラメータを調整するRP-Tuningを提案する。
RP-Tuningは、4つの公開データセットのDiskANNチューニングを、無視できないオーバーヘッドで最大43タイムで高速化することを示す。
論文 参考訳(メタデータ) (2026-02-08T19:34:38Z) - CHEHAB RL: Learning to Optimize Fully Homomorphic Encryption Computations [4.35834398077163]
ホモモルフィック暗号化(FHE)は、暗号化されたデータに直接計算を行うことができるが、その高い計算コストは依然として大きな障壁である。
本稿では、深部強化学習(RL)を利用してFHEコードの最適化を自動化する新しいフレームワークであるCHEHAB RLを提案する。
その結果、我々の手法は実行時に5.3times$のコードを生成し、2.54times$低いノイズを蓄積し、コンパイルプロセス自体はCoyoteよりも27.9times$のコードを生成することがわかった。
論文 参考訳(メタデータ) (2026-01-27T08:49:09Z) - Amortized Latent Steering: Low-Cost Alternative to Test-Time Optimization [3.9311957222075935]
Amortized Latent Steering (ALS)は、反復最適化を1つのオフライン計算ベクトルに分解する。
ALSは反復的手法よりも2~5倍のスピードアップを達成し、強欲なCoT(Chain-of-Thought)と自己一貫性(Self-Consistency)のベースラインをマッチまたは超過する。
結果から,潜伏最適化のメリットの大部分はオフラインで取得可能であることが示され,高度な推論技術が本番デプロイメントに有効であることが確認された。
論文 参考訳(メタデータ) (2025-09-10T07:03:35Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。