Fugu-MT 論文翻訳(概要): Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning

論文の概要: Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning

arxiv url: http://arxiv.org/abs/2606.16576v1
Date: Mon, 15 Jun 2026 11:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.481277
Title: Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning
Title（参考訳）: LLMエージェントは世界モデルを推測できるか? : エージェントオートマタ学習からの証拠
Authors: Reef Menaged, Gili Lior, Shauli Ravfogel, Roee Aharoni, Gabriel Stanovsky,
Abstract要約: ツールコールのLLMエージェントが、対話を通じて隠れた環境を発見できる範囲を評価する。我々の設定では、エージェントはオラクルと相互作用することで隠れた決定論的有限オートマトン(DFA)を発見すべきである。 DFAのサイズが大きくなるにつれて,性能が急激に低下することがわかった。
参考スコア（独自算出の注目度）: 33.77002260033358
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose agentic automata learning to evaluate the extent to which tool-calling LLM agents can uncover hidden environments through interaction. In our setup, an agent should uncover a hidden deterministic finite automaton (DFA) by interacting with an oracle through (1) membership queries ("Does this string belong to the target language?") and (2) equivalence queries ("Is this the target DFA?"). This yields a scalable testbed with controlled task complexity, measurable interaction efficiency, and strong baselines (classic automata-learning algorithms). Evaluating state-of-the-art LLMs, we find that performance drops sharply as DFA size increases. Reasoning models are markedly stronger than non-reasoning models, yet trajectory analyses reveal recurring failures in query planning, evidence integration, and hypothesis construction. Overall, our results show that current LLM agents can sometimes perform non-trivial interactive discovery, but remain far less robust and efficient than classic algorithms for the task.
Abstract（参考訳）: 本稿では,LLMエージェントが対話を通して隠れた環境を発見できる範囲を評価するために,エージェントオートマトン学習を提案する。我々の設定では、エージェントは(1)メンバーシップクエリ(この文字列はターゲット言語に属するのか?)と(2)等価クエリ(これはターゲットDFAなのか?)を通して、オラクルと相互作用することで、隠れた決定論的有限オートマトン(DFA)を明らかにするべきである。これにより、制御されたタスクの複雑さ、測定可能なインタラクション効率、強力なベースライン(古典的オートマトン学習アルゴリズム)を備えたスケーラブルなテストベッドが得られる。 DFA のサイズが大きくなるにつれて,最先端の LLM の評価により,性能が急激に低下することがわかった。推論モデルは、非推論モデルよりも著しく強いが、軌跡解析は、クエリ計画、エビデンス統合、仮説構築において繰り返し発生する失敗を明らかにしている。全体としては、現在のLLMエージェントは、非自明な対話的発見を行うことができるが、タスクの古典的アルゴリズムよりも、はるかに堅牢で効率的であることを示す。

関連論文リスト

Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文参考訳（メタデータ） (2024-08-06T07:12:09Z)
AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文参考訳（メタデータ） (2024-01-10T16:57:24Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。