論文の概要: How Should Agents Read Demonstrations? Hierarchical Structure Beats Flat Action Logs
- arxiv url: http://arxiv.org/abs/2606.20978v1
- Date: Thu, 18 Jun 2026 22:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:23:06.910315
- Title: How Should Agents Read Demonstrations? Hierarchical Structure Beats Flat Action Logs
- Title(参考訳): エージェントはいかにしてデモを読むべきか? 階層構造がフラットアクションログを上回る
- Authors: Honjar Xing, Jefferson Lin, Henry Lieberman,
- Abstract要約: 実証によるプログラミング(PbD)は、LLMエージェントの手続き的知識を書くための人間中心の方法を提供する。
このログをエージェントに渡す前にどのように整理するかは、計画品質に重大な影響を与えるオープンデザインの問題である。
記録された動作をラベル付き階層的なサブゴールに分類し,この組織構造の効果を制御実験で評価する。
- 参考スコア(独自算出の注目度): 0.21847754147782883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programming by Demonstration (PbD) offers a human-centered way to author procedural knowledge for LLM agents: users communicate what they want by showing rather than by writing prompts or code, making agent authoring accessible to non-programmers. The natural output of a PbD recording is a flat action log, but how this log is organized before being passed to the agent is an open design question with significant consequences for plan quality. We propose grouping recorded actions into labeled, hierarchical subgoals and evaluate the effect of this organizational structure in a controlled experiment. Across 85 web automation tasks, we compare a zero-shot baseline against four demonstration formats that share identical action sequences but differ in structure. On 43 natural-language tasks with vague descriptions, hierarchically grouped demonstrations improve pass rates from 76.7\% to 90.7\% (paired permutation test $p{=}0.034$; win-loss 6:0), while flat demonstrations show a smaller, non-significant improvement. On 42 tasks with precise descriptions, no format provides any benefit, confirming that the hierarchical advantage arises specifically when descriptions leave procedural details ambiguous. Ablation shows that subgoal grouping alone drives the effect: preconditions, postconditions, and parameter annotations add no measurable benefit. These results offer a concrete design recommendation for PbD pipelines and, more broadly, for any system that feeds procedural context to an LLM agent: segment action sequences into named subgoal groups rather than presenting flat step lists.
- Abstract(参考訳): プログラミング by Demonstration (PbD) は、LLMエージェントの手続き的知識を記述するための人間中心の方法を提供する。
PbDレコードの自然な出力は平らなアクションログであるが、エージェントに渡される前にどのようにこのログが組織されるかは、プラン品質に重大な影響を与えるオープンデザインの問題である。
記録された動作をラベル付き階層的なサブゴールに分類し,この組織構造の効果を制御実験で評価する。
85のWeb自動化タスクにおいて、ゼロショットベースラインと同一のアクションシーケンスを共有するが構造が異なる4つのデモフォーマットを比較した。
あいまいな記述を持つ43の自然言語タスクでは、階層的にグループ化されたデモはパスレートを76.7\%から90.7\%(ペア化置換テスト$p{=}0.034$; win-loss 6:0)に改善し、フラットなデモはより小さく、重要でない改善を示している。
正確な記述を伴う42のタスクでは、いかなる形式も利点を与えておらず、記述が手続き的な詳細を曖昧にしておくと、階層的な利点が特に生じることを確認している。
前提条件、後条件、パラメータアノテーションは測定可能な利益を与えない。
これらの結果は、PbDパイプラインのための具体的な設計勧告を提供し、より広義には、手続き的コンテキストをLLMエージェントに供給するシステムに対して、フラットなステップリストを提示するのではなく、名前付きサブゴナルグループにアクションシーケンスを分割する。
関連論文リスト
- RECIPE: Procedural Planning via Grounding in Instructional Video [30.96089823924218]
本稿では,RECIPEがノイズの多いビデオコーパスからクリーンなステップラベルを抽出する方法を示す。
RECIPEはGRPOの報酬としてグラウンド品質を使用し、ノイズの多いコーパスをラベルソースではなく検証器に変換する。
基準ベースLCM-as-judgeプロトコルを用いて,6つの手続き基準にまたがる計画を評価する。
論文 参考訳(メタデータ) (2026-05-19T15:20:39Z) - From Agent Loops to Structured Graphs:A Scheduler-Theoretic Framework for LLM Agent Execution [1.8222732878503212]
LLMベースのエージェントを構築するための主要なパラダイムはエージェントループ(Agent Loop)である。
この観点では、エージェントループとグラフベースの実行エンジンを単一のセマンティック連続体に配置する。
暗黙の文脈から暗黙の静的DAGへ制御フローを上昇させるSGHを提案する。
論文 参考訳(メタデータ) (2026-04-13T12:16:45Z) - ESAA: Event Sourcing for Autonomous Agents in LLM-Based Software Engineering [0.0]
本稿では,ESAA(Event Sourcing for Autonomous Agents)アーキテクチャについて述べる。
アーキテクチャは、イベントソーシングパターンにインスパイアされた、認知意図とプロジェクトの状態突然変異を分離する。
2つのケーススタディは、アーキテクチャを検証し、単一エージェントのシナリオを超えたアーキテクチャのスケーラビリティの実証的な証拠を提供する。
論文 参考訳(メタデータ) (2026-02-26T16:45:59Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。
我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。
PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文 参考訳(メタデータ) (2021-05-24T13:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。