論文の概要: Distilling LLM Reasoning into an Interpretable Policy Tree for Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2606.08596v1
- Date: Sun, 07 Jun 2026 12:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.290075
- Title: Distilling LLM Reasoning into an Interpretable Policy Tree for Human-AI Collaboration
- Title(参考訳): 人間-AI協調のための解釈可能な政策ツリーへのLLM推論の蒸留
- Authors: Beiwen Zhang, Yongheng Liang, Guowei Zou, Haitao Wang, Hejun Wu,
- Abstract要約: 本稿では,協調政策木(Co-pi-tree)を提案する。
実験の結果、コピツリーはベースライン平均よりも平均報酬を35.4%改善することが示された。
- 参考スコア(独自算出の注目度): 1.9127723228605265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing efficient and reliable policies to assist humans is indispensable for human-AI collaboration. Existing methods mainly follow two lines of work. Most prior work relies on multi-agent reinforcement learning (MARL) to learn black-box policies, which limits interpretability and raises safety concerns. Recent methods query large language models (LLMs) at each decision step, causing slow responses and high inference costs. We propose Collaboration Policy Tree (Co-pi-tree), a closed-loop method that learns an executable policy tree consisting of a partner-behavior prediction tree and an agent-action selection tree. Co-pi-tree constructs a policy by distilling LLM reasoning into policy tree code. It then evaluates the policy through partner interaction, obtains feedback, and uses natural language to summarize the interaction feedback to improve problematic branches. Experiments in Overcooked-AI show that Co-pi-tree improves average reward by 35.4% over the baseline average, while reducing the number of LLM queries by 77.7% and test-time latency by 97.1%. Project page: https://beiwenzhang.github.io/Co-pi-tree/
- Abstract(参考訳): 人間を支援するための効率的で信頼性の高い政策を構築することは、人間とAIの協力にとって不可欠である。
現存する方法は主に2行の作業に従う。
これまでの作業の多くは、ブラックボックスポリシーを学ぶためにマルチエージェント強化学習(MARL)に依存しており、解釈可能性の制限と安全性の懸念を高めている。
最近の手法では、各決定ステップで大きな言語モデル(LLM)をクエリし、応答が遅く、推論コストが高い。
本稿では,協調政策木(Co-pi-tree)を提案する。これは,パートナー行動予測木とエージェント行動選択木からなる実行可能な政策木を学習するクローズドループ手法である。
Co-pi-treeは、LCM推論をポリシーツリーコードに蒸留することでポリシーを構築する。
その後、パートナーのインタラクションを通じてポリシーを評価し、フィードバックを取得し、自然言語を使ってインタラクションフィードバックを要約し、問題のあるブランチを改善する。
Overcooked-AIの実験では、Co-pi-treeはベースライン平均よりも平均報酬を35.4%改善し、LLMクエリの数を77.7%削減し、テスト時間遅延を97.1%削減した。
プロジェクトページ: https://beiwenzhang.github.io/Co-pi-tree/
関連論文リスト
- Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - TreeReview: A Dynamic Tree of Questions Framework for Deep and Efficient LLM-based Scientific Peer Review [34.58109694654948]
TreeReviewは、紙レビューを階層的で双方向の質問回答プロセスとしてモデル化する新しいフレームワークである。
ICLR と NeurIPS の会場から得られたベンチマークを構築し,本手法の完全なレビュー生成および実行可能なコメント生成タスクについて評価する。
実験結果から、TreeReviewは、包括的な、深い、専門家によるレビューフィードバックを提供することで、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-06-09T11:07:55Z) - RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement [82.02155942106877]
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。
この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
論文 参考訳(メタデータ) (2024-12-16T03:33:49Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.71020326388029]
Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。
分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
論文 参考訳(メタデータ) (2023-10-21T15:18:22Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - SoftTreeMax: Policy Gradient with Tree Search [72.9513807133171]
我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
論文 参考訳(メタデータ) (2022-09-28T09:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。