論文の概要: Themis: An explainable AI-enabled framework for Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2606.24622v1
- Date: Tue, 23 Jun 2026 14:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.012262
- Title: Themis: An explainable AI-enabled framework for Reinforcement Learning with Human Feedback
- Title(参考訳): Themis: ヒューマンフィードバックによる強化学習のための説明可能なAI対応フレームワーク
- Authors: Andreas Chouliaras, Luke Connolly, Dimitris Chatzpoulos,
- Abstract要約: 我々は,人間からの強化学習のためのXAI対応テストおよび評価フレームワークであるThemisを紹介する。
Themisは200以上の広く使われている環境をサポートしており、RL、透明性、アライメントの試験が容易に行える。
また、人間のフィードバックを収集し、実験を管理するクラウドベースのプラットフォームも提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training safe Reinforcement Learning (RL) systems is inherently challenging, with no guarantee of avoiding unwanted behaviors. The most effective defenses against this are (i) transparency through explainability and (ii) alignment via human feedback. While both show promising results, no publicly available framework currently combines them. To address this, we introduce Themis, an XAI-enabled testing and evaluation framework for Reinforcement Learning from Human Feedback. Themis supports over 200 widely used environments and is easily configurable for experiments in RL, transparency, and alignment. Our results show that Themis can train reward models that match or outperform the environment's true reward signal using human preferences. We also provide a cloud-based platform for collecting human feedback and managing experiments. It is user-friendly, auto-scalable, and supports large participant groups across multiple experiments without extra development overhead. Tests show Themis can support one thousand users in back-to-back experiments on a modest commercial machine.
- Abstract(参考訳): 安全な強化学習(RL)システムのトレーニングは本質的に困難であり、望ましくない行動を避ける保証はない。
これに対する最も効果的な防御策は
一 説明可能性及び透明性による透明性
(ii)人間のフィードバックによるアライメント。
どちらも有望な結果を示しているが、現在公開されているフレームワークは統合されていない。
そこで我々は,人間からの強化学習のためのXAI対応テストおよび評価フレームワークであるThemisを紹介する。
Themisは200以上の広く使われている環境をサポートしており、RL、透明性、アライメントの実験のために簡単に構成できる。
以上の結果から,テミスは人間の嗜好によって環境の真の報奨信号に適合または優れる報酬モデルを訓練できることが示唆された。
また、人間のフィードバックを収集し、実験を管理するクラウドベースのプラットフォームも提供しています。
ユーザフレンドリで、自動スケーリング可能で、開発オーバーヘッドを余分に必要とせずに、複数の実験にまたがる大規模な参加者グループをサポートする。
テストによると、Themisは控えめな商用マシン上で、バック・ツー・バックの実験で1000人のユーザをサポートすることができる。
関連論文リスト
- OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards [44.03496012544118]
OS-Themisはスケーラブルで正確なマルチエージェント批判フレームワークである。
軌跡を検証可能なマイルストーンに分解し、意思決定のための重要な証拠を分離する。
最終判決を下す前に、エビデンスチェーンを厳格に監査するために、レビューメカニズムを採用している。
AndroidWorldの実験では、OS-ThemisはオンラインRLトレーニングをサポートする際に10.3%改善されている。
論文 参考訳(メタデータ) (2026-03-19T17:47:47Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。