論文の概要: Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models
- arxiv url: http://arxiv.org/abs/2606.18142v2
- Date: Wed, 17 Jun 2026 06:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.227023
- Title: Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models
- Title(参考訳): AIトラベルエージェントは、フロンティアAIモデルの動物福祉のためのエージェントベンチマーク
- Authors: Jasmine Brazilek, Joel Christoph, Miles Tidmarsh, Carol Kline, Oliver Tullio, Arturs Kanepajs,
- Abstract要約: 我々は、AIエージェントが、ユーザーに代わって行動する際に、動物による搾取を含むオプションを避けるかどうかを測定する最初のエージェントベンチマークであるTAC(Travel Agent Compassion)を紹介する。
全てのモデルが64%以下で、最高のパフォーマー(Claude Opus 4.7)は53%である。
本稿では,文化ドメイン間のカテゴリレベルの変動,テキスト応答型福祉ベンチマークの限界,およびEUの汎用AIコード・オブ・プラクティス・システムリスク・フレームワークについて論じる。
- 参考スコア(独自算出の注目度): 0.030786914102688596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are moving from advisors to actors, booking travel, planning menus, and running procurement on behalf of users. Existing benchmarks for AI and animal welfare evaluate model text responses to question-answer prompts, leaving open whether the welfare reasoning surfaced in those responses transfers to agentic deployment where the model must take actions with tools. We introduce TAC (Travel Agent Compassion), the first agentic benchmark measuring whether AI agents avoid options involving animal exploitation when acting on behalf of users. TAC presents an AI agent with twelve hand-authored travel booking scenarios across six categories of animal exploitation, augmented to forty-eight samples to control for price, rating, and position confounds. We evaluate seven frontier models from four labs. Every model scores below the chance level of sixty-four percent, with the best performer (Claude Opus 4.7) at fifty-three percent. A single welfare-aware sentence in the system prompt yields gains of forty-seven to sixty-three percentage points in Claude and GPT-5.5, twenty-six points in GPT-5.2, and under twelve points in DeepSeek and Gemini. An auxiliary Inspect Scout audit of 288 base-condition transcripts from the top two performers, using Gemini 2.5 Flash Lite as judge, flags zero transcripts for evaluation awareness, suggesting the below-chance rates do not stem from the models recognising the evaluation. We discuss implications for category-level variation across cultural domains, the limits of text-response welfare benchmarks, and the EU General-Purpose AI Code of Practice systemic risk framework.
- Abstract(参考訳): AIエージェントはアドバイザからアクターに移行し、旅行の予約、メニューの計画、ユーザーに代わって調達を行う。
既存のAIと動物福祉のベンチマークでは、質問回答のプロンプトに対するモデルテキスト応答を評価し、これらの応答で浮上した福祉推論が、モデルがツールで行動しなければならないエージェントデプロイメントに転送されるかどうかを公開している。
我々は、AIエージェントが、ユーザーに代わって行動する際に、動物による搾取を含むオプションを避けるかどうかを測定する最初のエージェントベンチマークであるTAC(Travel Agent Compassion)を紹介する。
TACは、動物利用の6つのカテゴリにまたがって、手書きの旅行予約シナリオを12つ用意したAIエージェントを提示する。
4つの実験室から7つのフロンティアモデルを評価する。
全てのモデルが64%以下で、最高のパフォーマー(Claude Opus 4.7)は53%である。
このシステムでは、Claude と GPT-5.5 の47~63パーセント、GPT-5.2 の26ポイント、DeepSeek と Gemini の12ポイント未満の利得を得る。
Gemini 2.5 Flash Liteを審査として使用した上位2人のパフォーマーからの288のベースコンディショナリストの補助的監査では、評価意識のためにゼロトランスクリプトをフラグ付け、以下のレートは評価を認識するモデルに由来するものではないことを示唆している。
本稿では,文化ドメイン間のカテゴリレベルの変動,テキスト応答型福祉ベンチマークの限界,およびEUの汎用AIコード・オブ・プラクティス・システムリスク・フレームワークについて論じる。
関連論文リスト
- Knowledge Index of Noah's Ark [63.143852586221534]
KINAは,261分野にわたる899項目のベンチマークである。
ボーナス・オン・バートーナメントがFOSDを弱く支配していることを示す。
トップモデルであるGemini-3.1-Pro-Previewは53.17%、Claude-Opus-4.6は49.92%、GPT-5.4は48.55%に達した。
論文 参考訳(メタデータ) (2026-06-03T17:06:49Z) - Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety [2.661610409070365]
ツール使用のAIモデルがインクリメンタルアタックの影響を受けやすいかどうかを評価するベンチマークであるBoiling the Frogを紹介した。
シナリオは3段階の運用リスク分類によって編成される。
9モデルパネル全体では、総攻撃成功率(ASR)は44.4%である。
論文 参考訳(メタデータ) (2026-05-21T15:50:18Z) - CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms [0.0]
CheeseBenchは、9つの古典的行動神経科学パラダイムに基づいて、大きな言語モデル(LLM)を評価するベンチマークである。
それぞれのタスクは、近似動物ベースラインを持つピアレビューされたロジトプロトコルに基礎を置いている。
テキストベースのASCIIレンダリングを用いて6つのオープンウェイトLCMを評価し、ランダムベースラインとグラフベースの強化学習エージェントを比較した。
論文 参考訳(メタデータ) (2026-04-12T21:37:26Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts [0.0]
本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
論文 参考訳(メタデータ) (2025-10-12T21:48:34Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。