論文の概要: Search Discipline for Long-Horizon Research Agents
- arxiv url: http://arxiv.org/abs/2606.11522v1
- Date: Tue, 09 Jun 2026 23:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.218436
- Title: Search Discipline for Long-Horizon Research Agents
- Title(参考訳): 長期研究エージェントの探索ディ科目
- Authors: Adithya Srinivasan, Devesh Paragiri,
- Abstract要約: 自動検索エージェントは、メートル法に対して科学的候補を提案し、評価し、選択する。
この非凝集構造に科学的妥当性が存在する場合、アグリゲーションはまず間違った候補をランク付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoresearch agents now propose, evaluate, and select scientific candidates against a metric, and that metric is usually an aggregate reduced over a heterogeneous space of regions, slices, or cohorts. We show that when scientific validity lives in that disaggregated structure, the aggregate can rank the wrong candidate first. The headline number improves while the structure underneath inverts, so a decision made on the number accepts a candidate that quietly breaks the model. The failure is not domain-specific. It appears wherever a candidate's validity is multi-dimensional but its verifier is a single reduction. We demonstrate the inversion on a fire-model task in the Ecosystem Demography model. The highest-scoring candidate and a slightly lower one are within noise of each other on global score, yet the top-scoring one collapses the protected boreal regions while the other preserves them. What separates them is the per-region behavior, not the headline number. This decision should not be left to the agent that produced the candidates. The agent optimizing the score is the last party likely to catch the score being wrong, and a prompt has no remaining turn once the agent has stopped. We move the decision to an external control loop that audits each candidate on its disaggregated behavior and acts after the agent has decided. It can demote a candidate the agent would have accepted, and it can reopen a run the agent had declared finished. Our contribution is the inversion finding itself, and a search-discipline protocol that decides on reviewable candidate-effect evidence instead of the score.
- Abstract(参考訳): オートリサーチエージェントは、メートル法に対して科学的候補を提案し、評価し、選択し、その計量は通常、領域、スライスまたはコホートの不均一な空間で縮小された集合である。
この非凝集構造に科学的妥当性が存在する場合、アグリゲーションはまず間違った候補をランク付けする。
見出し番号は、下にある構造が逆転している間に改善されるので、その数に関する決定は、モデルを静かに破る候補を受け入れる。
失敗はドメイン固有のものではない。
候補の妥当性は多次元であるが、検証は単一の還元である。
エコシステム・デモグラフィー・モデルにおける火災モデルタスクの逆転を実演する。
最上位の候補とやや下位の候補は、グローバルスコアで互いにノイズ状態にあるが、上位の候補は保護されたボレアル地域を崩壊させ、他方はそれらを保存している。
それらを分離しているのはリージョンごとの振る舞いであり、見出し番号ではない。
この決定は、候補者を作成した代理人に委ねてはならない。
スコアを最適化するエージェントは、スコアが間違っていることをキャッチしそうな最後のパーティであり、エージェントが停止すると、プロンプトは残りのターンを持たない。
我々は、決定を外部制御ループに移動し、各候補が不合理な振る舞いを監査し、エージェントが決定した後で行動する。
エージェントが受け入れた候補を分解し、エージェントが宣言した実行を再開することができる。
我々の貢献は、インバージョン発見そのものと、スコアではなく、レビュー可能な候補効果証拠を決定する検索ディシドリンプロトコルである。
関連論文リスト
- A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification [0.0]
自律的な操作エージェントに関する実証的な主張は、ほとんど不可能である。
コードエージェントは「機能する」検証基板を持ち、高速でファルサブルで地味な信号に変換する。
ターゲットクラスタに障害を注入するクローズドループ計測フレームワークである Agent-breakage を提案する。
論文 参考訳(メタデータ) (2026-05-21T21:47:52Z) - Pushing the Boundaries of Multiple Choice Evaluation to One Hundred Options [4.902225285395898]
本稿では,候補セットを100まで拡張する大規模オプション評価プロトコルを提案する。
この枠組みを韓国の正書法誤り検出タスクに適用する。
その結果、低いオプション設定での強いパフォーマンスは、モデルの能力を誇張できることが示された。
論文 参考訳(メタデータ) (2026-04-16T05:22:12Z) - Which Coauthor Should I Nominate in My 99 ICLR Submissions? A Mathematical Analysis of the ICLR 2026 Reciprocal Reviewer Nomination Policy [11.011505065410354]
ICLR 2026はレビュアーの指名ポリシーを導入し、各提出者はレビュアーとして著者の1人を指名しなければならない。
我々は,デスク-リジェクションリスク最小化問題の3つの変種を定式化し,解析する。
次に、論文数を制限するハードかつソフトなリミットの亜種を導入し、ある著者が無責任であれば、広範囲にわたる失敗を防ぎます。
論文 参考訳(メタデータ) (2025-12-17T01:21:29Z) - An External Fairness Evaluation of LinkedIn Talent Search [55.18656975953939]
LinkedInのTalent Searchランキングシステムのバイアスに対する、独立したサードパーティによる監査を行います。
我々は、性別と人種の2つの属性にまたがる潜在的なランキングバイアスに焦点を当てている。
我々の分析は、初期階級の少数派を過小評価していることを示している。
論文 参考訳(メタデータ) (2025-11-13T19:10:49Z) - A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Peer Selection with Noisy Assessments [43.307040330622186]
現在最も正確なピアレビューアルゴリズムであるPeerNominationをWeightedPeerNominationに拡張します。
重み付け方式により、選択の全体的な精度が大幅に向上できることを解析的に示す。
論文 参考訳(メタデータ) (2021-07-21T14:47:11Z) - Modeling Voters in Multi-Winner Approval Voting [24.002910959494923]
我々は,不確実性の度合いの異なる単入投票と多入投票の投票行動について検討した。
概して、人々はより良い結果を得るために投票を操作しているが、しばしば最適な操作を特定できない。
本稿では,勝利集合の大きさと人間の認知的制約を考慮に入れた新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T19:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。