論文の概要: Sakana Fugu Technical Report
- arxiv url: http://arxiv.org/abs/2606.21228v2
- Date: Tue, 23 Jun 2026 04:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.323004
- Title: Sakana Fugu Technical Report
- Title(参考訳): さかなふぐ技術報告
- Authors: Yujin Tang, Edoardo Cetin, Jinglue Xu, Qi Sun, Stefan Nielsen, Vincent Richard, Haruto Goda, Iaroslav Tymchenko, Nhan Nguyen, Hyunin Lee, Mari Ashiga, Shashank Kotyan, So Kuroki, Tarin Clanuwat,
- Abstract要約: サカナ・フグ(Sakana Fugu)は、エージェントチームの能力を活用し、増幅するオーケストラモデルのファミリーである。
Fuguモデルはユーザクエリを理解するためにトレーニングされ、それらを解決するためにエージェント的な足場を動的に設計する。
日常的に使用するレイテンシとパフォーマンスのバランスをとるFuguと、最も難しい問題に対して回答品質を優先するFugu-Ultraの2つのモデルをリリースしています。
- 参考スコア(独自算出の注目度): 20.504825792058543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capabilities of frontier Large Language Models (LLMs) continue to advance, with different providers increasingly specializing in distinct domains. This raises a natural next objective: how to combine the individual specializations of various LLMs into a collectively intelligent system. To this end, we report the development of Sakana Fugu, a family of orchestrator models that harness and amplify the capabilities of an LLM agent team. Fugu models are themselves language models trained to understand user queries and dynamically devise agentic scaffolds to solve them. Through these adaptive scaffolds, Fugu accesses performance beyond any individual LLM agent, achieving state-of-the-art results compared to other publicly accessible models across a range of challenging tasks, including SWE-Bench Pro, Terminal Bench, LiveCodeBench, GPQA-Diamond, Humanity's Last Exam, and CharXiv Reasoning. We release two models: Fugu, which balances performance with latency for everyday use, and Fugu-Ultra, which prioritizes answer quality on the hardest problems. We describe our training paradigm, which encompasses large-scale fine-tuning, evolutionary algorithms, and reinforcement learning approaches, along with the infrastructure and core design principles that turn these methods into a production system. We hope this report encourages further research into multi-agent systems and dynamic, query-adaptive agentic scaffolds as a path toward the next frontier of AI capabilities, accessed through collective intelligence.
- Abstract(参考訳): Frontier Large Language Models (LLMs) の能力は進歩を続けており、異なるドメインを専門とするさまざまなプロバイダが増えている。
これは、様々なLSMの個別の特殊化を総合的なインテリジェントなシステムにどのように組み合わせるかという、自然な次の目標を提起する。
そこで本稿では, LLMエージェントチームの能力を活用し, 増幅するオーケストラモデルである, 佐可奈ふぐの開発について報告する。
Fuguモデルは、ユーザクエリを理解し、それらを解決するためにエージェント的な足場を動的に設計するように訓練された言語モデルである。
これらの適応的な足場を通じて、Fuguは個々のLLMエージェントを超えてパフォーマンスにアクセスし、SWE-Bench Pro、Terminal Bench、LiveCodeBench、GPQA-Diamond、HumanityのLast Exam、CharXiv Reasoningなど、さまざまな困難なタスクで利用できる他の公開モデルと比較して、最先端の結果を達成する。
日常的に使用するレイテンシとパフォーマンスのバランスをとるFuguと、最も難しい問題に対して回答品質を優先するFugu-Ultraの2つのモデルをリリースしています。
大規模な微調整、進化的アルゴリズム、強化学習アプローチを含むトレーニングパラダイムと、これらのメソッドを運用システムに変換するインフラストラクチャとコア設計原則について説明します。
このレポートは、AI能力の次のフロンティアへの道として、マルチエージェントシステムと動的でクエリ適応型のエージェントの足場に関するさらなる研究を促進することを願っている。
関連論文リスト
- Discovering Novel LLM Experts via Task-Capability Coevolution [11.383365565440949]
我々は,共進化を大規模言語モデル(LLM)発見に拡張する新しいモデル開発フレームワークを導入する。
AC/DCはモデルマージと合成データ生成による自然言語タスクを通じてLLMを進化させる。
本研究は,LLMから幅広い機能セットを発見する手段として,コエボリューションの可能性を強調した。
論文 参考訳(メタデータ) (2026-04-16T13:06:11Z) - EoS-FM: Can an Ensemble of Specialist Models act as a Generalist Feature Extractor? [8.178030486012437]
リモートセンシングファウンデーションモデル(RSFM)構築のためのアンサンブル・オブ・スペシャリストフレームワークを提案する。
本手法はトレーニングプロセスを,凍結・再利用可能な軽量でタスク固有のConvNeXtV2専門家に分解する。
我々のフレームワークは、スケーラブルで効率的なRSFMを構築するための新しい方向を設定します。
論文 参考訳(メタデータ) (2025-11-26T15:52:56Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - PILL: Plug Into LLM with Adapter Expert and Attention Gate [11.956931222769128]
我々は、アダプタの専門家とアテンションゲートを備えたPILL: Plug Into LLMという新しいアーキテクチャを導入する。
まず、Mixture-of-Modality-Adapter-Expertを使って異なるモダリティを独立に扱う。
第二に、モダリティ・アテンション・ゲーティングを導入することにより、全体表現へのモダリティトークンの寄与を適応的に制御できる。
論文 参考訳(メタデータ) (2023-11-03T09:31:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。