論文の概要: TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints
- arxiv url: http://arxiv.org/abs/2606.08425v1
- Date: Sun, 07 Jun 2026 02:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.09996
- Title: TinyGiantALM: A Compact Audio-Language Model for Intent-Aware Reasoning under Resource Constraints
- Title(参考訳): TinyGiantALM:資源制約下でのインテント認識推論のためのコンパクトオーディオ言語モデル
- Authors: Vinh-Thuan Ly,
- Abstract要約: 大規模オーディオ言語モデルに代わる,1.5B の高効率指向の小型モデル TinyGiantALM を紹介する。
MMARベンチマークでは、TinyGiantALMは46.4%のゼロショット精度を達成し、7B-13Bベースラインを大幅に上回った。
これらの結果は,建築精度が,エッジフレンドリーなスケールでの堅牢な認識能力を確保するための具体的な経路を提供することを示している。
- 参考スコア(独自算出の注目度): 1.1645902558812447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current advancements in Audio Reasoning rely on massive Large Audio-Language Models (LALMs), hindering deployment in resource-constrained environments. We introduce TinyGiantALM, a compact 1.5B efficiency-oriented alternative. Instead of brute-force scaling, we propose an Instruction-Aware Feature Refinement framework using a Query-guided Projector and Semantic Gating to filter acoustic signals based on user intent. On the MMAR benchmark, TinyGiantALM achieves 46.4% zero-shot accuracy, significantly outperforming 7B-13B baselines. While a reasoning gap in logical narrative remains versus 30B+ models and certain trade-offs exist in overly dense or spatial scenes, our approach notably surpasses models up to 8x larger in disentangling mixed-modality environments. These findings demonstrate that architectural precision offers a tangible pathway to secure robust perception capabilities on edge-friendly scales.
- Abstract(参考訳): オーディオ推論の現在の進歩は大規模オーディオ言語モデル (LALM) に依存しており、資源制約のある環境への展開を妨げる。
1.5Bの効率指向のコンパクトな代替手段であるTinyGiantALMを紹介する。
ブルートフォーススケーリングの代わりに,クエリ誘導プロジェクタとセマンティックゲーティングを用いてユーザ意図に基づく音響信号のフィルタリングを行うインストラクション・アウェア・フィーチャー・リファインメント・フレームワークを提案する。
MMARベンチマークでは、TinyGiantALMは46.4%のゼロショット精度を達成し、7B-13Bベースラインを大幅に上回った。
論理的物語の推論的ギャップは30B以上のモデルに留まり、過度に密集したシーンや空間的なシーンにある種のトレードオフが存在するが、我々のアプローチは、混在する混合モダリティ環境において最大8倍のモデルを超えた。
これらの結果は,建築精度が,エッジフレンドリーなスケールでの堅牢な認識能力を確保するための具体的な経路を提供することを示している。
関連論文リスト
- LightAVSeg: Lightweight Audio-Visual Segmentation [67.18006751024687]
LightAVSegは、セマンティックフィルタリングと空間接地のための分離された設計に置き換わっている。
実験では、軽量メソッド間で新しい最先端を実現することを実証している。
MS3ベンチマークで50.4 mIoUに達し、モバイルプロセッサでの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2026-05-09T08:47:54Z) - Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller [0.0]
本稿では,AudioMothマイクロコントローラに直接分類器を埋め込むことで,音像をその場で解析できるスマートPAMシステムを提案する。
具体的には、1次元畳み込みニューラルネットワーク(1D-CNN)を最適化し、生音声を分類する。
このモデルは、Scopoli Shearwater seabirds(絶滅危惧種)の特定の呼び出しに焦点を当て、分類精度91%の現実世界のデータセットで訓練されている。
論文 参考訳(メタデータ) (2026-05-05T06:37:35Z) - A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning [0.0]
本稿では,HEAR(Human-inspireed Efficient Audio Representation)を提案する。
HEARは処理パイプラインを,ローカル特徴抽出のためのアコースティックモデルと,グローバルセマンティック統合のためのタスクモデルという,2つの専用モジュールに分割する。
実験の結果、HEARは推定に15Mパラメータと9.47GFLOPしか必要とせず、従来の基礎モデルの計算コストのごく一部で動作していることがわかった。
論文 参考訳(メタデータ) (2026-03-27T06:09:03Z) - Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。
本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。
不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文 参考訳(メタデータ) (2026-01-02T09:16:55Z) - STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence [81.94084852268468]
時間と3次元空間における音波力学の推論として定義される音声4次元インテリジェンスを形式化する。
STAR-Benchは、基礎的な音響知覚設定とホロスティックな時空間推論設定を組み合わせる。
データキュレーションパイプラインは、高品質なサンプルを保証するために2つの方法を使用します。
論文 参考訳(メタデータ) (2025-10-28T17:50:34Z) - MoSEs: Uncertainty-Aware AI-Generated Text Detection via Mixture of Stylistics Experts with Conditional Thresholds [50.94175872742232]
本稿では,スタイリスティックスを意識した定量化の不確実性を実現するためのMixture of Stylistic Experts (MoSEs) フレームワークを提案する。
MoSEには、Stylistics Reference Repository (SRR)、Stylistics-Aware Router (SAR)、Conditional Threshold Estimator (CTE)の3つのコアコンポーネントが含まれている。
判別スコアにより、MoSEは対応する信頼度レベルで予測ラベルを出力する。
論文 参考訳(メタデータ) (2025-09-02T16:51:43Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。