論文の概要: Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design
- arxiv url: http://arxiv.org/abs/2606.16009v2
- Date: Tue, 16 Jun 2026 12:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.815296
- Title: Bridging the Usability Gap: Lessons from Interpreting Studies for Machine Interpreting Design
- Title(参考訳): ユーザビリティギャップのブリッジ: 機械解釈設計のための解釈研究から学んだこと
- Authors: Claudio Fantinuoli,
- Abstract要約: 機械解釈(英: Machine Interpreting、MI)は、音声翻訳のリアルタイムな応用である。
しかし、ユーザエクスペリエンスはインタープリタ経由の通信よりもはるかに劣っている。
本稿では、MIを音声翻訳の異なるサブフィールドとして定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine interpreting (MI), the live, real-time application of speech translation, has achieved remarkable progress on standard benchmarks, with some systems approaching human parity on textual fidelity. Yet the user experience remains far inferior to interpreter-mediated communication, revealing what we term the accuracy illusion: systems that appear accurate on paper but fail in practice to support smooth, goal-oriented interaction. This paper defines MI as a distinct subfield of speech translation, with its own characteristics and the need for evaluation methods grounded in communicative effectiveness rather than isolated fidelity metrics. Drawing on insights from interpreting studies, we identify critical dimensions of professional interpreting practice that are overlooked by current systems, and consolidate them into three interdependent design priorities for future MI: agency (context-sensitive initiative and repair), grounding (multimodal and discourse-level situational awareness), and experience (adaptive improvement through real interaction). Together, these priorities chart a path toward closing the usability gap and enabling systems that can sustain authentic multilingual communication in real time.
- Abstract(参考訳): 音声翻訳をリアルタイムにリアルタイムに行う機械解釈 (MI) は, テキストの忠実度に対する人間のパリティにアプローチするシステムなど, 標準ベンチマークにおいて顕著な進歩を遂げている。
しかし、ユーザエクスペリエンスは、インタプリタによるコミュニケーションよりもはるかに劣っており、私たちが正確に錯覚と呼ぶものを明らかにしている: 紙に正確に見えるが、実際には、スムーズでゴール指向のインタラクションをサポートするために失敗するシステム。
本稿では、MIを音声翻訳の異なるサブフィールドとして定義し、その特徴と、分離された忠実度尺度ではなく、コミュニケーション効果に基づく評価方法の必要性について述べる。
解釈研究からの洞察に基づいて、現在のシステムで見過ごされている専門的解釈実践の重要次元を特定し、それらを未来のMIの3つの相互依存設計優先事項、すなわち、エージェント(コンテキストに敏感なイニシアティブと修復)、接地(マルチモーダルおよび談話レベルの状況認識)、経験(実際の相互作用による適応的改善)に集約する。
同時に、これらの優先順位は、ユーザビリティのギャップを埋め、リアルタイムに真の多言語コミュニケーションを維持できるシステムを実現するための道筋を示す。
関連論文リスト
- Ouvia: A User-centered Framework for Measuring Usability of Speech Translation in Real-World Communication Scenarios [63.167237308464536]
音声翻訳(ST)はユーザアプリケーションではますます普及しているが、その評価は非テキスト化テストベッドと全体的な品質に重点を置いている。
実環境における音声翻訳のユーザビリティを評価するための評価フレームワークであるOuviaを紹介する。
論文 参考訳(メタデータ) (2026-06-04T13:52:21Z) - SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation [1.4175612723267692]
人間のロボット同士の対話を直感的に行うための,最初の手話駆動型ビジョン・ランゲージ・アクション(VLA)フレームワークを提案する。
中間管理として光沢アノテーションを頼りにしている従来の手法とは異なり、提案システムは光沢のないパラダイムを採用する。
我々は,ロボット制御のためのロバストで低遅延な通信チャネルを提供する,リアルタイムのアルファベットレベルフィンガースペルインタフェースに注力する。
論文 参考訳(メタデータ) (2026-02-26T01:16:27Z) - Understanding the Modality Gap: An Empirical Study on the Speech-Text Alignment Mechanism of Large Speech Language Models [12.263637152835713]
LSLM(End-to-end Large Speech Language Models)では,会話生成能力が顕著に向上している。
粗くきめ細かなテキストと音声表現の両方を解析する。
表現類似性はモダリティギャップと強く相関していることがわかった。
論文 参考訳(メタデータ) (2025-10-14T03:34:38Z) - Vision-Grounded Machine Interpreting: Improving the Translation Process through Visual Cues [0.0]
Vision-Grounded Interpreting (VGI) は、一元的機械解釈の限界に対処するために設計された新しい手法である。
本稿では,Webカメラからの音声入力と視覚入力の両方を処理するために,視覚言語モデルを統合するプロトタイプシステムを提案する。
本手法の有効性を評価するため,3種類のあいまいさを対象とする手作り診断コーパスを構築した。
論文 参考訳(メタデータ) (2025-09-28T16:25:33Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System? [7.252894835396412]
シマルST(SimulST)は、話者の音声とソース言語音声を同時に翻訳し、ユーザの理解を深めるために低レイテンシを確保する。
非有界音声への応用を意図したものの、ほとんどの研究は、人間の事前隔離された音声に焦点を当て、タスクを単純化し、重要な課題を見落としている。
論文 参考訳(メタデータ) (2024-12-24T15:26:31Z) - Cognitive Semantic Communication Systems Driven by Knowledge Graph:
Principle, Implementation, and Performance Evaluation [74.38561925376996]
単一ユーザと複数ユーザのコミュニケーションシナリオに対して,認知意味コミュニケーションフレームワークが2つ提案されている。
知識グラフから推論規則をマイニングすることにより,効果的な意味補正アルゴリズムを提案する。
マルチユーザ認知型セマンティックコミュニケーションシステムにおいて,異なるユーザのメッセージを識別するために,メッセージ復元アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:01:43Z) - Common Language for Goal-Oriented Semantic Communications: A Curriculum
Learning Framework [66.81698651016444]
目標指向タスク実行を実現するための包括的セマンティックコミュニケーションフレームワークを提案する。
カリキュラム学習(CL)と強化学習(RL)を組み合わせた新しいトップダウンフレームワークを提案する。
シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。
論文 参考訳(メタデータ) (2021-11-15T19:13:55Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Towards the evaluation of simultaneous speech translation from a
communicative perspective [0.0]
本稿では,同時音声翻訳エンジンの品質評価を目的とした実験結果について述べる。
機械が情報性の観点からやや良く機能する一方で、人間の通訳者にとって、知性の観点からはより良いパフォーマンスを見出した。
論文 参考訳(メタデータ) (2021-03-15T13:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。