論文の概要: Martingale Doppelgänger-Eval: An Identification Framework for Auditing Candlestick Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.17423v1
- Date: Tue, 16 Jun 2026 02:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.216031
- Title: Martingale Doppelgänger-Eval: An Identification Framework for Auditing Candlestick Understanding in Vision-Language Models
- Title(参考訳): Martingale Doppelgänger-Eval:視覚言語モデルにおけるキャンドルスティック理解の識別フレームワーク
- Authors: Ziyao Wang,
- Abstract要約: Martingale Doppelgnger-Evalは、視覚言語モデル(VLM)が過去の傾向を概説するのではなく、キャンドルスティックエビデンスを使用するかどうかを監査するための、公開のシャドウマーケットベンチマークである。
構造的行動モデルは、ヌルマーケットバイアス、トレンド感度、エビデンス感度、プロン/レンダーの脆弱性、エビデンス忠実性を識別する。
- 参考スコア(独自算出の注目度): 7.600410227599106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Martingale Doppelgänger-Eval, a public shadow-market benchmark for auditing whether vision-language models (VLMs) use candlestick evidence rather than extrapolate past trends. The central difficulty is identification: on real market histories, chart evidence and trend are strongly coupled, so an observational score cannot determine whether a fluent technical-analysis narrative is grounded in local visual evidence. We prove this limitation formally: no evaluation functional computed from observational chart--label data can distinguish a grounded responder from a trend-shortcut responder under strong coupling, whereas matched evidence interventions separate the same responders at an exponential rate and trend--label swaps provide an independent shortcut stress test. The benchmark therefore evaluates frozen VLMs on rendered OHLCV charts under four controlled mechanisms: a martingale-null market, injected-alpha counterfactual pairs, trend-confounder swaps, and regime shifts. A structural behavioral model identifies null-market bias, trend sensitivity, evidence sensitivity, prompt/renderer fragility, and evidence faithfulness; the accompanying statistical toolkit provides minimum detectable effects, block-aware sequential testing for metered APIs, and an overlap-weighted artifact check. Across frozen commercial and open VLMs, the identified regression assigns large positive coefficients to past trend but evidence coefficients that are zero or opposite to the rule-implied sign. Matched-pair analyses show that models either ignore injected candlestick semantics or move opposite to the rule-implied direction conditional on responding. The benchmark isolates a failure mode that standard observational chart benchmarks cannot detect and gives a reusable audit template for time-series imagery with controllable label mechanisms.
- Abstract(参考訳): 我々は、視覚言語モデル(VLM)が過去の傾向を外挿するよりも、キャンドルスティックエビデンスを使用するかどうかを監査するための公開シャドウマーケットベンチマークであるMartingale Doppelgänger-Evalを紹介した。
実際の市場史では、チャートのエビデンスとトレンドが強く結びついているので、現地の視覚的エビデンスに流動的な技術分析の物語が根ざされているかどうかを観察スコアで判断することはできない。
この制限を正式に証明する: 観測チャート-ラベルデータから計算された評価関数は、強い結合の下で、接地された応答者とトレンドショートカット応答者とを区別することができず、一方、一致した証拠介入は、指数速度で同一応答者を分離し、トレンドラベルスワップは独立したショートカットストレステストを提供する。
このベンチマークは、マーチンゲール・ヌルマーケット、インジェクションされたアルファ対ファクトペア、トレンドコンファウンタスワップ、レギュラーシフトの4つの制御メカニズムの下で、レンダリングされたOHLCVチャート上の凍結VLMを評価する。
構造的行動モデルは、ヌルマーケットバイアス、傾向感度、エビデンス感度、プロン/レンダーの脆弱性、エビデンス忠実さを識別する。
凍結された商用およびオープンなVLM全体において、同定された回帰は、過去の傾向に対して大きな正の係数を割り当てるが、ルールが導入された符号とはゼロあるいは反対のエビデンス係数を割り当てる。
マッチングペア分析は、モデルが注入されたキャンドルスティックのセマンティクスを無視しているか、あるいは応答時にルールが実装された方向条件に逆向きに動くことを示している。
このベンチマークは、標準観測チャートベンチマークでは検出できない障害モードを分離し、制御可能なラベル機構を備えた時系列画像の再利用可能な監査テンプレートを提供する。
関連論文リスト
- Scaling Pretrained Representations Enables Label-Free Out-of-Distribution Detection Without Fine-Tuning [5.008779702997125]
最新の事前学習モデルでは, 正確なラベル自由分布検出に十分な幾何学的構造をエンコードしている。
以上の結果から, ラベルフリーなOOD検出は, 凍結した後骨が露出する形状に強く依存していることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T03:45:52Z) - Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect [0.5735035463793009]
タスクは社会的に意味のあるリレーショナルシグナルをターゲットとしており、それは行動的にリアルであり、感情に還元できない。
XHS-SCoREは、読取者による比較検出のためのベンチマークと、社会的に有意な関係的手がかりが部分的にのみ、プロンプトベースの推論にしか見えないかどうかを研究するための診断フレームワークの両方に貢献する。
論文 参考訳(メタデータ) (2026-05-01T18:28:10Z) - Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。
EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文 参考訳(メタデータ) (2026-03-17T08:40:26Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - RISE: Interactive Visual Diagnosis of Fairness in Machine Learning Models [3.409008933025072]
textitRISE(Residual Inspection through Sorted Evaluation)は,分類された残基を解釈可能なパターンに変換するインタラクティブな可視化ツールである。
残留曲線構造を形式的公正性の概念に結合することにより、RISEは局所的な不均一性診断、環境間の部分群比較、隠された公正性問題の検出を可能にする。
論文 参考訳(メタデータ) (2026-02-04T09:01:21Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。