論文の概要: Creative Collision: Directorial Persona Steering and Competition in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.16240v1
- Date: Mon, 15 Jun 2026 05:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.096742
- Title: Creative Collision: Directorial Persona Steering and Competition in Large Language Models
- Title(参考訳): 創造的衝突:大規模言語モデルにおけるディレクターペルソナステアリングと競争
- Authors: Subramanyam Sahoo, Justin Shenk,
- Abstract要約: 意味論的に対立する2つのステアリングベクトルを重畳するよりリッチな設定について検討する。
我々はSteven Spielberg と Martin Scorsese のディレクトリペルソナベクトルを構築する。
i)Spielbergの表現的署名は、ほぼ全範囲にわたってスコセアの道徳的影響を抑圧し、(ii)衝突点がパラドックス的に高額な単方向ステアリングに対する生成コヒーレンスをパラドックス的に改善し、(iii)ペルソナは最大で40層デコーダのみのトランスフォーマーの28層に局在し、共有する。
- 参考スコア(独自算出の注目度): 0.10312968200748114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering has emerged as a powerful tool for shaping the behaviour of large language models at inference time, yet most prior work injects a \emph{single} semantic direction into the residual stream. We study the richer setting in which two semantically opposing steering vectors are superimposed -- a regime we call \textbf{Creative Collision}. Concretely, we construct directorial persona vectors for Steven Spielberg (optimistic, redemptive moral valence) and Martin Scorsese (dark, morally ambiguous) via mean-difference activation contrast on curated screenplay-derived corpora, then interpolate between them with a scalar mixing parameter $α\in [0,1]$ and a steering coefficient $λ$. Across five evaluation axes -- moral valence, generation coherence, surface style, directional dominance, and vector geometry -- three principal findings emerge: (i)~Spielberg's representational signature exhibits robust \emph{directional dominance}, suppressing Scorsese's moral influence across almost the entire interpolation range; (ii)~intermediate collision points paradoxically \emph{improve} generation coherence relative to pure single-director steering at high $λ$; and (iii)~both personas localise maximally to layer~28 of a 40-layer decoder-only transformer, revealing a shared \emph{moral-tone substrate}. These results illuminate the geometry of competing semantic directions in transformer residual streams and have direct implications for controllable creative generation and value-aligned narrative synthesis.
- Abstract(参考訳): アクティベーションステアリング(Activation steering)は、推論時に大きな言語モデルの振る舞いを形作る強力なツールとして登場したが、ほとんどの以前の作業では、残留ストリームに \emph{single} セマンティックな方向を注入している。
2つの意味論的に対立するステアリングベクトルが重畳されるよりリッチな設定について研究する。
具体的には,Steven Spielberg (最適化的,償却的道徳的価値) と Martin Scorsse (道徳的曖昧さ) のディレクトリペルソナベクトルを,スクリーンプレイ由来のコーパスの平均差アクティベーションコントラストを用いて構築し,スカラー混合パラメータ $α\in [0,1]$ とステアリング係数 $λ$ で補間する。
5つの評価軸 -- 道徳的価値、生成コヒーレンス、表面スタイル、方向支配、ベクトル幾何学 -- にまたがって、3つの主要な発見が浮かび上がった。
(i)~シュピールベルクの表現記号は強固な 'emph{directional dominance' を示し、ほとんど全ての補間範囲にわたってスコッセの道徳的影響を抑える。
(ii)〜中間衝突点パラドックス的に \emph{improve} 生成コヒーレンス
(iii)—ペルソナは最大で40層デコーダのみの変換器の層~28に局在し、共有の \emph{moral-tone substrate} を示す。
これらの結果は,変圧器残流における競合する意味方向の幾何学を照らし,制御可能な創造的生成と価値整合な物語合成に直接的な意味を持つ。
関連論文リスト
- DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation [54.860960182207236]
そこで我々はDynaFLIPを紹介した。DynaFLIPは動作理解を上流の知覚へと押し上げるマルチモーダル事前学習フレームワークである。
ヘテロジニアスな人間とロボットのビデオから画像言語による3Dフロートレーレットを構築し、これらのトレーレットを訓練時間監視として使用し、画像のみのエンコーダを形成する。
この結果から,ロボットの汎用化は,視覚表現の訓練によって,現在存在するものだけでなく,動作中の世界の変化をコード化することで向上することが示唆された。
論文 参考訳(メタデータ) (2026-05-28T17:59:53Z) - Intrinsic Guardrails: How Semantic Geometry of Personality Interacts with Emergent Misalignment in LLMs [9.485206628921857]
有害な微調整はモデルの内部表現を上書きしないことを示す。
その結果,有害な微調整がモデルの内部表現を上書きしないことが示唆された。
論文 参考訳(メタデータ) (2026-05-11T14:21:57Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - Unifying Language-Action Understanding and Generation for Autonomous Driving [25.23561391638388]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。
既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。
LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
論文 参考訳(メタデータ) (2026-03-02T04:41:10Z) - FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation [23.19464039872024]
FlowHOIは、時間的にコヒーレントなHOIシーケンスを生成するフローマッチングフレームワークである。
本研究では,FlowHOIが最も高い動作認識精度と1.7$times$高い物理シミュレーション成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-02-13T20:46:08Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。