Page 44 - 2025年第56卷第9期

P. 44

跨模态 Transformer 能够使一种模态接收来
自另一种模态的信息［27］，以视觉信息（V）传递
给运动学信号（P）示例，表示为 V → P。将每
个跨模态注意力块的维度 d α，β，k，v 固定为 d。每

个跨模态 Transformer 块由多层跨模态注意力块
组成（如图 5）。跨模态 Transformer 按照 i=1，2，
…，D 层进行前馈计算，Z V → P 表示从模态 V 传
[ ] 0
̂ [ ] i
递到模态 P 的初始状态，Z V → P 表示在第 i 层经
过多头注意力机制和层归一化处理后的中间结
果，Z V → P 表示在第 i 层经过位置前馈子层和层
[ ] i
归一化处理后的输出：
[ ] 0 [ ] 0 （8）
Z V → P = Z P
]
[ ] i
̂ [ ] i
Z V → P = CM V → P ( LN (Z V → P )，
[ i - 1
[ ] 0 [ i - 1 ]
LN (Z V )) + LN (Z V → P ) （9）
[ ] i ̂ [ ] i ̂ [ ] i
Z V → P = f [ ] i ( LN (Z V → P )) + LN (Z V → P )（10）图 5 跨模态 transformer 单元结构
θ V → P
（以视觉信息 V 传递给运动学信号 P 为例）
式中： f θ 为以 θ 为参数的位置前馈子层；
[ ] i ，mul
CM V → P 表示位于第 i 层的 CM V → P 的多头版本；
LN 表示层归一化。
在这个过程中，每种模态都会通过来自跨模态注意力块的低级外部信息不断更新自己的序列。在
跨模态注意力块的每个层上，原模态的低层次信号都会被转换为一组不同的键值对，以便与目标模态
进行交互。通过跨模态注意力获得运动学对声学、视觉，声学对运动学、视觉，视觉对运动学、声
学，6 组跨模态交互模态特征，分别表示为 Z P → A 、Z P → V 、Z A → P 、Z A → V 、Z V → P 、Z V → A 。
4.2.2 基于自注意力机制的模态内特征融合自注意力机制通过计算序列中每个元素对其它元素的影
响，来动态捕捉序列内部的关联性。它会对序列中的每个元素生成查询向量（Q）、键向量（K）和值向
量（U），通过计算序列中元素的查询向量与键向量的兼容性分数来确定其重要性，并利用这些分数加
( )
权值向量生成综合的信息输出。查询向量与键向量点积相似度的计算公式为：
QKU
T
Attention( Q，K，U) = Softmax d k （11）

式中 d k 为键向量的维度，用于缩放点积结果，避免数值过大。Softmax 函数将相似度得分归一化为概
率分布，其计算公式为：
e Z i
Softmax( Z i) = （12）
∑ e Z j
自注意力机制使模型能够动态地关注序列中最重要的部分，而不是对所有输入数据“平等”地处
理，使得模型能够更有效地捕捉重要信息，提高了模型处理复杂序列数据的能力。
每对输出的交互特征分别被用于模拟不同模态之间的交互作用，对于不同的目标模态，为进一步
获取每一种交互模态内部的相关性和贡献度分配，在每种模态的交互特征内部，分别再应用一次自注
意力机制，具体表示为：
Z V = Attention (Z P → V ⊕Z A → V ) （13）

Z A = Attention (Z P → A ⊕Z V → A ) （14）
Z P = Attention (Z A → P ⊕Z V → P ) （15）
式中⊕表示拼接操作。
通过上述操作，得到能够充分意识到相邻模态信息的多模态混合特征 Z V 、Z A 、Z P 。

— 1148 —

39 40 41 42 43 44 45 46 47 48 49