Page 47 - 2025年第56卷第9期
P. 47
表 3 不同模态组合下的活动识别精度
模态 Acc P R F1
运动学 0.6677 0.6359 0.6722 0.6536
声学 0.7516 0.7798 0.7481 0.7636
视觉 0.9176 0.8601 0.8871 0.8734
运动学+声学 0.7549 0.8335 0.7826 0.8072
运动学+视觉 0.9198 0.9216 0.8496 0.8841
声学+视觉 0.9411 0.9456 0.9125 0.9287
运动学+声学+视觉 0.9814 0.9673 0.9621 0.9647
表 4 不同模态数据对于不同标签分类效果的影响
标签 模态 Acc P R F1
运动学 0.7512 0.7767 0.6982 0.7354
声学 0.6871 0.7498 0.7118 0.7303
空载运输
视觉 0.9131 0.8095 0.9145 0.8588
融合模态 0.9789 0.9757 0.9800 0.9778
运动学 0.5524 0.5074 0.6875 0.5839
声学 0.7829 0.7890 0.7825 0.7858
挖掘土料
视觉 0.9304 0.9106 0.9375 0.9239
融合模态 0.9857 0.9412 0.9478 0.9445
运动学 0.7741 0.7505 0.7225 0.7362
声学 0.6814 0.7010 0.7455 0.7226
重载运输
视觉 0.9229 0.8753 0.8775 0.8764
融合模态 0.9849 0.9899 0.9375 0.9630
运动学 0.4993 0.5278 0.5759 0.5508
声学 0.8071 0.7692 0.7282 0.7482
倾倒土料
视觉 0.8912 0.8306 0.8052 0.8177
融合模态 0.9699 0.9551 0.9809 0.9678
运动学 0.8571 0.7746 0.6156 0.6860
声学 0.9769 0.9561 0.9869 0.9713
静止
视觉 0.9571 0.9154 0.8811 0.8979
融合模态 0.9974 0.9896 0.9819 0.9857
由以上试验分析可得:运动学数据对于挖掘土料、倾倒土料两种动作的识别效果较差,仅有 55%
和 50%,而对于空载运输、重载运输的识别效果明显优于前两者,达到 75% 和 77%,这可能与集成传
感器的布设方式和装载机在地下洞室中的运动模式有关,由于集成传感器布设在装载机驾驶舱内部,
而在执行挖掘和倾倒土料等铲斗动作时,驾驶舱的运动学变化并不明显,因而导致这两种状态的识别
精度较低;而对于空载运输、重载运输,在地下洞室施工环境中,空载运输和重载运输大多表现为单
一前向行进和后向倒退,运动学数据在加速度上有较为明显的差异,因此识别效果要优于铲斗相关的
动作。声学数据对于空载运输、重载运输两种活动的识别效果较差,分别为 69% 和 68%,这是由于空
载运输、重载运输两种活动状态的声学特征没有明显的差异造成的。视觉数据对于不同活动类别的识
别效果较为稳定,除静止状态外,其余四种活动状态的各项指标均优于单独的声学和运动学模态,这
是由于视觉数据包含了更丰富的空间时间信息,可以捕捉到识别对象的动作轨迹、与物体的交互等细
节,为模型供了丰富的上下文信息,因此表现出更好的识别效果。
图 8 所示的混淆矩阵进一步验证了上述分析,在地下施工环境中,运动学数据对于装载机的挖掘
— 1151 —

