甬知汇专利检索平台

专利标题：一种基于跨模态融合和可学习权重的视频非刚体运动目标分割方法
申请号：CN202510041084.1 申请日：2025-01-10
公开(公告)号：CN120182881A 公开(公告)日：2025-06-20
发明人：石凡 , 李佩珊 , 王绵沼
申请人：天津理工大学
申请人地址：天津市西青区宾水西道391号
专利权人：天津理工大学
当前专利权人：天津理工大学
当前专利权人地址：天津市西青区宾水西道391号
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V10/26 ; G06V10/80 ; G06V10/82 ; G06T7/557 ; G06N3/0455 ; G06N3/0464 ; G06N3/084

摘要：

本发明涉及一种基于跨模态融合和可学习权重的视频非刚体运动目标分割方法，首先采用优化旋转平行四边形算子与极平面图像技术对光场图像中的多视角数据进行处理，提取光场特征。得到的光场信息作为输入，将RGB特征与光场特征通过加权特征融合网络有效结合这两种模态的信息，强化图像的几何特征。在分割过程中，光场深度特征图与标签权重预测图相结合，得到最终的权重预测。将预测的权重图、标签预测器预测的标签以及当前帧的跨模态融合特征图，输入进少样本学习器中，通过反向传播算法更新目标模型的参数，自适应地调整标签权重，为后续帧中的分割任务提供指导。最后，将目标模型输出的掩码编码以及融合特征一起输入进解码器中，生成最终的分割结果图。本发明提出的方法能够将非刚体目标在低光且有遮挡的场景下分割出准确的结果，且只需要少量的数据集，减少了视频分割数据集的标注成本。

中国专利公布公告审查信息 Global Dossier Espacenet

G	物理
--G06	计算；推算；计数
----G06V	图像或视频识别或理解笔记 1.本子类涵盖：特别适用于图像或视频的模式识别或机器学习的方法或安排。 2.在本小类中，下列术语或表述的使用具有指明的含义： “模式识别”是指通过获取、预处理或提取显着特征并对这些特征或其表示进行匹配、聚类或分类，对模式进行检测、分类、认证和识别，以用于解释目的或在图像或视频中推导出某种含义； “特征提取”是指从图像或视频中得出描述性或定量的度量； “聚类”是指根据模式的（不同）相似性或接近程度对模式进行分组或分离； “分类”是指通过分配标签将对象/特征识别为属于一类对象/特征。 3.在本小类中，归入G06V20/00-G06V40/00组的主题，如果识别依赖于获取或预处理阶段的特定处理，则也分别归入G06V10/10或G06V10/20组。
------G06V20/00	场景；特定场景元素
--------G06V20/40	.在视频内容中（提取叠加文本G06V20/62）（视频检索G06F16/70）（在视频服务器中处理视频基本流H04N21/234）

发明公开 CN120182881A 一种基于跨模态融合和可学习权重的视频非刚体运动目标分割方法 审中-公开

基本信息:

信息查询:

IPC结构图谱:

甬知汇

热门服务