
基本信息:
- 专利标题: 一种基于视听骨融合的语音增强方法和装置
- 申请号:CN202411847711.2 申请日:2024-12-16
- 公开(公告)号:CN119851678A 公开(公告)日:2025-04-18
- 发明人: 印二威 , 郑昌艳 , 吴逸磊 , 张亚坤 , 张星昱 , 张敬 , 谢良 , 赵少楷 , 闫野
- 申请人: 中国人民解放军军事科学院国防科技创新研究院
- 申请人地址: 北京市丰台区东大街53号
- 专利权人: 中国人民解放军军事科学院国防科技创新研究院
- 当前专利权人: 中国人民解放军军事科学院国防科技创新研究院
- 当前专利权人地址: 北京市丰台区东大街53号
- 代理机构: 北京奥文知识产权代理事务所(普通合伙)
- 代理人: 张文; 郑泽祥
- 主分类号: G10L21/0208
- IPC分类号: G10L21/0208 ; G10L21/0216 ; G10L21/0264 ; G10L25/30
摘要:
本发明公开了一种基于视听骨融合的语音增强方法和装置,所述方法包括:获取语音增强训练数据集;利用所述语音增强训练数据集,对预设的语音增强模型进行训练处理,得到训练完毕的语音增强模型;采集得到用户在讲话状态下的多模态数据集;所述多模态数据集,包括视频数据、气导数据和骨导数据;所述多模态数据集,是基于同一时间基准采集得到;利用所述训练完毕的语音增强模型,对所述多模态数据集进行处理,得到增强语音信息。本发明能够有效利用三模态的信息应对高噪声环境下的语音增强挑战,在特定说话人增强和说话人分离方面取得显著成效。此外,本发明还克服了在视听语音增强中光照变化和人体头部姿态运动带来的干扰,以及气骨语音增强中高频信息缺失的挑战,进一步优化了语音增强的稳定性和准确性。
IPC结构图谱:
G | 物理 |
--G10 | 乐器;声学 |
----G10L | 语言分析或合成;语言识别 |
------G10L21/00 | 为了改变语音信号的品质或其可理解性而处理语音信号以产生另一种可听的或非可听的信号,例如视觉信号、触觉信号 |
--------G10L21/003 | .改变声音质量,例如音调或共振峰 |
----------G10L21/0208 | ..噪声过滤 |