说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210535565.4 (22)申请日 2022.05.17 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 (72)发明人 陈洁茹 万根顺 高建清 潘嘉  刘聪 王智国 胡国平  (74)专利代理 机构 北京布瑞知识产权代理有限 公司 11505 专利代理师 尚文文 (51)Int.Cl. G10L 25/30(2013.01) G10L 25/27(2013.01) G10L 25/51(2013.01) G10L 25/87(2013.01)G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称 语音内容检测方法、 模 型训练方法及相关装 置 (57)摘要 本申请提出一种语音内容检测方法、 模型训 练方法、 装置、 电子设备及存储介质, 该方法包 括: 将目标语音的音 频数据以及所述目标语音对 应的视频数据, 输入预先训练的多模态音频帧分 类网络, 得到对 所述目标语音的各个音频帧的分 类结果; 其中, 所述目标语音对应的视频数据中 包含所述目标语音的说话人的面部影像; 所述多 模态音频帧分类网络, 是与辅助训练网络联合训 练得到的、 用于将音频帧分类为语音帧或非语音 帧的神经网络; 在所述联合训练过程中, 所述辅 助训练网络以语音训练样本的文本标签为训练 标签, 对语音训练样本进行语音内容识别训练。 上述方法能够提高语音内容检测的准确度。 权利要求书3页 说明书19页 附图5页 CN 115101090 A 2022.09.23 CN 115101090 A 1.一种语音内容检测方法, 其特 征在于, 包括: 将目标语音的音频数据以及所述目标语音对应的视频数据, 输入预先训练的多模态音 频帧分类网络, 得到对所述目标语音的各个音频帧的分类结果; 其中, 所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像; 所述 多模态音频帧分类网络, 是与辅助训练网络联合训练得到的、 用于将音频帧分类为语音帧 或非语音帧的神经网络; 在所述联合训练过程中, 所述辅助训练网络以语音训练样本的文 本标签为训练标签, 对语音训练样本进行语音内容识别训练。 2.根据权利要求1所述的方法, 其特征在于, 所述多模态音频帧分类网络将所述目标语 音的音频帧分类为语音帧或非语音帧的处 理过程包括: 将目标语音的音频数据输入预先训练的音频特征提取网络, 得到目标语音的音频特 征; 以及, 将所述目标语音对应的视频数据输入预先训练的唇形特征提取网络, 得到所述目 标语音对应的说话人的唇 形特征; 根据所述音频特征以及所述唇形特征, 将所述目标语音的音频帧分类为语音帧或非语 音帧; 其中, 所述音频特征提取网络与所述唇形特征提取网络通过特征一致性联合训练得 到。 3.根据权利要求1或2所述的方法, 其特征在于, 所述辅助训练网络, 包括第 一辅助训练 网络, 所述第一辅助训练网络用于对音频 数据的音频帧进行音素分类处 理。 4.根据权利要求3所述的方法, 其特征在于, 所述辅助训练网络, 还包括第二辅助训练 网络, 所述第二辅助训练网络用于对音频 数据进行语音识别处 理。 5.根据权利要求3所述的方法, 其特征在于, 所述辅助训练网络, 还包括第三辅助训练 网络, 所述第三辅助训练网络用于基于音频 数据以及视频 数据进行多模态语音识别处 理。 6.根据权利要求2所述的方法, 其特征在于, 所述音频特征提取网络与 所述唇形特征提 取网络的特 征一致性联合训练过程, 包括: 利用音频特征提取网络对语音训练样本进行音频特征提取, 得到音频特征, 以及, 利用 唇形特征提取网络对所述语音训练样本对应的视频训练样本进行唇形特征提取, 得到唇形 特征; 通过对比所述音频 特征和所述唇 形特征, 确定对比损失函数; 根据所述对比损失函数, 对所述音频特征提取网络和所述唇形特征提取网络进行参数 校正, 以使所述音频特征提取网络提取的音频特征和所述唇形特征提取网络提取的唇形特 征更匹配。 7.根据权利要求2所述的方法, 其特征在于, 根据所述音频特征以及所述唇形特征, 将 所述目标语音的音频帧分类为语音帧或非语音帧, 包括: 对所述音频 特征和所述唇 形特征进行融合处 理, 得到音唇融合特 征; 根据所述音唇融合特 征, 将所述目标语音的音频帧分类为语音帧或非语音帧。 8.根据权利要求7所述的方法, 其特征在于, 对所述音频特征和所述唇形特征进行融合 处理, 得到音唇融合特 征, 包括: 对所述音频特征和所述唇形特征进行时间对齐处理, 以使每帧音频特征和每帧唇形特 征的特征维度相同;权 利 要 求 书 1/3 页 2 CN 115101090 A 2将时间对齐后的所述音频 特征和所述唇 形特征进行拼接, 得到音唇融合特 征; 或者, 将时间对齐后的所述音频 特征和所述唇 形特征进行拼接, 得到音视频拼接特 征; 利用所述音频 特征对所述音视频拼接特 征进行特征过滤, 得到过 滤特征; 将所述音频 特征与所述过 滤特征进行拼接, 得到音唇融合特 征。 9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据对所述目标语音的各个音频帧的分类结果, 确定所述目标语音的有 效语音起止时 间。 10.一种语音内容检测方法, 其特 征在于, 包括: 获取目标语音的音频 特征, 以及所述目标语音对应的说话人的唇 形特征; 将所述音频特征以及所述唇形特征输入多模态音频帧分类网络, 得到对所述目标语音 的各个音频帧的分类结果; 其中, 所述多模态音频帧分类网络, 是与辅助训练网络联合训练得到的、 用于将音频帧 分类为语音帧或非语音帧的神经网络; 在所述联合训练过程中, 所述辅助训练网络以语音 训练样本的文本标签为训练标签, 进行对所述语音训练样本的语音内容识别训练。 11.一种模型训练方法, 其特 征在于, 包括: 利用语音训练样本以及所述语音训练样本对应的视频训练样本, 对多模态音频帧分类 网络以及辅助训练网络进行 联合训练; 其中, 所述语音训练样本对应的视频训练样本中, 包含所述语音训练样本的说话人的 面部影像; 在所述联合训练过程中, 所述多模态音频帧分类网络以语音训练样本的语音端 点检测标签为训练标签, 进行语音帧或非语音帧的音频帧分类训练, 所述辅助训练网络以 语音训练样本的文本标签为训练标签, 对语音训练样本进行语音内容识别训练。 12.一种语音内容检测装置, 其特 征在于, 包括: 检测处理单元, 用于将目标语音的音频数据以及所述目标语音对应的视频数据, 输入 预先训练的多模态音频帧分类网络, 得到对所述目标语音的各个音频帧的分类结果; 其中, 所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像; 所述 多模态音频帧分类网络, 是与辅助训练网络联合训练得到的、 用于将音频帧分类为语音帧 或非语音帧的神经网络; 在所述联合训练过程中, 所述辅助训练网络以语音训练样本的文 本标签为训练标签, 对语音训练样本进行语音内容识别训练。 13.一种语音内容检测装置, 其特 征在于, 包括: 特征获取单元, 用于获取目标语音的音频特征, 以及所述目标语音对应的说话人的唇 形特征; 特征处理单元, 用于将所述音频特征以及所述唇形特征输入多模态音频帧分类网络, 得到对所述目标语音的各个音频帧的分类结果; 其中, 所述多模态音频帧分类网络, 是与辅助训练网络联合训练得到的、 用于将音频帧 分类为语音帧或非语音帧的神经网络; 在所述联合训练过程中, 所述辅助训练网络以语音 训练样本的文本标签为训练标签, 进行对所述语音训练样本的语音内容识别训练。 14.一种模型训练装置, 其特 征在于, 包括: 训练处理单元, 用于利用语音训练样本以及所述语音训练样本对应的视频训练样本,权 利 要 求 书 2/3 页 3 CN 115101090 A 3

.PDF文档 专利 语音内容检测方法、模型训练方法及相关装置

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语音内容检测方法、模型训练方法及相关装置 第 1 页 专利 语音内容检测方法、模型训练方法及相关装置 第 2 页 专利 语音内容检测方法、模型训练方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:51:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。