专利 语音内容检测方法、模型训练方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210535565.4 (22)申请日 2022.05.17 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新区望江西路666号 (72)发明人陈洁茹　万根顺　高建清　潘嘉　刘聪　王智国　胡国平　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师尚文文 (51)Int.Cl. G10L 25/30(2013.01) G10L 25/27(2013.01) G10L 25/51(2013.01) G10L 25/87(2013.01)G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称语音内容检测方法、模型训练方法及相关装置 (57)摘要本申请提出一种语音内容检测方法、模型训练方法、装置、电子设备及存储介质，该方法包括：将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像；所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。上述方法能够提高语音内容检测的准确度。权利要求书3页说明书19页附图5页 CN 115101090 A 2022.09.23 CN 115101090 A 1.一种语音内容检测方法，其特征在于，包括：将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像；所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。 2.根据权利要求1所述的方法，其特征在于，所述多模态音频帧分类网络将所述目标语音的音频帧分类为语音帧或非语音帧的处理过程包括：将目标语音的音频数据输入预先训练的音频特征提取网络，得到目标语音的音频特征；以及，将所述目标语音对应的视频数据输入预先训练的唇形特征提取网络，得到所述目标语音对应的说话人的唇形特征；根据所述音频特征以及所述唇形特征，将所述目标语音的音频帧分类为语音帧或非语音帧；其中，所述音频特征提取网络与所述唇形特征提取网络通过特征一致性联合训练得到。 3.根据权利要求1或2所述的方法，其特征在于，所述辅助训练网络，包括第一辅助训练网络，所述第一辅助训练网络用于对音频数据的音频帧进行音素分类处理。 4.根据权利要求3所述的方法，其特征在于，所述辅助训练网络，还包括第二辅助训练网络，所述第二辅助训练网络用于对音频数据进行语音识别处理。 5.根据权利要求3所述的方法，其特征在于，所述辅助训练网络，还包括第三辅助训练网络，所述第三辅助训练网络用于基于音频数据以及视频数据进行多模态语音识别处理。 6.根据权利要求2所述的方法，其特征在于，所述音频特征提取网络与所述唇形特征提取网络的特征一致性联合训练过程，包括：利用音频特征提取网络对语音训练样本进行音频特征提取，得到音频特征，以及，利用唇形特征提取网络对所述语音训练样本对应的视频训练样本进行唇形特征提取，得到唇形特征；通过对比所述音频特征和所述唇形特征，确定对比损失函数；根据所述对比损失函数，对所述音频特征提取网络和所述唇形特征提取网络进行参数校正，以使所述音频特征提取网络提取的音频特征和所述唇形特征提取网络提取的唇形特征更匹配。 7.根据权利要求2所述的方法，其特征在于，根据所述音频特征以及所述唇形特征，将所述目标语音的音频帧分类为语音帧或非语音帧，包括：对所述音频特征和所述唇形特征进行融合处理，得到音唇融合特征；根据所述音唇融合特征，将所述目标语音的音频帧分类为语音帧或非语音帧。 8.根据权利要求7所述的方法，其特征在于，对所述音频特征和所述唇形特征进行融合处理，得到音唇融合特征，包括：对所述音频特征和所述唇形特征进行时间对齐处理，以使每帧音频特征和每帧唇形特征的特征维度相同；权　利　要　求　书 1/3 页 2 CN 115101090 A 2将时间对齐后的所述音频特征和所述唇形特征进行拼接，得到音唇融合特征；或者，将时间对齐后的所述音频特征和所述唇形特征进行拼接，得到音视频拼接特征；利用所述音频特征对所述音视频拼接特征进行特征过滤，得到过滤特征；将所述音频特征与所述过滤特征进行拼接，得到音唇融合特征。 9.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据对所述目标语音的各个音频帧的分类结果，确定所述目标语音的有效语音起止时间。 10.一种语音内容检测方法，其特征在于，包括：获取目标语音的音频特征，以及所述目标语音对应的说话人的唇形特征；将所述音频特征以及所述唇形特征输入多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，进行对所述语音训练样本的语音内容识别训练。 11.一种模型训练方法，其特征在于，包括：利用语音训练样本以及所述语音训练样本对应的视频训练样本，对多模态音频帧分类网络以及辅助训练网络进行联合训练；其中，所述语音训练样本对应的视频训练样本中，包含所述语音训练样本的说话人的面部影像；在所述联合训练过程中，所述多模态音频帧分类网络以语音训练样本的语音端点检测标签为训练标签，进行语音帧或非语音帧的音频帧分类训练，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。 12.一种语音内容检测装置，其特征在于，包括：检测处理单元，用于将目标语音的音频数据以及所述目标语音对应的视频数据，输入预先训练的多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述目标语音对应的视频数据中包含所述目标语音的说话人的面部影像；所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，对语音训练样本进行语音内容识别训练。 13.一种语音内容检测装置，其特征在于，包括：特征获取单元，用于获取目标语音的音频特征，以及所述目标语音对应的说话人的唇形特征；特征处理单元，用于将所述音频特征以及所述唇形特征输入多模态音频帧分类网络，得到对所述目标语音的各个音频帧的分类结果；其中，所述多模态音频帧分类网络，是与辅助训练网络联合训练得到的、用于将音频帧分类为语音帧或非语音帧的神经网络；在所述联合训练过程中，所述辅助训练网络以语音训练样本的文本标签为训练标签，进行对所述语音训练样本的语音内容识别训练。 14.一种模型训练装置，其特征在于，包括：训练处理单元，用于利用语音训练样本以及所述语音训练样本对应的视频训练样本，权　利　要　求　书 2/3 页 3 CN 115101090 A 3

专利 语音内容检测方法、模型训练方法及相关装置

专利语音内容检测方法、模型训练方法及相关装置