专利 表情生成方法、装置和表情生成模型的训练方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210540239.2 (22)申请日 2022.05.18 (71)申请人京东科技控股股份有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号C座2层2 21室 (72)发明人石凡　刘颖璐　左佳伟　王林芳　张炜　梅涛　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师孙玉　许蓓 (51)Int.Cl. G06T 13/40(2011.01) G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/77(2022.01)G06V 10/82(2022.01) G06V 40/16(2022.01) G06K 9/62(2022.01) (54)发明名称表情生成方法、装置和表情生成模型的训练方法、装置 (57)摘要本公开涉及一种表情生成方法、装置和表情生成模型的训练方法、装置，涉及计算机技术领域。本公开的方法包括：获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到每帧图像对应的融合图像的特征信息；根据每帧图像对应的融合图像的特征信息，生成每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。权利要求书5页说明书14页附图5页 CN 115035219 A 2022.09.09 CN 115035219 A 1.一种表情生成方法，包括：获取原视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到所述每帧图像对应的融合图像的特征信息；根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像，得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。 2.根据权利要求1所述的表情生成方法，其中，所述获取原视频中每帧图像的特征信息、人脸关键点的特征信息包括：将所述原视频中每帧图像输入人脸特征提取模型，得到输出的所述每帧图像的特征信息；将所述每帧图像的特征信息输入人脸关键点检测模型，得到所述每帧图像的人脸关键点的坐标信息；采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为所述人脸关键点的特征信息。 3.根据权利要求2所述的表情生成方法，其中，获取原视频中每帧图像的原表情的分类信息包括：将所述每帧图像的特征信息输入表情分类模型，得到所述每帧图像的原表情的分类信息。 4.根据权利要求1所述的表情生成方法，其中，所述将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的所述每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的所述每帧图像的特征信息，以及所述每帧图像对应的融合表情的分类信息进行拼接。 5.根据权利要求2所述的表情生成方法，其中，所述根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像包括：将所述每帧图像对应的融合图像的特征信息输入解码器，输出生成的所述每帧图像对应的融合图像；其中，所述人脸特征提取模型包括卷积层，所述解码器包括反卷积层。 6.一种表情生成模型的训练方法，包括：获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对；将所述原训练视频的各帧图像输入第一生成器，获取所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息，将所述原训练视频的各帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息和目标表情对应的预设分类信息进行融合，得到所述原训练视频对应的各帧融合图像的特征信息，根据所述原训练视频对应的各帧融合图像的特征信息，得到所述第一生成器输出的所述原训练视频对应的各帧融合图像；将所述目标训练视频各帧图像输入第二生成器，获取所述目标训练视频的各帧图像的权　利　要　求　书 1/5 页 2 CN 115035219 A 2特征信息、人脸关键点的特征信息和目标表情的分类信息，将所述目标训练视频的各帧图像的特征信息、人脸关键点的特征信息、目标表情的分类信息和原表情对应的预设分类信息进行融合，得到所述目标训练视频对应的各帧融合图像的特征信息，根据所述目标训练视频对应的各帧融合图像的特征信息，得到所述第二生成器输出的所述目标训练视频对应的各帧融合图像；根据所述原训练视频对应的各帧融合图像、所述目标训练视频对应的各帧融合图像，确定对抗损失和循环一致损失；根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练。 7.根据权利要求6所述的训练方法，还包括：根据所述原训练视频对应的每相邻两帧融合图像之间的像素差异，以及所述目标训练视频对应的每相邻两帧融合图像之间的像素差异，确定像素对像素损失；其中，所述根据所述对抗损失和循环一致损失，对所述第一生成器和所述第二生成器进行训练包括：根据所述对抗损失、所述循环一致损失和所述像素对像素损失，对所述第一生成器和所述第二生成器进行训练。 8.根据权利要求6或7所述的训练方法，其中，所述根据所述原训练视频对应的各帧融合图像、所述目标训练视频对应的各帧融合图像，确定对抗损失包括：将所述原训练视频对应的各帧融合图像输入第一判别器，得到所述原训练视频对应的各帧融合图像的第一判别结果；将所述目标训练视频对应的各帧融合图像输入第二判别器，得到所述目标训练视频对应的各帧融合图像的第二判别结果；根据所述原训练视频对应的各帧融合图像的第一判别结果，确定第一对抗损失，根据所述目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。 9.根据权利要求8所述的训练方法，其中，将所述原训练视频对应的各帧融合图像输入第一判别器，得到所述原训练视频对应的各帧融合图像的第一判别结果包括：将所述原训练视频对应的各帧融合图像输入所述第一判别器中第一人脸特征提取模型，得到输出的所述原训练视频对应的各帧融合图像的特征信息；将所述原训练视频对应的各帧融合图像的特征信息输入所述第一判别器中的第一表情分类模型，得到所述原训练视频对应的各帧融合图像的表情的分类信息，作为第一判别结果；所述将所述目标训练视频对应的各帧融合图像输入第二判别器，得到所述目标训练视频对应的各帧融合图像的第二判别结果包括：将所述目标训练视频对应的各帧融合图像输入所述第二判别器中第二人脸特征提取模型，得到输出的所述目标训练视频对应的各帧融合图像的特征信息；将所述目标训练视频对应的各帧融合图像的特征信息输入所述第二判别器中的第二表情分类模型，得到所述目标训练视频对应的各帧融合图像的表情的分类信息，作为第二判别结果。 10.根据权利要求6或7 所述的训练方法，其中，所述循环一致损失采用以下方法确定：将所述原训练视频对应的各帧融合图像输入所述第二生成器，生成所述原训练视频的权　利　要　求　书 2/5 页 3 CN 115035219 A 3

专利 表情生成方法、装置和表情生成模型的训练方法、装置

专利表情生成方法、装置和表情生成模型的训练方法、装置