(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210540239.2
(22)申请日 2022.05.18
(71)申请人 京东科技控股 股份有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科创十一 街18号C座2层2 21室
(72)发明人 石凡 刘颖璐 左佳伟 王林芳
张炜 梅涛
(74)专利代理 机构 中国贸促会专利商标事务所
有限公司 1 1038
专利代理师 孙玉 许蓓
(51)Int.Cl.
G06T 13/40(2011.01)
G06V 10/80(2022.01)
G06V 10/40(2022.01)
G06V 10/77(2022.01)G06V 10/82(2022.01)
G06V 40/16(2022.01)
G06K 9/62(2022.01)
(54)发明名称
表情生成方法、 装置和表情生 成模型的训练
方法、 装置
(57)摘要
本公开涉及一种表情生 成方法、 装置和表情
生成模型的训练方法、 装置, 涉及计算机技术领
域。 本公开的方法包括: 获取原视频中每帧图像
的特征信息、 人脸关键点的特征信息和原表情的
分类信息; 将每帧图像的特征信息、 人脸关键点
的特征信息、 原表情的分类信息与目标表情对应
的预设分类信息进行融合, 得到每帧图像对应的
融合图像的特征信息; 根据每帧图像对应的融合
图像的特征信息, 生成每帧图像对应的融合图
像, 得到所有图像对应的融合图像形成的人脸表
情是目标表情的目标视频。
权利要求书5页 说明书14页 附图5页
CN 115035219 A
2022.09.09
CN 115035219 A
1.一种表情生成方法, 包括:
获取原视频中每帧图像的特 征信息、 人脸关键点的特 征信息和原 表情的分类信息;
将每帧图像的特征信息、 人脸关键点的特征信息、 原表情的分类信息与目标表情对应
的预设分类信息进行融合, 得到所述每帧图像对应的融合图像的特 征信息;
根据所述每帧图像对应的融合图像的特征信息, 生成所述每帧图像对应的融合图像,
得到所有图像对应的融合图像形成的人脸表情是目标表情的目标视频。
2.根据权利要求1所述的表情生成方法, 其中, 所述获取原视频中每帧图像的特征信
息、 人脸关键点的特 征信息包括:
将所述原视频中每帧图像输入人脸特征提取模型, 得到输出的所述每帧图像的特征信
息;
将所述每帧图像的特征信 息输入人脸关键点检测模型, 得到所述每帧图像的人脸关键
点的坐标信息;
采用主成分分析法对所有人脸关键点的坐标信息进行降维, 得到预设维度的信息, 作
为所述人脸关键点的特 征信息。
3.根据权利要求2所述的表情生成方法, 其中, 获取原视频中每帧图像的原表情的分类
信息包括:
将所述每帧图像的特征信 息输入表情分类模型, 得到所述每帧图像的原表情的分类信
息。
4.根据权利要求1所述的表情生成方法, 其中, 所述将每帧图像的特征信息、 人脸关键
点的特征信息、 原 表情的分类信息与目标表情对应的预设 分类信息进行融合包括:
将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和
取平均, 得到所述每帧图像对应的融合表情的分类信息;
将与训练得到的第 一权重相乘后的所述每帧图像的人脸关键点的特征信 息, 与训练得
到的第二权重相乘后的所述每帧图像的特征信息, 以及所述每帧图像对应的融合表情的分
类信息进行拼接 。
5.根据权利要求2所述的表情生成方法, 其中, 所述根据 所述每帧图像对应的融合图像
的特征信息, 生成所述每帧图像对应的融合图像包括:
将所述每帧图像对应的融合图像的特征信 息输入解码器, 输出生成的所述每帧图像对
应的融合图像;
其中, 所述人脸特 征提取模型包括卷积层, 所述 解码器包括反卷积层。
6.一种表情生成模型的训练方法, 包括:
获取由原训练视频的各帧图像与目标训练视频的各帧图像组成的训练对;
将所述原训练视频的各帧图像输入第 一生成器, 获取所述原训练视频的各帧图像的特
征信息、 人脸关键点的特征信息和原表情的分类信息, 将所述原训练视频的各帧图像的特
征信息、 人脸关键点的特征信息、 原表情的分类信息和目标表情对应的预设分类信息进行
融合, 得到所述原训练视频对应的各帧融合图像的特征信息, 根据所述原训练视频对应的
各帧融合图像的特征信息, 得到所述第一生成器输出的所述原训练视频对应的各帧融合图
像;
将所述目标训练视频各帧图像输入第 二生成器, 获取所述目标训练视频的各帧图像的权 利 要 求 书 1/5 页
2
CN 115035219 A
2特征信息、 人脸关键点的特征信息和目标表情的分类信息, 将所述 目标训练视频的各帧图
像的特征信息、 人脸关键点的特征信息、 目标表情的分类信息和原表情对应的预设分类信
息进行融合, 得到所述 目标训练视频对应的各帧融合图像的特征信息, 根据所述 目标训练
视频对应的各帧融合图像的特征信息, 得到所述第二生成器输出的所述目标训练视频对应
的各帧融合图像;
根据所述原训练视频对应的各帧融合图像、 所述目标训练视频对应的各帧融合图像,
确定对抗损失和循环一 致损失;
根据所述对抗损失和循环一 致损失, 对所述第一 生成器和所述第二 生成器进行训练。
7.根据权利要求6所述的训练方法, 还 包括:
根据所述原训练视频对应的每相邻 两帧融合图像之间的像素差异, 以及所述目标训练
视频对应的每相邻两帧融合图像之间的像素差异, 确定像素对像素损失;
其中, 所述根据所述对抗损 失和循环一致损 失, 对所述第一生成器和所述第二生成器
进行训练包括:
根据所述对抗损 失、 所述循环一致损 失和所述像素对像素损 失, 对所述第一生成器和
所述第二 生成器进行训练。
8.根据权利要求6或7所述的训练方法, 其中, 所述根据所述原训练视频对应的各帧融
合图像、 所述目标训练视频对应的各帧融合图像, 确定对抗损失包括:
将所述原训练视频对应的各帧融合图像输入第 一判别器, 得到所述原训练视频对应的
各帧融合图像的第一判别结果;
将所述目标训练视频对应的各帧融合图像输入第 二判别器, 得到所述目标训练视频对
应的各帧融合图像的第二判别结果;
根据所述原训练视频对应的各帧融合图像的第一判别结果, 确定第一对抗损 失, 根据
所述目标训练视频对应的各帧融合图像的第二判别结果确定第二对抗损失。
9.根据权利要求8所述的训练方法, 其中, 将所述原训练视频对应的各帧融合图像输入
第一判别器, 得到所述原训练视频对应的各帧融合图像的第一判别结果包括:
将所述原训练视频对应的各帧融合图像输入所述第一判别器中第一人脸特征提取模
型, 得到输出的所述原训练视频对应的各帧融合图像的特 征信息;
将所述原训练视频对应的各帧融合图像的特征信息输入所述第一判别器中的第一表
情分类模型, 得到所述原训练视频对应的各帧融合图像的表情的分类信息, 作为第一判别
结果;
所述将所述目标训练视频对应的各帧融合图像输入第 二判别器, 得到所述目标训练视
频对应的各帧融合图像的第二判别结果包括:
将所述目标训练视频对应的各帧融合图像输入所述第二判别器中第二人脸特征提取
模型, 得到 输出的所述目标训练视频对应的各帧融合图像的特 征信息;
将所述目标训练视频对应的各帧融合图像的特征信息输入所述第二判别器中的第二
表情分类模型, 得到所述 目标训练视频对应的各帧融合图像的表情的分类信息, 作为第二
判别结果。
10.根据权利要求6或7 所述的训练方法, 其中, 所述循环一 致损失采用以下 方法确定:
将所述原训练视频对应的各帧融合图像输入所述第 二生成器, 生成所述原训练视频的权 利 要 求 书 2/5 页
3
CN 115035219 A
3
专利 表情生成方法、装置和表情生成模型的训练方法、装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:51上传分享