(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211354722.8
(22)申请日 2022.11.01
(71)申请人 之江实验室
地址 311100 浙江省杭州市余杭区中泰街
道之江实验室南湖总部
(72)发明人 毛瑞琛 马诗洁 耿卫东 李聪聪
杨森
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 孙孟辉
(51)Int.Cl.
G06T 17/00(2006.01)
G06T 7/40(2017.01)
G06T 5/50(2006.01)
G06V 20/62(2022.01)G06V 30/19(2022.01)
G06V 40/20(2022.01)
(54)发明名称
用于影视智能创作的情景互动的短视频生
成方法及系统
(57)摘要
本发明涉及影视创 作领域, 公开一种用于影
视智能创作的情景互动的短视频生成方法和系
统, 通过预训练的跨模态文本 ‑图像匹配模型和
预训练的语言模 型, 可以实现场景图片和动作序
列的匹配筛选; 基于三维深度估计算法, 计算出
场景图像对应的深度信息, 并通过预设的相机内
参, 估计出该场景图对应的三维信息; 基于smpl ‑
x人体模型, 对用户上传的人体进行参数估计和
纹理贴图, 获取带纹理的人体模型; 通过估计的
三维信息、 动作序列、 带纹理的人体模型、 场景图
片, 合成互动者融于该场景图片的短视频。 本发
明可有效应用于当前影视创作中的分镜稿、 故事
版及预演动画等智能化生 成工作, 对影视创造的
流程具体革 新作用。
权利要求书3页 说明书9页 附图3页
CN 115496863 A
2022.12.20
CN 115496863 A
1.一种用于影视智能创作的情景互动的短视频生成方法, 其特 征在于, 包括以下步骤:
步骤一, 根据用户输入的场景描述, 通过预训练的跨模态文本图像匹配模型, 从场景素
材库中获取到对应描述的场景图片;
步骤二, 输入步骤一获取的场景图片, 经过深度图估计模型, 输出深度信息后利用预设
的相机参数计算得到场景图片对应的三维信息;
步骤三, 根据用户输入的动作描述, 经过预训练语言模型, 从动作素材库中筛选得到一
系列跟描述相匹配的动作图片, 组成对应描述的候选动作序列, 从中得到所需动作图片组
成动作序列;
步骤四, 用户上传演员人物的多个视角的全身照片, 通过人体三维模型估计算法对人
体参数进行估计, 同时对人体模型进行纹 理贴图, 获取 该演员人物的带纹 理的人体模型;
步骤五, 用户输入运动轨迹, 结合三维信息、 动作序列和带纹理的人体模型, 合成人物
动作的前 景短视频;
步骤六, 将步骤五得到的前景短视频和步骤一的场景图像进行融合, 获取情景互动的
短视频。
2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征
在于, 所述 步骤一具体包括以下子步骤:
步骤 (1.1) , 将用户输入的场景描述, 经过预训练的跨模态文本图像匹配模型CLIP的文
本编码器text encoder处 理, 得到对应的文本特 征向量Itext;
步骤 (1.2) , 将场景素材库中的场景图片, 输入预训练的跨模态文本图像匹配模型CLIP
的图片编码器ima ge encoder, 获取每 个图片对应的图像特 征向量Iimage_i, i=0,1,2…;
步骤 (1.3) , 对文本特征向量和图像特征向量计算相似度, 获取同文本语义相近的一系
列场景图片, 供用户选择, 具体为: 计算文本特征向量和图像特征向量的余弦距离, 将距离
相近前几个的向量对应的图片作为匹配结果返回, 余弦距离计算公式如下:
,
j表示文本特 征向量序号, n 为大于0的整数;
步骤 (1.4) , 用户根据返回的图片结果, 选择所需图片作为最终合成视频的场景图片
Imagescene。
3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征
在于, 所述步骤二具体为: 输入步骤一获取的场景图片 至深度图估计模型, 所述深度图估计
模型为DP T模型, DPT模型使用ViT作为主干网络, 提取图像tokens, token s通过tran sformer
网络得到的tokens重新组合成多个分辨率的图像特征, 即多尺度的图像特征; 多尺度的图
像特征通过融合模块和上采样, 得到深度密集预测结果, 即深度信息; 再通过预设的相机参
数FOV和图像分辨率 (H, W) 计 算归一化焦距 (fx , fy) 和中心像素坐 标(u0 , v0 ), 计算得到图
像对应的三维信息(x,y,z), 其中图像高为H, 宽为W, 所述三维信息(x,y,z)的计算公式如下权 利 要 求 书 1/3 页
2
CN 115496863 A
2所示:
。
4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征
在于, 所述 步骤三具体包括以下子步骤:
步骤 (3.1) , 将用户输入的动作描述, 经过预训练语言模型处理, 得到对应的动作文本
特征向量;
步骤 (3.2) , 将动作素材库中的动作序列对应的语义标签, 送入预训练语言模型处理,
获取语义标签对应的标签文本特 征向量;
步骤 (3.3) , 对动作文本特征向量和标签文本特征向量计算余弦相似度, 获取相似度排
名靠前的标签所对应的动作序列和动作序列所对应的原始渲 染视频, 用户从中选择动作图
片组成所需动作序列。
5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征
在于, 所述 步骤四具体包括以下子步骤:
步骤 (4.1) , 输入演员人物的多视角图片序列, 利用人体姿态识别算法, 获取人体的身
体、 手、 脚和面部特 征的关节点信息;
步骤 (4.2) , 通过人体三维模型估计算法得到人体模型参数, 具体为: 利用人体三维模
型估计算法, 将关节点信息及演员照片输入三维人体模型, 使三维人体模型拟合到单张演
员RGB图像和步骤 (4.1) 获取到的关节 点信息, 输出每个视角对应的人体模型参数、 3d mesh
信息和相机参数;
步骤 (4.3) , 利用获取到的人体模型参数、 3d mesh信息和相机参数, 通过纹理贴图算
法, 从演员的多视角照 片中提取纹理, 并对多个视角的纹理结果进 行融合, 获取带纹理的人
体模型。
6.如权利要求5所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征
在于, 所述 步骤 (4.3) 具体包括以下操作处 理:
(1) 基于UV map, 首先对单张的演员人物照片初始化 一张纹理贴图, 具体为:
将3d mesh信息的顶点坐标通过相机参数进行映射, 映射到二维演员人物照片图像空
间中, 根据距离相机的远近确定当前 单张演员照片映射到的三维人体模型的顶点;
根据对应的三维人体模型的顶点和UV map中的纹理坐标及纹理坐标索引, 确定该单张
演员照片可映射得到的纹 理贴图的纹 理区域;
其中按照线性插值的方式获取纹理区域的像素值: 纹理 的获得通过该纹理区域所对应
的三维人体模型的顶点, 从单视图找到对应顶点 位置进行像素获取;
(2) 根据步骤 (1) 生成所有演员的纹 理贴图;
(3) 对所有视角的演员的纹理进行融合, 融合的方法采用先前后视角, 后左右视角的方
法, 用所有的纹 理贴图通过异或的方式获取一张融合后的纹 理图;
(4) 针对融合后的纹理图存在缺失纹理的区域, 用邻域的纹理进行填充, 最后获得填充
后的纹理, 从而得到带纹 理的人体模型。权 利 要 求 书 2/3 页
3
CN 115496863 A
3
专利 用于影视智能创作的情景互动的短视频生成方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:36:19上传分享