专利 用于影视智能创作的情景互动的短视频生成方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211354722.8 (22)申请日 2022.11.01 (71)申请人之江实验室地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部 (72)发明人毛瑞琛　马诗洁　耿卫东　李聪聪　杨森　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师孙孟辉 (51)Int.Cl. G06T 17/00(2006.01) G06T 7/40(2017.01) G06T 5/50(2006.01) G06V 20/62(2022.01)G06V 30/19(2022.01) G06V 40/20(2022.01) (54)发明名称用于影视智能创作的情景互动的短视频生成方法及系统 (57)摘要本发明涉及影视创作领域，公开一种用于影视智能创作的情景互动的短视频生成方法和系统，通过预训练的跨模态文本 ‑图像匹配模型和预训练的语言模型，可以实现场景图片和动作序列的匹配筛选；基于三维深度估计算法，计算出场景图像对应的深度信息，并通过预设的相机内参，估计出该场景图对应的三维信息；基于smpl ‑ x人体模型，对用户上传的人体进行参数估计和纹理贴图，获取带纹理的人体模型；通过估计的三维信息、动作序列、带纹理的人体模型、场景图片，合成互动者融于该场景图片的短视频。本发明可有效应用于当前影视创作中的分镜稿、故事版及预演动画等智能化生成工作，对影视创造的流程具体革新作用。权利要求书3页说明书9页附图3页 CN 115496863 A 2022.12.20 CN 115496863 A 1.一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，包括以下步骤：步骤一，根据用户输入的场景描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取到对应描述的场景图片；步骤二，输入步骤一获取的场景图片，经过深度图估计模型，输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息；步骤三，根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，从中得到所需动作图片组成动作序列；步骤四，用户上传演员人物的多个视角的全身照片，通过人体三维模型估计算法对人体参数进行估计，同时对人体模型进行纹理贴图，获取该演员人物的带纹理的人体模型；步骤五，用户输入运动轨迹，结合三维信息、动作序列和带纹理的人体模型，合成人物动作的前景短视频；步骤六，将步骤五得到的前景短视频和步骤一的场景图像进行融合，获取情景互动的短视频。 2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤一具体包括以下子步骤：步骤（1.1），将用户输入的场景描述，经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理，得到对应的文本特征向量Itext；步骤（1.2），将场景素材库中的场景图片，输入预训练的跨模态文本图像匹配模型CLIP 的图片编码器ima ge encoder，获取每个图片对应的图像特征向量Iimage_i， i=0,1,2…；步骤（1.3），对文本特征向量和图像特征向量计算相似度，获取同文本语义相近的一系列场景图片，供用户选择，具体为：计算文本特征向量和图像特征向量的余弦距离，将距离相近前几个的向量对应的图片作为匹配结果返回，余弦距离计算公式如下：， j表示文本特征向量序号， n 为大于0的整数；步骤（1.4），用户根据返回的图片结果，选择所需图片作为最终合成视频的场景图片 Imagescene。 3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤二具体为：输入步骤一获取的场景图片至深度图估计模型，所述深度图估计模型为DP T模型， DPT模型使用ViT作为主干网络，提取图像tokens， token s通过tran sformer 网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息；再通过预设的相机参数FOV和图像分辨率（H， W）计算归一化焦距（fx ， fy）和中心像素坐标(u0 ， v0 )，计算得到图像对应的三维信息(x,y,z)，其中图像高为H，宽为W，所述三维信息(x,y,z)的计算公式如下权　利　要　求　书 1/3 页 2 CN 115496863 A 2所示：。 4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤三具体包括以下子步骤：步骤（3.1），将用户输入的动作描述，经过预训练语言模型处理，得到对应的动作文本特征向量；步骤（3.2），将动作素材库中的动作序列对应的语义标签，送入预训练语言模型处理，获取语义标签对应的标签文本特征向量；步骤（3.3），对动作文本特征向量和标签文本特征向量计算余弦相似度，获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频，用户从中选择动作图片组成所需动作序列。 5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤四具体包括以下子步骤：步骤（4.1），输入演员人物的多视角图片序列，利用人体姿态识别算法，获取人体的身体、手、脚和面部特征的关节点信息；步骤（4.2），通过人体三维模型估计算法得到人体模型参数，具体为：利用人体三维模型估计算法，将关节点信息及演员照片输入三维人体模型，使三维人体模型拟合到单张演员RGB图像和步骤（4.1）获取到的关节点信息，输出每个视角对应的人体模型参数、 3d mesh 信息和相机参数；步骤（4.3），利用获取到的人体模型参数、 3d mesh信息和相机参数，通过纹理贴图算法，从演员的多视角照片中提取纹理，并对多个视角的纹理结果进行融合，获取带纹理的人体模型。 6.如权利要求5所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤（4.3）具体包括以下操作处理：（1）基于UV map，首先对单张的演员人物照片初始化一张纹理贴图，具体为：将3d mesh信息的顶点坐标通过相机参数进行映射，映射到二维演员人物照片图像空间中，根据距离相机的远近确定当前单张演员照片映射到的三维人体模型的顶点；根据对应的三维人体模型的顶点和UV map中的纹理坐标及纹理坐标索引，确定该单张演员照片可映射得到的纹理贴图的纹理区域；其中按照线性插值的方式获取纹理区域的像素值：纹理的获得通过该纹理区域所对应的三维人体模型的顶点，从单视图找到对应顶点位置进行像素获取；（2）根据步骤（1）生成所有演员的纹理贴图；（3）对所有视角的演员的纹理进行融合，融合的方法采用先前后视角，后左右视角的方法，用所有的纹理贴图通过异或的方式获取一张融合后的纹理图；（4）针对融合后的纹理图存在缺失纹理的区域，用邻域的纹理进行填充，最后获得填充后的纹理，从而得到带纹理的人体模型。权　利　要　求　书 2/3 页 3 CN 115496863 A 3

专利 用于影视智能创作的情景互动的短视频生成方法及系统

专利用于影视智能创作的情景互动的短视频生成方法及系统