说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211354722.8 (22)申请日 2022.11.01 (71)申请人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部 (72)发明人 毛瑞琛 马诗洁 耿卫东 李聪聪  杨森  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 孙孟辉 (51)Int.Cl. G06T 17/00(2006.01) G06T 7/40(2017.01) G06T 5/50(2006.01) G06V 20/62(2022.01)G06V 30/19(2022.01) G06V 40/20(2022.01) (54)发明名称 用于影视智能创作的情景互动的短视频生 成方法及系统 (57)摘要 本发明涉及影视创 作领域, 公开一种用于影 视智能创作的情景互动的短视频生成方法和系 统, 通过预训练的跨模态文本 ‑图像匹配模型和 预训练的语言模 型, 可以实现场景图片和动作序 列的匹配筛选; 基于三维深度估计算法, 计算出 场景图像对应的深度信息, 并通过预设的相机内 参, 估计出该场景图对应的三维信息; 基于smpl ‑ x人体模型, 对用户上传的人体进行参数估计和 纹理贴图, 获取带纹理的人体模型; 通过估计的 三维信息、 动作序列、 带纹理的人体模型、 场景图 片, 合成互动者融于该场景图片的短视频。 本发 明可有效应用于当前影视创作中的分镜稿、 故事 版及预演动画等智能化生 成工作, 对影视创造的 流程具体革 新作用。 权利要求书3页 说明书9页 附图3页 CN 115496863 A 2022.12.20 CN 115496863 A 1.一种用于影视智能创作的情景互动的短视频生成方法, 其特 征在于, 包括以下步骤: 步骤一, 根据用户输入的场景描述, 通过预训练的跨模态文本图像匹配模型, 从场景素 材库中获取到对应描述的场景图片; 步骤二, 输入步骤一获取的场景图片, 经过深度图估计模型, 输出深度信息后利用预设 的相机参数计算得到场景图片对应的三维信息; 步骤三, 根据用户输入的动作描述, 经过预训练语言模型, 从动作素材库中筛选得到一 系列跟描述相匹配的动作图片, 组成对应描述的候选动作序列, 从中得到所需动作图片组 成动作序列; 步骤四, 用户上传演员人物的多个视角的全身照片, 通过人体三维模型估计算法对人 体参数进行估计, 同时对人体模型进行纹 理贴图, 获取 该演员人物的带纹 理的人体模型; 步骤五, 用户输入运动轨迹, 结合三维信息、 动作序列和带纹理的人体模型, 合成人物 动作的前 景短视频; 步骤六, 将步骤五得到的前景短视频和步骤一的场景图像进行融合, 获取情景互动的 短视频。 2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征 在于, 所述 步骤一具体包括以下子步骤: 步骤 (1.1) , 将用户输入的场景描述, 经过预训练的跨模态文本图像匹配模型CLIP的文 本编码器text  encoder处 理, 得到对应的文本特 征向量Itext; 步骤 (1.2) , 将场景素材库中的场景图片, 输入预训练的跨模态文本图像匹配模型CLIP 的图片编码器ima ge encoder, 获取每 个图片对应的图像特 征向量Iimage_i, i=0,1,2…; 步骤 (1.3) , 对文本特征向量和图像特征向量计算相似度, 获取同文本语义相近的一系 列场景图片, 供用户选择, 具体为: 计算文本特征向量和图像特征向量的余弦距离, 将距离 相近前几个的向量对应的图片作为匹配结果返回, 余弦距离计算公式如下: , j表示文本特 征向量序号, n 为大于0的整数; 步骤 (1.4) , 用户根据返回的图片结果, 选择所需图片作为最终合成视频的场景图片 Imagescene。 3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征 在于, 所述步骤二具体为: 输入步骤一获取的场景图片 至深度图估计模型, 所述深度图估计 模型为DP T模型, DPT模型使用ViT作为主干网络, 提取图像tokens, token s通过tran sformer 网络得到的tokens重新组合成多个分辨率的图像特征, 即多尺度的图像特征; 多尺度的图 像特征通过融合模块和上采样, 得到深度密集预测结果, 即深度信息; 再通过预设的相机参 数FOV和图像分辨率 (H, W) 计 算归一化焦距 (fx  , fy) 和中心像素坐 标(u0 , v0 ), 计算得到图 像对应的三维信息(x,y,z), 其中图像高为H, 宽为W, 所述三维信息(x,y,z)的计算公式如下权 利 要 求 书 1/3 页 2 CN 115496863 A 2所示: 。 4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征 在于, 所述 步骤三具体包括以下子步骤: 步骤 (3.1) , 将用户输入的动作描述, 经过预训练语言模型处理, 得到对应的动作文本 特征向量; 步骤 (3.2) , 将动作素材库中的动作序列对应的语义标签, 送入预训练语言模型处理, 获取语义标签对应的标签文本特 征向量; 步骤 (3.3) , 对动作文本特征向量和标签文本特征向量计算余弦相似度, 获取相似度排 名靠前的标签所对应的动作序列和动作序列所对应的原始渲 染视频, 用户从中选择动作图 片组成所需动作序列。 5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征 在于, 所述 步骤四具体包括以下子步骤: 步骤 (4.1) , 输入演员人物的多视角图片序列, 利用人体姿态识别算法, 获取人体的身 体、 手、 脚和面部特 征的关节点信息; 步骤 (4.2) , 通过人体三维模型估计算法得到人体模型参数, 具体为: 利用人体三维模 型估计算法, 将关节点信息及演员照片输入三维人体模型, 使三维人体模型拟合到单张演 员RGB图像和步骤 (4.1) 获取到的关节 点信息, 输出每个视角对应的人体模型参数、 3d  mesh 信息和相机参数; 步骤 (4.3) , 利用获取到的人体模型参数、 3d  mesh信息和相机参数, 通过纹理贴图算 法, 从演员的多视角照 片中提取纹理, 并对多个视角的纹理结果进 行融合, 获取带纹理的人 体模型。 6.如权利要求5所述的一种用于影视智能创作的情景互动的短视频生成方法, 其特征 在于, 所述 步骤 (4.3) 具体包括以下操作处 理: (1) 基于UV  map, 首先对单张的演员人物照片初始化 一张纹理贴图, 具体为: 将3d mesh信息的顶点坐标通过相机参数进行映射, 映射到二维演员人物照片图像空 间中, 根据距离相机的远近确定当前 单张演员照片映射到的三维人体模型的顶点; 根据对应的三维人体模型的顶点和UV  map中的纹理坐标及纹理坐标索引, 确定该单张 演员照片可映射得到的纹 理贴图的纹 理区域; 其中按照线性插值的方式获取纹理区域的像素值: 纹理 的获得通过该纹理区域所对应 的三维人体模型的顶点, 从单视图找到对应顶点 位置进行像素获取; (2) 根据步骤 (1) 生成所有演员的纹 理贴图; (3) 对所有视角的演员的纹理进行融合, 融合的方法采用先前后视角, 后左右视角的方 法, 用所有的纹 理贴图通过异或的方式获取一张融合后的纹 理图; (4) 针对融合后的纹理图存在缺失纹理的区域, 用邻域的纹理进行填充, 最后获得填充 后的纹理, 从而得到带纹 理的人体模型。权 利 要 求 书 2/3 页 3 CN 115496863 A 3

.PDF文档 专利 用于影视智能创作的情景互动的短视频生成方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于影视智能创作的情景互动的短视频生成方法及系统 第 1 页 专利 用于影视智能创作的情景互动的短视频生成方法及系统 第 2 页 专利 用于影视智能创作的情景互动的短视频生成方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:36:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。