(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210538178.6
(22)申请日 2022.05.17
(71)申请人 阿里巴巴 (中国) 有限公司
地址 311100 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 侯兴林 葛铁铮 姜宇宁
(74)专利代理 机构 北京乾成律信知识产权代理
有限公司 1 1927
专利代理师 姚志远
(51)Int.Cl.
G06V 20/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
视频解说文案的创建方法及装置
(57)摘要
本申请提供一种视频解说文案的创建方、 创
建装置、 电子设备及计算机存储介质。 所述创建
方法包括: 通过语义神经网络模 型对获取的视频
对象的多模态信息进行理解, 获得一组语义向
量; 通过所述语义神经网络模型建立所述一组语
义向量之间的映射关系; 根据所述一组语义向量
之间的映射 关系, 将所述一组语义向量融合为多
模态语义向量; 对所述多模态语义向量进行解
码, 获得所述视频解说文案。 基于对多模态信息
的理解和融合, 通过训练的语义模 型自动生成能
够全面反应对象特点的长文案 。
权利要求书1页 说明书6页 附图5页
CN 115082913 A
2022.09.20
CN 115082913 A
1.一种视频解说文案的创建方法, 其特 征在于, 包括:
通过语义神经网络模型对获取的视频对象的多模态信息进行理解, 获得一组语义向
量;
通过所述语义神经网络模型建立所述 一组语义向量之间的映射关系;
根据所述一组语义向量之间的映射关系, 将所述一组语义向量融合为多模态语义向
量;
对所述多模态语义向量进行解码, 获得 所述视频解说文案 。
2.根据权利要求1所述的创建方法, 其特 征在于,
所述语义神经网络模型包括, 经 过学习和训练的语义模型;
对所述多模态语义向量进行解码包括, 使用经过学习和训练获得的解码模型对所述多
模态语义向量进行解码。
3.根据权利要求1所述的创建方法, 其特 征在于, 所述 解说文案的字数包括: 80 ‑150字。
4.根据权利要求1所述的创建方法, 其特 征在于, 所述多模态信息包括:
视频、 图片、 标题、 属性中的一种或多种。
5.根据权利要求 4所述的创建方法, 其特 征在于, 所述属性的表达形式包括: 表格。
6.根据权利要求1所述的创建方法, 其特 征在于, 所述创建方法还 包括:
将所述视频解说文案转换为 解说音频, 并将所述 解说音频嵌入所述视频。
7.一种视频解说文案的创建装置, 其特 征在于, 包括:
语义理解模块, 用于通过语义神经网络模型对获取的视频对象的多模态信息进行理
解, 获得一组语义向量;
语义对齐模块, 用于通过所述语义神经网络模型建立所述一组语义向量之间的映射关
系;
语义融合模块, 用于根据所述一组语义向量之间的映射关系, 将所述一组语义向量融
合为多模态语义向量;
语义解码模块, 用于对所述多模态语义向量进行解码, 获得 所述视频解说文案 。
8.根据权利要求7 所述的创建装置, 其特 征在于, 还 包括:
音频合成模块, 用于将所述视频解说文案转换为解说音频, 并将所述解说音频嵌入所
述视频。
9.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器;
存储装置, 用于存 储一个或多个处 理程序;
当所述一个或多个处理程序被所述一个或多个处理器执行, 使得所述一个或多个处理
器实现权利要求1 ‑6中任一项所述的视频解说文案的创建方法。
10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处
理器执行时实现权利要求1 ‑6中任一项所述的视频解说文案的创建方法。权 利 要 求 书 1/1 页
2
CN 115082913 A
2视频解说文案 的创建方法及装置
技术领域
[0001]本申请涉及互联 网技术领域, 具体涉及一种视频解说文案的创建方法、 创建装置、
电子设备及计算机可读介质, 用于电商类短视频制作。
背景技术
[0002]随着流量从图文媒体向视频媒体的转移, 视频场景在电商行业变得越来越丰富,
也越来越重要。 通过视频的方式向消费者展示商品, 相较于文字、 图片而言的展示方式而
言, 更加直观、 更具有吸引力。 因此, 视频的展示方式已经成为电商平台主流的商品展示模
式。
[0003]对于电商而言, 视频媒体的要求要明显高于图文媒体。 在电商类短视频制作的过
程中, 不仅需要拍摄视频并进 行剪辑, 还需要配合音 频解说, 从而 更加直接地向消费者展示
商品的特点和卖点。 为视频创建一段吸引用户且与视频内容相互呼应的音频解说文案显得
尤为关键 。
[0004]音频解说对视频的创建者而言, 不仅要求其具备优秀的文案功底, 还要求深入了
解商品本身的卖点以及用户的。 因此解说文案的创建, 对于视频创建者而言, 要求高、 难度
较大。 此外, 创建的解说文案需要进一步专业配音 人员来完成配音并录制音频。 对于视频创
建者而言, 成本较高。 因此, 根据商品的信息, 自动生成符合商品特点和卖点的解说文案, 并
自动嵌入视频中, 将有效降低视频创建的人力和时间成本, 提升宣传效率。
发明内容
[0005]为了解决自动生成的文案字数较短, 将文案嵌入视频的成本较高等问题, 本申请
提供一种视频解说文案的创建方法、 创建装置、 电子设备和计算机可读介质。
[0006]根据本申请的第一方面, 提供的视频解说文案的创建方法, 包括:
[0007]通过语义神经网络模型对 获取的视频对象的多模态信息进行理解, 获得一组语义
向量;
[0008]通过所述语义神经网络模型建立所述 一组语义向量之间的映射关系;
[0009]根据所述一组语义向量之间的映射关系, 将所述一组语义向量融合为多模态语义
向量;
[0010]对所述多模态语义向量进行解码, 获得 所述视频解说文案 。
[0011]根据本申请的一些实施例, 所述语义神经网络模型包括, 经过学习和训练的语义
模型; 对所述多模态语义向量进行解码包括, 使用经过学习和训练获得的解码模型对所述
多模态语义向量进行解码。
[0012]根据本申请的一些实施例, 所述 解说文案的字数包括: 80 ‑150字。
[0013]根据本申请的一些实施例, 所述多模态信息包括: 视频、 图片、 标题、 属性中的一种
或多种。
[0014]根据本申请的一些实施例, 所述属性的表达形式包括: 表格。说 明 书 1/6 页
3
CN 115082913 A
3
专利 视频解说文案的创建方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:51:02上传分享