专利 视频解说文案的创建方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210538178.6 (22)申请日 2022.05.17 (71)申请人阿里巴巴（中国）有限公司地址 311100 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人侯兴林　葛铁铮　姜宇宁　 (74)专利代理机构北京乾成律信知识产权代理有限公司 1 1927 专利代理师姚志远 (51)Int.Cl. G06V 20/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称视频解说文案的创建方法及装置 (57)摘要本申请提供一种视频解说文案的创建方、创建装置、电子设备及计算机存储介质。所述创建方法包括：通过语义神经网络模型对获取的视频对象的多模态信息进行理解，获得一组语义向量；通过所述语义神经网络模型建立所述一组语义向量之间的映射关系；根据所述一组语义向量之间的映射关系，将所述一组语义向量融合为多模态语义向量；对所述多模态语义向量进行解码，获得所述视频解说文案。基于对多模态信息的理解和融合，通过训练的语义模型自动生成能够全面反应对象特点的长文案。权利要求书1页说明书6页附图5页 CN 115082913 A 2022.09.20 CN 115082913 A 1.一种视频解说文案的创建方法，其特征在于，包括：通过语义神经网络模型对获取的视频对象的多模态信息进行理解，获得一组语义向量；通过所述语义神经网络模型建立所述一组语义向量之间的映射关系；根据所述一组语义向量之间的映射关系，将所述一组语义向量融合为多模态语义向量；对所述多模态语义向量进行解码，获得所述视频解说文案。 2.根据权利要求1所述的创建方法，其特征在于，所述语义神经网络模型包括，经过学习和训练的语义模型；对所述多模态语义向量进行解码包括，使用经过学习和训练获得的解码模型对所述多模态语义向量进行解码。 3.根据权利要求1所述的创建方法，其特征在于，所述解说文案的字数包括： 80 ‑150字。 4.根据权利要求1所述的创建方法，其特征在于，所述多模态信息包括：视频、图片、标题、属性中的一种或多种。 5.根据权利要求 4所述的创建方法，其特征在于，所述属性的表达形式包括：表格。 6.根据权利要求1所述的创建方法，其特征在于，所述创建方法还包括：将所述视频解说文案转换为解说音频，并将所述解说音频嵌入所述视频。 7.一种视频解说文案的创建装置，其特征在于，包括：语义理解模块，用于通过语义神经网络模型对获取的视频对象的多模态信息进行理解，获得一组语义向量；语义对齐模块，用于通过所述语义神经网络模型建立所述一组语义向量之间的映射关系；语义融合模块，用于根据所述一组语义向量之间的映射关系，将所述一组语义向量融合为多模态语义向量；语义解码模块，用于对所述多模态语义向量进行解码，获得所述视频解说文案。 8.根据权利要求7 所述的创建装置，其特征在于，还包括：音频合成模块，用于将所述视频解说文案转换为解说音频，并将所述解说音频嵌入所述视频。 9.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个处理程序；当所述一个或多个处理程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1 ‑6中任一项所述的视频解说文案的创建方法。 10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1 ‑6中任一项所述的视频解说文案的创建方法。权　利　要　求　书 1/1 页 2 CN 115082913 A 2视频解说文案的创建方法及装置技术领域 [0001]本申请涉及互联网技术领域，具体涉及一种视频解说文案的创建方法、创建装置、电子设备及计算机可读介质，用于电商类短视频制作。背景技术 [0002]随着流量从图文媒体向视频媒体的转移，视频场景在电商行业变得越来越丰富，也越来越重要。通过视频的方式向消费者展示商品，相较于文字、图片而言的展示方式而言，更加直观、更具有吸引力。因此，视频的展示方式已经成为电商平台主流的商品展示模式。 [0003]对于电商而言，视频媒体的要求要明显高于图文媒体。在电商类短视频制作的过程中，不仅需要拍摄视频并进行剪辑，还需要配合音频解说，从而更加直接地向消费者展示商品的特点和卖点。为视频创建一段吸引用户且与视频内容相互呼应的音频解说文案显得尤为关键。 [0004]音频解说对视频的创建者而言，不仅要求其具备优秀的文案功底，还要求深入了解商品本身的卖点以及用户的。因此解说文案的创建，对于视频创建者而言，要求高、难度较大。此外，创建的解说文案需要进一步专业配音人员来完成配音并录制音频。对于视频创建者而言，成本较高。因此，根据商品的信息，自动生成符合商品特点和卖点的解说文案，并自动嵌入视频中，将有效降低视频创建的人力和时间成本，提升宣传效率。发明内容 [0005]为了解决自动生成的文案字数较短，将文案嵌入视频的成本较高等问题，本申请提供一种视频解说文案的创建方法、创建装置、电子设备和计算机可读介质。 [0006]根据本申请的第一方面，提供的视频解说文案的创建方法，包括： [0007]通过语义神经网络模型对获取的视频对象的多模态信息进行理解，获得一组语义向量； [0008]通过所述语义神经网络模型建立所述一组语义向量之间的映射关系； [0009]根据所述一组语义向量之间的映射关系，将所述一组语义向量融合为多模态语义向量； [0010]对所述多模态语义向量进行解码，获得所述视频解说文案。 [0011]根据本申请的一些实施例，所述语义神经网络模型包括，经过学习和训练的语义模型；对所述多模态语义向量进行解码包括，使用经过学习和训练获得的解码模型对所述多模态语义向量进行解码。 [0012]根据本申请的一些实施例，所述解说文案的字数包括： 80 ‑150字。 [0013]根据本申请的一些实施例，所述多模态信息包括：视频、图片、标题、属性中的一种或多种。 [0014]根据本申请的一些实施例，所述属性的表达形式包括：表格。说　明　书 1/6 页 3 CN 115082913 A 3

专利 视频解说文案的创建方法及装置

专利视频解说文案的创建方法及装置