说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210555986.3 (22)申请日 2022.05.20 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310023 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 王攀 薛昊岚 任沛然  (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 柴艳波 刘戈 (51)Int.Cl. G06V 10/80(2022.01) G06V 20/62(2022.01) G06N 20/00(2019.01) (54)发明名称 视频字幕擦除、 模 型训练、 交互方法、 设备及 存储介质 (57)摘要 本申请实施例提供一种视频字幕擦除、 模 型 训练、 交互方法、 设备及存储介质。 其中, 方法包 括: 利用训练过的字幕擦除模型对视频中字幕进 行擦除, 得到字幕擦除后视频; 字幕擦除模型用 于: 根据视频的多个帧特征图, 确定用于感知字 幕位置的掩码信息; 根据多个帧特征图, 通过注 意力机制确定第一像素区域分别与多个像素区 域的第一关系权重; 多个帧特征图包括多个像素 区域的特征; 多个像素区域包括第一像素区域; 根据掩码信息对第一关系权重进行修正得到修 正后关系权重; 根据多个帧特征图以及修正后关 系权重, 确定第一像素区域的第一融合后特征; 根据多个像素区域的第一融合后特征, 确定字幕 擦除后视频。 本申请实施例提供的技术方案能够 提高擦除效果。 权利要求书3页 说明书14页 附图5页 CN 115019138 A 2022.09.06 CN 115019138 A 1.一种视频字幕擦除方法, 其中, 包括: 确定视频; 利用训练过的字幕擦 除模型对所述视频中的字幕进行擦 除, 得到字幕擦 除后视频, 其 中, 所述字幕擦除模型为机器学习模型; 其中, 所述字幕擦除模型用于: 根据所述视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后视频。 2.根据权利要求1所述的方法, 其中, 根据所述视频的多个帧特征图, 确定用于感知字 幕位置的掩码信息, 包括: 根据所述多个帧特 征图, 确定所述多个 像素区域的第一目标 特征; 根据所述多个帧特征图, 通过注意力 机制确定所述第 一像素区域分别与所述多个像素 区域的第二关系权 重; 根据所述第二关系权重, 对所述多个像素区域的第一目标特征进行加权求和, 得到所 述第一像素区域的第二融合后特 征; 根据所述多个 像素区域的第二融合后特 征, 确定用于感知字幕位置的掩码信息 。 3.根据权利要求2所述的方法, 其中, 根据所述多个帧特征图, 确定所述多个像素区域 的第一目标 特征, 包括: 对所述多个帧特 征图进行降维处 理, 得到所述多个 像素区域的第一目标 特征。 4.根据权利要求1至3 中任一项所述的方法, 其中, 所述掩码信 息包括: 所述多个像素区 域的掩码值; 当所述掩码值为第一数值时, 表示相应的像素区域对应于背 景位置; 当所述掩 码值为第二数值时, 表示相 应的像素区域对应于字幕位置; 所述第一数值大于所述第二数 值; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重, 包括: 将所述第一像素区域与第二像素区域的第一关系权重与所述第二像素区域的掩码值 的乘积, 作为所述第一像素区域与所述第二像素区域的修改后关系权 重; 其中, 所述多个 像素区域中包括所述第二像素区域。 5.根据权利要求1至3中任一项所述的方法, 其中, 根据所述多个帧特征图以及所述修 正后关系权 重, 确定所述第一像素区域的第一融合后特 征, 包括: 根据所述多个帧特 征图, 确定所述多个 像素区域的第二目标 特征; 根据所述修正后关系权重, 对所述多个像素区域的第二目标特征进行加权求和, 得到 所述第一像素区域的第一融合后特 征。 6.根据权利要求1至 3中任一项所述的方法, 其中, 还 包括: 获取初始视频;权 利 要 求 书 1/3 页 2 CN 115019138 A 2确定所述初始视频对应的字幕框; 根据所述字幕框, 对所述初始视频中多个视频帧进行剪 裁处理, 得到所述视频。 7.根据权利要求6所述的方法, 其中, 确定所述初始视频对应的字幕框, 包括: 将所述初始视频输入至 字幕检测模型中, 以获得 所述字幕框; 或者 根据用户针对所述初始视频的字幕框绘制操作, 确定所述字幕框 。 8.根据权利要求6所述的方法, 其中, 还 包括: 根据所述字幕擦 除后视频以及所述字幕框, 对所述初始视频进行处理, 得到字幕擦 除 后初始视频。 9.一种模型训练方法, 其中, 还 包括: 确定样本 视频及其对应的期望 视频; 利用字幕擦 除模型对所述样本视频中的字幕进行擦 除, 得到字幕擦 除后样本视频, 其 中, 所述字幕擦除模型为机器学习模型; 根据所述字幕擦除后样本 视频以及所述期望 视频, 对所述字幕擦除模型进行优化; 其中, 所述字幕擦除模型用于: 根据所述样本 视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后样本 视频。 10.一种界面交 互方法, 其中, 包括: 响应于用户在操作界面的视频输入操作, 显示所述用户输入的初始视频; 响应于用户针对所述初始视频触发的字幕擦除操作, 显示字幕擦除后的初始视频; 其中, 所述字幕擦 除后的初始视频是根据字幕擦 除后视频确定的; 所述字幕擦 除后视 频是利用训练过的字幕擦除模型对视频中的字幕进行擦除得到的; 所述视频是根据所述初 始视频确定的; 所述字幕擦除模型为机器学习模型; 其中, 所述字幕擦除模型用于: 根据所述视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后视频。 11.一种电子设备, 其中, 包括: 存 储器和处 理器, 其中, 所述存储器, 用于存 储程序;权 利 要 求 书 2/3 页 3 CN 115019138 A 3

.PDF文档 专利 视频字幕擦除、模型训练、交互方法、设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频字幕擦除、模型训练、交互方法、设备及存储介质 第 1 页 专利 视频字幕擦除、模型训练、交互方法、设备及存储介质 第 2 页 专利 视频字幕擦除、模型训练、交互方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。