说明:收录全文最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210555986.3 (22)申请日 2022.05.20 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310023 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 王攀 薛昊岚 任沛然 (74)专利代理 机构 北京太合九思知识产权代理 有限公司 1 1610 专利代理师 柴艳波 刘戈 (51)Int.Cl. G06V 10/80(2022.01) G06V 20/62(2022.01) G06N 20/00(2019.01) (54)发明名称 视频字幕擦除、 模 型训练、 交互方法、 设备及 存储介质 (57)摘要 本申请实施例提供一种视频字幕擦除、 模 型 训练、 交互方法、 设备及存储介质。 其中, 方法包 括: 利用训练过的字幕擦除模型对视频中字幕进 行擦除, 得到字幕擦除后视频; 字幕擦除模型用 于: 根据视频的多个帧特征图, 确定用于感知字 幕位置的掩码信息; 根据多个帧特征图, 通过注 意力机制确定第一像素区域分别与多个像素区 域的第一关系权重; 多个帧特征图包括多个像素 区域的特征; 多个像素区域包括第一像素区域; 根据掩码信息对第一关系权重进行修正得到修 正后关系权重; 根据多个帧特征图以及修正后关 系权重, 确定第一像素区域的第一融合后特征; 根据多个像素区域的第一融合后特征, 确定字幕 擦除后视频。 本申请实施例提供的技术方案能够 提高擦除效果。 权利要求书3页 说明书14页 附图5页 CN 115019138 A 2022.09.06 CN 115019138 A 1.一种视频字幕擦除方法, 其中, 包括: 确定视频; 利用训练过的字幕擦 除模型对所述视频中的字幕进行擦 除, 得到字幕擦 除后视频, 其 中, 所述字幕擦除模型为机器学习模型; 其中, 所述字幕擦除模型用于: 根据所述视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后视频。 2.根据权利要求1所述的方法, 其中, 根据所述视频的多个帧特征图, 确定用于感知字 幕位置的掩码信息, 包括: 根据所述多个帧特 征图, 确定所述多个 像素区域的第一目标 特征; 根据所述多个帧特征图, 通过注意力 机制确定所述第 一像素区域分别与所述多个像素 区域的第二关系权 重; 根据所述第二关系权重, 对所述多个像素区域的第一目标特征进行加权求和, 得到所 述第一像素区域的第二融合后特 征; 根据所述多个 像素区域的第二融合后特 征, 确定用于感知字幕位置的掩码信息 。 3.根据权利要求2所述的方法, 其中, 根据所述多个帧特征图, 确定所述多个像素区域 的第一目标 特征, 包括: 对所述多个帧特 征图进行降维处 理, 得到所述多个 像素区域的第一目标 特征。 4.根据权利要求1至3 中任一项所述的方法, 其中, 所述掩码信 息包括: 所述多个像素区 域的掩码值; 当所述掩码值为第一数值时, 表示相应的像素区域对应于背 景位置; 当所述掩 码值为第二数值时, 表示相 应的像素区域对应于字幕位置; 所述第一数值大于所述第二数 值; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重, 包括: 将所述第一像素区域与第二像素区域的第一关系权重与所述第二像素区域的掩码值 的乘积, 作为所述第一像素区域与所述第二像素区域的修改后关系权 重; 其中, 所述多个 像素区域中包括所述第二像素区域。 5.根据权利要求1至3中任一项所述的方法, 其中, 根据所述多个帧特征图以及所述修 正后关系权 重, 确定所述第一像素区域的第一融合后特 征, 包括: 根据所述多个帧特 征图, 确定所述多个 像素区域的第二目标 特征; 根据所述修正后关系权重, 对所述多个像素区域的第二目标特征进行加权求和, 得到 所述第一像素区域的第一融合后特 征。 6.根据权利要求1至 3中任一项所述的方法, 其中, 还 包括: 获取初始视频;权 利 要 求 书 1/3 页 2 CN 115019138 A 2确定所述初始视频对应的字幕框; 根据所述字幕框, 对所述初始视频中多个视频帧进行剪 裁处理, 得到所述视频。 7.根据权利要求6所述的方法, 其中, 确定所述初始视频对应的字幕框, 包括: 将所述初始视频输入至 字幕检测模型中, 以获得 所述字幕框; 或者 根据用户针对所述初始视频的字幕框绘制操作, 确定所述字幕框 。 8.根据权利要求6所述的方法, 其中, 还 包括: 根据所述字幕擦 除后视频以及所述字幕框, 对所述初始视频进行处理, 得到字幕擦 除 后初始视频。 9.一种模型训练方法, 其中, 还 包括: 确定样本 视频及其对应的期望 视频; 利用字幕擦 除模型对所述样本视频中的字幕进行擦 除, 得到字幕擦 除后样本视频, 其 中, 所述字幕擦除模型为机器学习模型; 根据所述字幕擦除后样本 视频以及所述期望 视频, 对所述字幕擦除模型进行优化; 其中, 所述字幕擦除模型用于: 根据所述样本 视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后样本 视频。 10.一种界面交 互方法, 其中, 包括: 响应于用户在操作界面的视频输入操作, 显示所述用户输入的初始视频; 响应于用户针对所述初始视频触发的字幕擦除操作, 显示字幕擦除后的初始视频; 其中, 所述字幕擦 除后的初始视频是根据字幕擦 除后视频确定的; 所述字幕擦 除后视 频是利用训练过的字幕擦除模型对视频中的字幕进行擦除得到的; 所述视频是根据所述初 始视频确定的; 所述字幕擦除模型为机器学习模型; 其中, 所述字幕擦除模型用于: 根据所述视频的多个帧特 征图, 确定用于感知字幕位置的掩码信息; 根据所述多个帧特征图, 通过注意力 机制确定第 一像素区域分别与多个像素区域的第 一关系权重; 所述多个 帧特征图包括所述多个像素区域的特征; 所述多个像素区域中包括 所述第一像素区域; 根据所述掩码信息, 对所述第一关系权 重进行修 正, 得到修 正后关系权 重; 根据所述多个帧特征图以及所述修正后关系权重, 确定所述第 一像素区域的第 一融合 后特征; 根据所述多个 像素区域的第一融合后特 征, 确定字幕擦除后视频。 11.一种电子设备, 其中, 包括: 存 储器和处 理器, 其中, 所述存储器, 用于存 储程序;权 利 要 求 书 2/3 页 3 CN 115019138 A 3
专利 视频字幕擦除、模型训练、交互方法、设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 12:50:58
上传分享
举报
下载
原文档
(732.2 KB)
分享
友情链接
GB-T 11893-1989 水质 总磷的测定 钼酸铵分光光度法.pdf
GB-T 2611-2022 试验机 通用技术要求.pdf
天空卫生 数据防泄露 DLP 技术指南完整电子版.pdf
GB-T 40218-2021 工业通信网络 网络和系统安全 工业自动化和控制系统信息安全技术.pdf
GB/T 40143-2021 志愿服务组织基本规范.pdf
GB-T 14812-2008 热管传热性能试验方法.pdf
T-ZKJXX 00032—2023 长波接收机技术要求及测试方法.pdf
GB-T 18772-2017 生活垃圾卫生填埋场环境监测技术要求.pdf
DB34-T 3703.5-2022 长大桥梁养护指南 第5部分:健康监测报警阈值设定 安徽省.pdf
GB-T 28557-2012 电力企业节能降耗主要指标的监管评价.pdf
SN-T 3733-2013 集装袋 循环顶吊试验方法.pdf
T-GCHA 1.4—2018 定制家居产品 人造板定制衣柜 第4部分:安装验收规范.pdf
GB-T 17116.3-2018 管道支吊架 第3部分:中间连接件和建筑结构连接件.pdf
GB-T 32385.1-2015 光纤预制棒 第1部分:总规范.pdf
T-ACEF 104—2023 公民绿色低碳行为温室气体减排量化指南 行:步行.pdf
美创 数据安全全流程审计和溯源技术的应用.pdf
GB-T 27563-2011 工业用N-甲基-2-吡咯烷酮.pdf
DB44-T 1769-2015 电动汽车用电子设备可靠性试验方法 广东省.pdf
GB-T 34120-2017 电化学储能系统储能变流器技术规范.pdf
DB13-T 5217-2020 河道人工湿地设计规范 河北省.pdf
1
/
3
23
评价文档
赞助1.5元 点击下载(732.2 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。