专利 视频字幕擦除、模型训练、交互方法、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210555986.3 (22)申请日 2022.05.20 (71)申请人阿里巴巴（中国）有限公司地址 310023 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人王攀　薛昊岚　任沛然　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师柴艳波　刘戈 (51)Int.Cl. G06V 10/80(2022.01) G06V 20/62(2022.01) G06N 20/00(2019.01) (54)发明名称视频字幕擦除、模型训练、交互方法、设备及存储介质 (57)摘要本申请实施例提供一种视频字幕擦除、模型训练、交互方法、设备及存储介质。其中，方法包括：利用训练过的字幕擦除模型对视频中字幕进行擦除，得到字幕擦除后视频；字幕擦除模型用于：根据视频的多个帧特征图，确定用于感知字幕位置的掩码信息；根据多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；多个帧特征图包括多个像素区域的特征；多个像素区域包括第一像素区域；根据掩码信息对第一关系权重进行修正得到修正后关系权重；根据多个帧特征图以及修正后关系权重，确定第一像素区域的第一融合后特征；根据多个像素区域的第一融合后特征，确定字幕擦除后视频。本申请实施例提供的技术方案能够提高擦除效果。权利要求书3页说明书14页附图5页 CN 115019138 A 2022.09.06 CN 115019138 A 1.一种视频字幕擦除方法，其中，包括：确定视频；利用训练过的字幕擦除模型对所述视频中的字幕进行擦除，得到字幕擦除后视频，其中，所述字幕擦除模型为机器学习模型；其中，所述字幕擦除模型用于：根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息；根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；所述多个帧特征图包括所述多个像素区域的特征；所述多个像素区域中包括所述第一像素区域；根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重；根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征；根据所述多个像素区域的第一融合后特征，确定字幕擦除后视频。 2.根据权利要求1所述的方法，其中，根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息，包括：根据所述多个帧特征图，确定所述多个像素区域的第一目标特征；根据所述多个帧特征图，通过注意力机制确定所述第一像素区域分别与所述多个像素区域的第二关系权重；根据所述第二关系权重，对所述多个像素区域的第一目标特征进行加权求和，得到所述第一像素区域的第二融合后特征；根据所述多个像素区域的第二融合后特征，确定用于感知字幕位置的掩码信息。 3.根据权利要求2所述的方法，其中，根据所述多个帧特征图，确定所述多个像素区域的第一目标特征，包括：对所述多个帧特征图进行降维处理，得到所述多个像素区域的第一目标特征。 4.根据权利要求1至3 中任一项所述的方法，其中，所述掩码信息包括：所述多个像素区域的掩码值；当所述掩码值为第一数值时，表示相应的像素区域对应于背景位置；当所述掩码值为第二数值时，表示相应的像素区域对应于字幕位置；所述第一数值大于所述第二数值；根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重，包括：将所述第一像素区域与第二像素区域的第一关系权重与所述第二像素区域的掩码值的乘积，作为所述第一像素区域与所述第二像素区域的修改后关系权重；其中，所述多个像素区域中包括所述第二像素区域。 5.根据权利要求1至3中任一项所述的方法，其中，根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征，包括：根据所述多个帧特征图，确定所述多个像素区域的第二目标特征；根据所述修正后关系权重，对所述多个像素区域的第二目标特征进行加权求和，得到所述第一像素区域的第一融合后特征。 6.根据权利要求1至 3中任一项所述的方法，其中，还包括：获取初始视频；权　利　要　求　书 1/3 页 2 CN 115019138 A 2确定所述初始视频对应的字幕框；根据所述字幕框，对所述初始视频中多个视频帧进行剪裁处理，得到所述视频。 7.根据权利要求6所述的方法，其中，确定所述初始视频对应的字幕框，包括：将所述初始视频输入至字幕检测模型中，以获得所述字幕框；或者根据用户针对所述初始视频的字幕框绘制操作，确定所述字幕框。 8.根据权利要求6所述的方法，其中，还包括：根据所述字幕擦除后视频以及所述字幕框，对所述初始视频进行处理，得到字幕擦除后初始视频。 9.一种模型训练方法，其中，还包括：确定样本视频及其对应的期望视频；利用字幕擦除模型对所述样本视频中的字幕进行擦除，得到字幕擦除后样本视频，其中，所述字幕擦除模型为机器学习模型；根据所述字幕擦除后样本视频以及所述期望视频，对所述字幕擦除模型进行优化；其中，所述字幕擦除模型用于：根据所述样本视频的多个帧特征图，确定用于感知字幕位置的掩码信息；根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；所述多个帧特征图包括所述多个像素区域的特征；所述多个像素区域中包括所述第一像素区域；根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重；根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征；根据所述多个像素区域的第一融合后特征，确定字幕擦除后样本视频。 10.一种界面交互方法，其中，包括：响应于用户在操作界面的视频输入操作，显示所述用户输入的初始视频；响应于用户针对所述初始视频触发的字幕擦除操作，显示字幕擦除后的初始视频；其中，所述字幕擦除后的初始视频是根据字幕擦除后视频确定的；所述字幕擦除后视频是利用训练过的字幕擦除模型对视频中的字幕进行擦除得到的；所述视频是根据所述初始视频确定的；所述字幕擦除模型为机器学习模型；其中，所述字幕擦除模型用于：根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息；根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；所述多个帧特征图包括所述多个像素区域的特征；所述多个像素区域中包括所述第一像素区域；根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重；根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征；根据所述多个像素区域的第一融合后特征，确定字幕擦除后视频。 11.一种电子设备，其中，包括：存储器和处理器，其中，所述存储器，用于存储程序；权　利　要　求　书 2/3 页 3 CN 115019138 A 3

专利 视频字幕擦除、模型训练、交互方法、设备及存储介质

专利视频字幕擦除、模型训练、交互方法、设备及存储介质