专利 视觉场景文本融合模型的预训练和图文检索方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210590151.1 (22)申请日 2022.05.26 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人孙逸鹏　程梦钧　王龙超　朱雄威　姚锟　韩钧宇　刘经拓　丁二锐　王井东　王海峰　 (74)专利代理机构北京品源专利代理有限公司 11332 专利代理师王瑞云 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/38(2019.01) G06F 16/532(2019.01)G06F 16/58(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/42(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称视觉场景文本融合模型的预训练和图文检索方法及装置 (57)摘要本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置，涉及人工智能技术领域，具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为：获取样本图文对；提取样本图像中的样本场景文本；将样本文本输入文本编码网络，得到样本文本特征；将样本图像和初始的样本融合特征输入视觉编码子网络，以及将初始的样本融合特征和样本场景文本输入场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征，对视觉场景文本融合模型进行预训练。通过上述技术方案，能够提高图文跨模态检索性能。权利要求书6页说明书21页附图8页 CN 114942984 A 2022.08.26 CN 114942984 A 1.一种视觉场景文本融合模型的预训练方法，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述方法包括：获取样本图文对；其中，所述样本图文对包括样本图像和样本文本；提取所述样本图像中的样本场景文本；将所述样本文本输入所述文本编码网络，得到样本文本特征；将所述样本图像和初始的样本融合特征输入所述视觉编码子网络，以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征；根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征，对所述视觉场景文本融合模型进行预训练。 2.根据权利要求1所述的方法，其中，所述将所述样本图像和初始的样本融合特征输入所述视觉编码网络，以及将初始的样本融合特征和所述样本场景文本输入所述场景编码子网络，得到样本图像的全局图像特征和经学习的样本融合特征，包括：将所述样本图像输入所述视觉编码子网络中的输入层，以及将初始的样本融合特征输入所述视觉编码子网络中的融合层，得到视觉编码子网络输出的样本图像的全局图像特征和视觉编码子网络输出的视觉融合特征；将所述样本场景文本输入所述场景编码子网络中的输入层，以及将初始的样本融合特征输入所述场景编码子网络中的融合层，得到所述场景编码子网络输出的场景融合特征；对所述视觉编码子网络输出的视觉融合特征和所述场景编码子网络输出的场景融合特征进行融合，得到经学习的样本融合特征。 3.根据权利要求1所述的方法，其中，所述将所述样本文本输入所述文本编码网络，得到样本文本特征，包括：对所述样本文本进行词嵌入，得到样本文本词向量；根据样本文本的模态信息、样本文本的位置编码信息和所述样本文本词向量，确定所述样本文本的词编码结果；根据初始的样本文本特征和所述样本文本的词编码结果，构建样本文本的编码序列；将所述样本文本的编码序列输入所述文本编码网络，得到经学习的样本文本特征。 4.根据权利要求1所述的方法，其中，将所述样本图像输入所述视觉编码子网络，包括：对所述样本图像进行分块，得到样本图像块序列；对所述样本图像块序列中的样本图像块进行线性投影，得到样本图像块的编码结果；根据样本图像块的模态信息和样本图像块的位置编码信息对所述样本图像块的编码结果进行处理，得到样本图像块经处理的编码结果；根据初始的全局图像特征和样本图像块经处理的编码结果，构建样本图像的编码序列；将所述样本图像的编码序列输入所述视觉编码子网络中的输入层。 5.根据权利要求1所述的方法，其中，将所述样本场景文本输入所述场景编码子网络，包括：对所述样本场景文本进行词嵌入，得到样本场景文本向量；权　利　要　求　书 1/6 页 2 CN 114942984 A 2根据样本场景文本的图位置编码信息、样本场景文本的模态信息、样本场景文本的字位置编码信息和所述样本场景文本向量，确定所述样本场景文本的编码结果；根据初始的样本场景文本特征和所述样本场景文本的编码结果，构建样本场景文本的编码序列；将所述样本场景文本的编码序列输入所述场景编码子网络中的输入层。 6.根据权利要求1所述的方法，其中，所述根据所述样本文本特征、所述样本图像的全局图像特征和经学习的样本融合特征，对所述视觉场景文本融合模型进行预训练，包括：根据所述样本文本特征和经学习的样本融合特征，确定融合文本对比损失；根据所述样本图像的全局图像特征和所述样本文本特征，确定图像文本对比损失；根据所述融合文本对比损失和所述图像文本对比损失，确定训练损失；采用所述训练损失，对所述视觉场景文本融合模型进行预训练。 7.根据权利要求6所述的方法，其中，所述根据融合文本对比损失和所述图像文本对比损失，确定训练损失，包括：确定所述样本场景文本是否为空文本；若所述样本场景文本为空文本，则将所述图像文本对比损失作为所述训练损失；否则，将所述融合文本对比损失与所述图像文本对比损失之和，作为训练损失。 8.一种视觉场景文本融合模型的训练方法，包括：获取业务方提供的业务图文对；所述业务图文对包括业务图像和业务文本；将所述业务图像和所述业务文本作为训练数据，对视觉场景文本融合模型进行微调；其中，所述视觉场景文本融合模型基于权利要求1 ‑7中任一项所述的一种视觉场景文本融合模型的预训练方法得到。 9.一种视觉场景文本融合模型的图文检索方法，其中，视觉场景文本融合模型包括文本编码网络和视觉场景编码网络，所述视觉场景编码网络包括视觉编码子网络和场景编码子网络，所述方法包括：获取待检索的目标文本；提取候选图像中的候选场景文本；将所述目标文本输入所述文本编码网络，得到目标文本特征；将所述候选图像和初始的候选融合特征输入所述视觉编码子网络，以及将初始的候选融合特征和所述候选场景文本输入所述场景编码子网络，得到所述候选图像的全局图像特征；根据所述目标文本特征和所述候选图像的全局图像特征，从所述候选图像中确定目标图像。 10.根据权利要求9所述的方法，其中，所述将所述目标文本输入所述文本编码网络，得到目标文本特征，包括：对所述目标文本进行词嵌入，得到目标文本词向量；根据所述目标文本的模态信息、目标文本的位置编码信息和所述目标文本词向量，确定所述目标文本的词编码结果；根据初始的目标文本特征和所述目标文本的词编码结果，构建目标文本的编码序列；将所述目标文本的编码序列输入所述文本编码网络，得到经处理的目标文本特征。权　利　要　求　书 2/6 页 3 CN 114942984 A 3

专利 视觉场景文本融合模型的预训练和图文检索方法及装置

专利视觉场景文本融合模型的预训练和图文检索方法及装置