专利 一种场景识别方法、装置、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211280557.6 (22)申请日 2022.10.19 (71)申请人中国农业银行股份有限公司地址 100005 北京市东城区建国门内大街 69号 (72)发明人谢莲铭　 (74)专利代理机构北京品源专利代理有限公司 11332 专利代理师王瑞云 (51)Int.Cl. G06V 20/70(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种场景识别方法、装置、设备和存储介质 (57)摘要本发明公开了一种场景识别方法、装置、设备和存储介质，该方法包括：获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inc eption结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。上述技术方案，实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类，并根据待识别图像的预测分类确定待识别场景的场景识别结果，提升场景识别效率。权利要求书2页说明书13页附图7页 CN 115439848 A 2022.12.06 CN 115439848 A 1.一种场景识别方法，其特征在于，包括：获取待识别场景对应的待识别图像；将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于 Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。 2.根据权利要求1所述的场景识别方法，其特征在于，所述场景识别模型基于Stem结构对所述待识别图像进行处理，包括：将所述待识别图像输入所述Stem结构，以使所述Stem结构基于三个步长为2的3 ×3卷积核的卷积层、三个步长为1的3 ×3卷积核的卷积层、一个步长为1的1 ×1卷积核的卷积层对所述待识别图像进行处理，以减小所述待识别图像的宽度和高度，增加所述待识别图像的通道数，得到所述待识别图像对应的第一特征信息。 3.根据权利要求2所述的场景识别方法，其特征在于，所述场景识别模型基于第一 Inception结构对所述待识别图像进行处理，包括：将所述第一特征信息输入所述第一Inception结构，以使所述第一Inception结构基于 1×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第一中间特征；基于1×1卷积核的卷积层、 5 ×1卷积核的卷积层和1 ×5卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第二中间特征；基于1×1卷积核的卷积层、 3 ×3卷积核的卷积层、 3 ×1卷积核的卷积层和1 ×3卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取，得到第三中间特征；基于3×3卷积核的最大池化层和1 ×1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取，得到第四中间特征；融合所述第一中间特征、所述第二中间特征、所述第三中间特征和所述第四中间特征得到所述待识别图像对应的第二特征信息。 4.根据权利要求3所述的场景识别方法，其特征在于，所述场景识别模型基于第二 Inception结构对所述待识别图像进行处理，包括：将所述第二特征信息输入所述第二Inception结构，以使所述第二Inception结构基于 1×1卷积核的卷积层对所述第二特征信息进行第一尺寸的特征提取，得到第五中间特征；基于1×1卷积核的卷积层、 3 ×1卷积核的卷积层和1 ×3卷积核的卷积层对所述第二特征信息进行第三尺寸的特征提取，得到第六中间特征；基于1×1卷积核的卷积层、 7 ×1卷积核的卷积层和1 ×7卷积核的卷积层对所述第二特征信息进行第四尺寸的特征提取，得到第七中间特征；融合所述第五中间特征、所述第六中间特征、所述第七中间特征和所述第二特征信息得到所述待识别图像对应的第三特征信息。 5.根据权利要求4所述的场景识别方法，其特征在于，所述场景识别模型基于全局平均池化层对所述待识别图像进行处理，包括：将所述第三特征信息输入所述全局平均池化层，以使所述全局平均池化层对所述第三特征信息进行平均池化操作，得到所述待识别图像对应的目标特征信息。权　利　要　求　书 1/2 页 2 CN 115439848 A 26.根据权利要求5所述的场景识别方法，其特征在于，所述场景识别模型所包含的所述 Stem结构中的三个步长为2的3 ×3卷积核的卷积层、三个步长为1的3 ×3卷积核的卷积层、一个步长为1的1 ×1卷积核的卷积层，所包含的所述第一Inception结构中的1 ×1卷积核的卷积层、 5 ×1卷积核的卷积层、 1 ×5卷积核的卷积层、 3 ×3卷积核的卷积层、 3 ×1卷积核的卷积层和1 ×3卷积核的卷积层，所包含的第二Inception结构中的1 ×1卷积核的卷积层、 3 ×1卷积核的卷积层、 1 ×3卷积核的卷积层、 7 ×1卷积核的卷积层和1 ×7卷积核的卷积层均为深度可分离卷积层。 7.根据权利要求1所述的场景识别方法，其特征在于，根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果，包括：根据所述待识别图像的预测分类确定所述待识别场景的场景类型或者位置信息。 8.一种场景识别装置，其特征在于，包括：获取模块，用于获取待识别场景对应的待识别图像；处理模块，用于将所述待识别图像输入预先训练好的场景识别模型中，以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理，得到所述待识别图像对应的目标特征信息，并基于全连接层对所述目标特征信息进行分类，得到所述待识别图像的预测分类；确定模块，用于根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。 9.一种计算机设备，其特征在于，所述计算机设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的场景识别方法。 10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行权利要求1 ‑7中任一所述的场景识别方法。权　利　要　求　书 2/2 页 3 CN 115439848 A 3

专利 一种场景识别方法、装置、设备和存储介质

专利一种场景识别方法、装置、设备和存储介质