专利 基于深度注意力的自适应多尺度视觉特征表达方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211285533.X (22)申请日 2022.10.20 (71)申请人济南大学地址 250000 山东省济南市南辛庄西路3 36 号 (72)发明人郭庆北　刘圣勇　李忠涛　冯志全　徐涛　田京兰　杨晓晖　 (51)Int.Cl. G06V 10/42(2022.01) G06V 10/26(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度注意力的自适应多尺度视觉特征表达方法及系统 (57)摘要本发明公开了基于深度注意力的自适应多尺度视觉特征表达方法及系统，包括：获取原始神经网络模型作为SDA网络模块的主干分支，用于分层特征的提取；设计SDA网络模块的轻量化深度注意力分支，用于动态加权分层特征；堆叠多个SDA网络模块构成神经网络，即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法；对自适应多尺度特征表达神经网络SDA ‑ Net进行参数优化，所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。权利要求书1页说明书7页附图3页 CN 115546503 A 2022.12.30 CN 115546503 A 1.基于深度注意力的自适应多尺度视觉特征表达方法，其特征是，包括：获取原始神经网络模型作为SDA网络模块的主干分支，用于分层特征的提取；设计SDA 网络模块的轻量化深度注意力分支，用于动态加权分层特征；堆叠多个SDA网络模块构成神经网络，即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法；对自适应多尺度特征表达神经网络SDA ‑Net进行参数优化，所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。 2.如权利要求1所述的方法，其特征是，所述方法还包括：自适应多尺度特征表达神经网络SDA‑Net可作为网络主干对输入的图像进行图像分类、目标检测和实例分割。 3.如权利要求1所述的方法，其特征是，所述获取原始神经网络模型作为SDA网络模块的主干分支，用于分层特征的提取；还包括：从获取原始神经网络模型的主干分支中间块的输出特征中提取一个特征图序列Z=[Z1， Z2，…， Zm]。 4.如权利要求1所述的方法，其特征是，设计SDA网络模块的轻量化深度注意力分支，用于动态加权分层特征；具体步骤包括：通过使用元素求和方法来合并主干分支的层次结构特征获得融合特征F；利用GAP对 F特征图的空间信息进行聚合，生成全局空间上下文描述符 u； u被输入到两个1 ×1卷积中，；将v沿深度维度对齐，通过重塑操作得到vT，再采用softmax激活函数实施软加权机制，；在每个SDA模块的末尾，根据输入对象的尺度通过跨块特征进行软加权，自适应融合不同尺度的语义信息。 5.如权利要求1所述的方法，其特征是，堆叠多个SDA网络模块构成神经网络，即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法。 6.如权利要求1所述的方法，其特征是，对自适应多尺度特征表达神经网络SDA ‑Net进行参数优化，所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干；具体步骤包括：采用随机梯度下降算法SGD，对SDA ‑Net神经网络模型进行优化，得到用于图像分类的神经网络模型，也将其S DA‑Net可用于目标检测和实例分割任务。 7.基于深度注意力的自适应多尺度视觉特征表达系统，其特征是，包括：主干分支模块，获取原始神经网络模型作为SDA网络模块的主干分支，用于分层特征的提取；深度注意力分支模块，设计SDA网络模块的轻量化深度注意力分支，用于动态加权分层特征；堆叠模块，多个SDA模块堆叠构成神经网络，即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法；优化模块，对自适应多尺度特征表达神经网络SDA ‑Net进行参数优化，得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。 8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1 ‑7任一项所述的方法。 9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1 ‑7任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 115546503 A 2基于深度注意力的自适应多尺度视觉特征表达方法及系统技术领域 [0001]本申请涉及多尺度视觉特征表达技术领域，特别是涉及自适应多尺度视觉特征表达方法及系统。背景技术 [0002]由于目标对象的尺寸大小不同，多尺度特征表达与对各种计算机视觉任务具有重要的现实意义，包括图像分类、对象检测、语义分割和实例分割等。因此，多尺度特征表达广泛应用于卷积神经网络(CNN)的设计中，如Res2Net、 PyConv和EPSANet。其中，多核卷积是最常用的方法之一，它利用不同的核大小或多核级联提取不同尺度的特征，并对丰富的多尺度信息进行融合。 [0003]虽然这样的多核方法可以感知不同的尺度，但它们往往会迅速增加感受野的大小，这在对小目标对象进行识别时存在缺点。例如，最近提出的EPSANet，它是ResNet的变体神经网络，利用金字塔分割注意力模块取代了3 ×3卷积，提高了多尺度特征表达能力。该模块由若干组具有不同核大小的卷积组成，例如3、 5、 7和9。因此，这个网络输出由多个不同大小感受野的组成部分构成。 3 ×3卷积贡献了最小部分的感受野，在感受野设置方面与 ResNet相当。其他具有较大核的卷积增加了感受野的大小。换句话说， EPSANet实现了广泛的有效感受野，范围从相当于ResNet的最小部分开始。 [0004]然而，这种大的感受野更倾向于识别大的目标对象，而忽略小的目标对象。因此，如何设计一个自适应的多尺度神经网络是提取从小到大范围感受野的关键，以适应于不同尺度大小的目标。发明内容 [0005]为了解决现有技术的不足，本申请提供了基于深度注意力的自适应多尺度视觉特征表达方法及系统。 [0006]为实现上述目的，本发明一个或多个实施例提供了如下技术方案：第一方面，基于深度注意力的自适应多尺度视觉特征表达方法，包括：获取原始神经网络模型作为S DA网络模块的主干分支，用于分层特征的提取；设计SDA网络模块的轻量化深度注意力分支，用于动态加权分层特征；堆叠多个SDA网络模块构成神经网络，即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法；对自适应多尺度特征表达神经网络SDA ‑Net进行参数优化，所得到的神经网络模型可用于图像分类、目标检测和语义分割等视觉任务的主干。 [0007]第二方面，一个或多个实施例提供了基于深度注意力的自适应多尺度视觉特征表达系统，包括：主干分支模块，获取原始神经网络模型作为SDA网络模块的主干分支，用于分层特征的提取；说　明　书 1/7 页 3 CN 115546503 A 3

专利 基于深度注意力的自适应多尺度视觉特征表达方法及系统

专利基于深度注意力的自适应多尺度视觉特征表达方法及系统