(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211285533.X
(22)申请日 2022.10.20
(71)申请人 济南大学
地址 250000 山东省济南市南 辛庄西路3 36
号
(72)发明人 郭庆北 刘圣勇 李忠涛 冯志全
徐涛 田京兰 杨晓晖
(51)Int.Cl.
G06V 10/42(2022.01)
G06V 10/26(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度注意力的自适应多尺度视觉特征
表达方法及系统
(57)摘要
本发明公开了基于深度注意力的自适应多
尺度视觉特征表达方法及系统, 包括: 获取原始
神经网络模型作为SDA网络模块的主干分支, 用
于分层特征的提取; 设计SDA网络模块的轻量化
深度注意力分支, 用于动态加权分层特征; 堆叠
多个SDA网络模块构成神经网络, 即为基于深度
注意力的自适应多尺度视觉特征表达的神经网
络方法; 对自适应多尺度特征表达神经网络SDA ‑
Net进行参数优化, 所得到的神经网络模型可用
于图像分类、 目标检测和语义分割等视觉任务的
主干。
权利要求书1页 说明书7页 附图3页
CN 115546503 A
2022.12.30
CN 115546503 A
1.基于深度注意力的自适应多尺度视 觉特征表达方法, 其特 征是, 包括:
获取原始神经网络模型作为SDA网络模块的主干分支, 用于分层特征的提取; 设计SDA
网络模块的轻量化深度 注意力分支, 用于动态加权 分层特征; 堆叠多个SDA网络模块构成神
经网络, 即为基于深度注意力的自适应多尺度视觉特征表达的神经网络方法; 对自适应多
尺度特征表达神经网络SDA ‑Net进行参数优化, 所得到的神经网络模 型可用于图像 分类、 目
标检测和语义分割等视 觉任务的主干 。
2.如权利要求1所述的方法, 其特征是, 所述方法还包括: 自适应多尺度特征表达神经
网络SDA‑Net可作为网络主干对输入的图像进行图像分类、 目标检测 和实例分割。
3.如权利要求1所述的方法, 其特征是, 所述获取原始神经网络模型作为SDA网络模块
的主干分支, 用于分层特征的提取; 还包括: 从获取原始神经网络模 型的主干分支中间块的
输出特征中提取一个特 征图序列Z=[Z1, Z2,…, Zm]。
4.如权利要求1所述的方法, 其特征是, 设计SDA网络模块的轻量化深度注意力分支, 用
于动态加权分层特征; 具体步骤包括: 通过使用元素求和方法来合并主干分支的层次结构
特征获得融合特征F; 利用GAP对 F特征图的空间信息进 行聚合, 生成全局空间上下文描述符
u; u被输入到两个1 ×1卷积中,
; 将v沿深度维度对齐, 通过重塑操
作得到vT, 再采用softmax激活函数实施软加权机制,
; 在每个SDA模块的末尾,
根据输入 对象的尺度通过跨 块特征进行软加权, 自适应融合 不同尺度的语义信息 。
5.如权利要求1所述的方法, 其特征是, 堆叠多个SDA网络模块构成神经网络, 即为基于
深度注意力的自适应多尺度视 觉特征表达的神经网络方法。
6.如权利要求1所述的方法, 其特征是, 对自适应多尺度特征表达神经网络SDA ‑Net进
行参数优化, 所得到的神经网络模型可用于图像分类、 目标检测和语义分割等视觉任务的
主干; 具体步骤包括: 采用随机梯度下降算法SGD, 对SDA ‑Net神经网络模型进行优化, 得到
用于图像分类的神经网络模型, 也将其S DA‑Net可用于目标检测 和实例分割任务。
7.基于深度注意力的自适应多尺度视 觉特征表达系统, 其特 征是, 包括:
主干分支模块, 获取原始神经网络模型作为SDA网络模块的主干分支, 用于分层特征的
提取; 深度注意力分支模块, 设计SDA网络模块的轻量化深度注意力分支, 用于动态加权分
层特征; 堆叠模块, 多个SDA模块堆叠构成神经网络, 即为基于深度注意力的自适应多尺度
视觉特征表达的神经网络方法; 优化模块, 对自适应多尺度特征表达神经网络SDA ‑Net进行
参数优化, 得到的神经网络模型 可用于图像分类、 目标检测 和语义分割等视 觉任务的主干 。
8.一种电子设备, 其特征是, 包括: 一个或多个处理器、 一个或多个存储器、 以及一个或
多个计算机程序; 其中, 处理器与存储器连接, 上述一个或多个计算机程序被存储在 存储器
中, 当电子 设备运行时, 该 处理器执行该存储器存储的一个或多个计算机程序, 以使电子设
备执行上述权利要求1 ‑7任一项所述的方法。
9.一种计算机可读存储介质, 其特征是, 用于存储计算机指令, 所述计算机指令被处理
器执行时, 完成权利要求1 ‑7任一项所述的方法。权 利 要 求 书 1/1 页
2
CN 115546503 A
2基于深度注意力的 自适应多尺度视觉特征表达方 法及系统
技术领域
[0001]本申请涉及多尺度视觉特征表达技术领域, 特别是涉及自适应多尺度视觉特征表
达方法及系统。
背景技术
[0002]由于目标对象的尺寸大小不同, 多尺度特征表达与 对各种计算机视觉任务具有重
要的现实意义, 包括图像分类、 对象检测、 语义分割和实例分割等。 因此, 多尺度特征表达广
泛应用于卷积神经网络(CNN)的设计中, 如Res2Net、 PyConv和EPSANet。 其中, 多核卷积是最
常用的方法之一, 它利用不同的核大小或多核级联提取不同尺度的特征, 并对丰富的多尺
度信息进行融合。
[0003]虽然这样的多核方法可以感知不同的尺度, 但它们往往会迅速增加感受野的大
小, 这在对小目标对象进行识别时存在缺点。 例如, 最近提出的EPSANet, 它是ResNet的变体
神经网络, 利用金字塔分割注意力模块取代了3 ×3卷积, 提高了多尺度特征表达能力。 该模
块由若干组具有不同核大小的卷积组成, 例如3、 5、 7和9。 因此, 这个网络输出由多个不同大
小感受野的组成部分构成。 3 ×3卷积贡献了最小部分的感受野, 在感受野设置方面与
ResNet相当。 其他具有较大核的卷积增加了感受野的大小。 换句话说, EPSANet实现了广泛
的有效感受野, 范围从相当于ResNet的最小部分开始。
[0004]然而, 这种大的感受野更倾向于识别大的目标对象, 而忽略小的目标对象。 因此,
如何设计一个自适应的多尺度神经网络是提取从小到大范围感受野的关键, 以适应于不同
尺度大小的目标。
发明内容
[0005]为了解决现有技术的不足, 本申请提供了基于深度注意力的自适应多尺度视觉特
征表达方法及系统。
[0006]为实现上述目的, 本发明一个或多个实施例提供了如下技 术方案:
第一方面, 基于深度注意力的自适应多尺度视 觉特征表达方法, 包括:
获取原始神经网络模型作为S DA网络模块的主干分支, 用于分层特 征的提取;
设计SDA网络模块的轻量 化深度注意力分支, 用于动态加权分层特 征;
堆叠多个SDA网络模块构成神经网络, 即为基于深度注意力的自适应多尺度视觉
特征表达的神经网络方法;
对自适应多尺度特征表达神 经网络SDA ‑Net进行参数优化, 所得到的神 经网络模
型可用于图像分类、 目标检测 和语义分割等视 觉任务的主干 。
[0007]第二方面, 一个或多个实施例提供了基于深度注意力的自适应多尺度视觉特征表
达系统, 包括:
主干分支模块, 获取原始神经 网络模型作为SDA网络模块的主干分支, 用于分层特
征的提取;说 明 书 1/7 页
3
CN 115546503 A
3
专利 基于深度注意力的自适应多尺度视觉特征表达方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:23上传分享