(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210645355.0
(22)申请日 2022.06.08
(71)申请人 国网浙江省电力有限公司
地址 310007 浙江省杭州市黄龙路8号
申请人 国网浙江省电力有限公司双创中心
(72)发明人 龚向阳 张明达 陈高辉 杨跃平
万能 王思谨
(74)专利代理 机构 杭州华鼎知识产权代理事务
所(普通合伙) 33217
专利代理师 项军
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)G06V 10/774(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
适用于登杆机 器人的图像识别系统
(57)摘要
本申请实施例提出了适用 于登杆机器人的
图像识别系统, 包括基础单元, 用于对基于深度
卷积网络的图像 分类网络改造得到, 实现提取输
入图像的特征信息; 颈部单元, 用于扩大模型的
感受野和对不同大小的特征图进行特征融合; 头
部单元, 用于根据前述两个网络模块提取的最终
特征进行分类和包围框的回归, 并得到最终的预
测结果。 通过记录作业人员作业过程, 实现针对
工作人员安全违规行为, 进行实时检测, 并及时
示警。
权利要求书2页 说明书6页 附图3页
CN 115170861 A
2022.10.11
CN 115170861 A
1.适用于登杆机器人的图像识别系统, 其特 征在于, 所述系统包括:
基础单元, 用于对基于深度卷积网络的图像分类网络改造得到, 实现提取输入图像的
特征信息;
颈部单元, 用于扩大模型的感受野和对不同大小的特 征图进行 特征融合;
头部单元, 用于根据前述两个网络模块提取的最终特征进行分类和包围框的回归, 并
得到最终的预测结果。
2.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述基础单
元包括:
采用跨阶段局部瓶颈Bot tleneckCS P模块作为基础单 元的基础模块,
C1和C2分别表示该模块的输入特征图和最终输出特征图的通道数; r为通道扩张系数,
默认为0.5, 以减少参数量; n为该模块中Bottleneck子模块的堆叠次数; [kxk,C]代表C个
kxk大小的卷积核, 默认步长为1;
代表逐元素相加,
代表两个特征图在
通道维度的拼接操作; BN代表批归一化操作; Hardswish和LeakyReLU是两种常见的激活函
数, 表达式如下 所示;
LeakyReLU(x)=max(0,x)+α *mi n(0,x);
其中, 默认取0.1。
3.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述基础单
元包括:
跨阶段局部瓶颈Bot tleneckCS P模块将输入分离成两个分支;
一个分支通过一个1x1卷积改变输出特征图的通道数, 用于后续的特征拼接, 增加模型
训练时梯度回传的路径;
另一个分支经n个Bot tleneck子模块操作, 通过拼接和CBM操作将两个分支合并。
4.根据权利要求3所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述基础单
元包括:
采用Focus下采样模块, 通过等间隔采样操作得到宽高为输入特征图的1/2、 通道数为
4C1的特征图, 再经过1x1卷积、 BN和Hardsw ish操作输出通道数为C2的特 征图。
5.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述颈部单
元包括空间金字塔池化模块, 具体用于:
通过1x1卷积降低通道维数, 减少计算 量;
通过3个不同大小的最大池化操作 得到3个不同感受野的特征图, 并和原始输入的特征
图拼接, 在保留原 始输入特 征信息的基础上增强模型多尺度检测的能力;
经过1x1卷积、 BN和Hardswish操作, 进一步组合不同感受野的特征, 得到融合了丰富感
受野的特 征图, 并可根据需要输出通道数为C2的特 征图。
6.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述头部单
元包括:权 利 要 求 书 1/2 页
2
CN 115170861 A
2沿用YOLOv3 的稀疏预测方式构建基于YOLOv5的登杆工作人员检测模型的整体网络结
构;
通过多个level特 征图的充分融合, 得到用于最终预测的特 征图。
7.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述图像识
别系统还包括损失函数构建单元, 具体由分类损失、 置信度损失和坐标回归损失三单元组
成;
根据头部单元的稀疏预测方式, 分类损 失和置信度损 失均采用二元交叉熵损 失, 采用
Sigmoid函数将预测结果限制在[0,1]之间实现多标签分类, 具体公式如下 所示:
BCELoss(x)=‑ω[p·ylogσ(x)+(1 ‑y)log(1‑σ(x)];
其中, ω代表尺度系数, 一般默认取1.0; p代表正样本加权系数, 可根据实际训练需要
进行微调, 一般而言, p>1增加模型的召回率, p <1增加模 型的精确率; y代表是否为正负样
本, y=1代 表正样本, y=0代 表负样本。
8.根据权利要求1所述的适用于登杆机器人的图像识别系统, 其特征在于, 所述图像识
别系统还 包括训练优化单 元, 具体包括:
预训练子单元, 其中分类损失和置信度损失中BCELoss的正样本加权系数p都取1.0,
λobj、 λcls、 λbox分别取0.05、 0.5和1.0, 网络的训练周期设置为300次, 采用随机梯度下降方式
更新参数, 采用预 热方式调整学习率大小, 初始学习率设置为0.01, 动量项设置为0.937;
微调子单元, 将登杆人员 检测模型的基础单元权重冻结, 仅更新颈部单元和头部单元
的权重参数, 加快模型训练, 分类损失和置信度损失中BCELoss 的正样本加 权系数p分别 取
0.631和0.9 11, λobj、 λcls、 λbox分别取0.0296、 0.243和0.301, 网络的训练周期 设置为100次,
采用随机梯度下降方式更新参数和warm up方式调整学习率大小, 初始学习率设置为
0.0032, 动量项设置为0.843 。权 利 要 求 书 2/2 页
3
CN 115170861 A
3
专利 适用于登杆机器人的图像识别系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:51:15上传分享