专利 针对脉冲相机的单目深度估计方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210635312.4 (22)申请日 2022.06.07 (71)申请人北京智源人工智能研究院地址 100084 北京市海淀区中关村东路1号院8号楼三层B201D-1 (72)发明人唐路路　黄铁军　 (74)专利代理机构北京动力号知识产权代理有限公司 1 1775 专利代理师梁艳 (51)Int.Cl. G06T 7/50(2017.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称针对脉冲相机的单目深度估计方法及装置 (57)摘要本申请提供一种针对脉冲相机的单目深度估计方法及装置，方法包括：获取脉冲相机输出的非结构化的连续脉冲流；将所述连续脉冲流输入预设的单目深度估计模型，以使得该单目深度估计模型从所述连续脉冲流中挖掘空间和时间特征，并输出所述连续脉冲流对应的深度估计结果。本申请能够同时从脉冲相机输出的连续脉冲流中挖掘空间和时间特征，能够有效提高对脉冲相机进行单目深度估计预测过程的可靠性，并能够提高深度估计结果的准确性及有效性，进而能够进一步提高脉冲相机的应用可靠智能化程度。权利要求书2页说明书19页附图6页 CN 114998402 A 2022.09.02 CN 114998402 A 1.一种针对脉冲相机的单目深度估计方法，其特征在于，包括：获取脉冲相机输出的非结构化的连续脉冲流；将所述连续脉冲流输入预设的单目深度估计模型，以使得该单目深度估计模型从所述连续脉冲流中挖掘空间和时间特征，并输出所述连续脉冲流对应的深度估计结果。 2.根据权利要求1所述的针对脉冲相机的单目深度估计方法，其特征在于，还包括：采用训练数据集对预设的时空Transformer网络模型进行训练，以得到用于从所述训练数据集中的连续脉冲流中挖掘空间和时间特征并输出连续脉冲流对应的深度估计结果的单目深度估计模型。 3.根据权利要求2所述的针对脉冲相机的单目深度估计方法，其特征在于，所述训练数据集为一包含脉冲流和相应真实深度数据的合成脉冲数据集。 4.根据权利要求2所述的针对脉冲相机的单目深度估计方法，其特征在于，还包括：获取预先采用所述脉冲相机收集的包含有各类场景的真实脉冲序列以形成对应的真实数据集；采用所述真实数据集对训练得到的所述单目深度估计模型进行泛化性验证。 5.根据权利要求1所述的针对脉冲相机的单目深度估计方法，其特征在于，所述单目深度估计模型包括：脉冲嵌入模块和Transformer网络模型；所述脉冲嵌入模块用于提取脉冲流的时间及空间特征以得到对应的多个脉冲特征嵌入；所述Transformer网络模型用于获得各个脉冲嵌入的时空特征并对各个所述时空特征进行特征融合，以预测得到所述脉冲流的深度估计结果数据。 6.根据权利要求5所述的针对脉冲相机的单目深度估计方法，其特征在于，所述 Transformer网络模型包括：时空Transformer编码器和卷积解码器；所述时空Transformer编码器用于对各个所述脉冲嵌入通过多层自注意力机制进行时空特征提取，以得到各个所述脉冲嵌入的时空特征；所述卷积解码器用于对各个不同尺度的时空特征进行特征融合及上采样，以预测得到所述脉冲流的深度估计结果数据。 7.根据权利要求5所述的针对脉冲相机的单目深度估计方法，其特征在于，所述脉冲嵌入模块包括：时间分区、特征提取层、空间分区及特征合并层，其中，所述时间分区设有多尺度时间窗口；相对应的，所述多尺度时间窗口用于将输入所述脉冲嵌入模块的脉冲流划分为多个不重叠的块；所述特征提取层用于提取各个不重叠块的特征数据，该特征数据包括：局部特征和全局特征；所述空间分区用于将所述特征数据在空间域中进行拆分，得到时空特征数据；所述特征合并层用于将时空特征数据中的全局特征和局部特征进行合并以得到所述脉冲流对应的多个时空块，并将各个所述时空块确定为待输入所述Transformer网络模型的脉冲嵌入。 8.根据权利要求6所述的针对脉冲相机的单目深度估计方法，其特征在于，所述时空 Transformer编码器包括多个阶段，且每个阶段中均包含有多个时空Transformer块，每两权　利　要　求　书 1/2 页 2 CN 114998402 A 2个相邻阶段之间设有一个残差连接层；其中，所述时空Transformer块包括：配备3D移位窗口的多头自注意MSA模块，以及，由多个MLP层组成的前馈神经网络F FN；每个所述MSA模块和FFN之间均设有一个GELU层，每个所述MSA模块和FFN之前设有一个归一化层LN。 9.根据权利要求6所述的针对脉冲相机的单目深度估计方法，其特征在于，所述卷积解码器包括：多个残差块、多个特征融合层和一个预测头。 10.一种针对脉冲相机的单目深度估计装置，其特征在于，包括：数据获取模块，用于获取脉冲相机输出的非结构化的连续脉冲流；深度估计模块，用于将所述连续脉冲流输入预设的单目深度估计模型，以使得该单目深度估计模型从所述连续脉冲流中挖掘空间和时间特征，并输出所述连续脉冲流对应的目标深度估计结果。 11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的针对脉冲相机的单目深度估计方法。 12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至9任一项所述的针对脉冲相机的单目深度估计方法。权　利　要　求　书 2/2 页 3 CN 114998402 A 3

专利 针对脉冲相机的单目深度估计方法及装置

专利针对脉冲相机的单目深度估计方法及装置