专利 手语识别方法、装置、电子设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211281544.0 (22)申请日 2022.10.19 (71)申请人维沃移动通信有限公司地址 523863 广东省东莞市长安镇维沃路1 号 (72)发明人谢腾　 (74)专利代理机构北京远志博慧知识产权代理事务所 (特殊普通合伙) 11680 专利代理师李翠雅 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01)G06V 10/10(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称手语识别方法、装置、电子设备及可读存储介质 (57)摘要本申请公开了一种手语识别方法、装置、电子设备及可读存储介质，属于人工智能领域。该方法包括：获取第一图像帧中的目标用户的第一人体特征信息，该人体特征信息包括第一身体特征信息和第一手部特征信息；将所述第一人体特征信息输入翻译模型，分别对所述第一身体特征和所述第一手部特征信息进行加权处理，得到第二身体特征信息和第二手部特征信息；将所述第二身体特征信息和所述第二手部特征信息拼接，得到第二人体特征信息；对该第二人体特征信息进行分类处理，输出所述目标用户手语语义信息。权利要求书4页说明书15页附图6页 CN 115546897 A 2022.12.30 CN 115546897 A 1.一种手语识别方法，其特征在于，所述方法包括：获取第一图像帧中的目标用户的第一人体特征信息，所述人体特征信息包括第一身体特征信息和第一手部特征信息；将所述第一人体特征信息输入翻译模型，分别对所述第一身体特征和所述第一手部特征信息进行加权处理，得到第二身体特征信息和第二手部特征信息；将所述第二身体特征信息和所述第二手部特征信息拼接，得到第二人体特征信息；对所述第二人体特征信息进行分类处理，输出所述目标用户手语语义信息。 2.根据权利要求1所述的方法，其特征在于，所述分别对所述第一身体特征和所述第一手部特征信息进行加权处理，得到第二身体特征信息和第二手部特征信息，包括：将所述第一人体特征信息输入翻译模型，采用第一权重和第二权重对所述第一身体特征信息进行处理，得到所述第二身体特征信息，并采用所述第二权重和第三权重对所述第一手部特征信息进行处理，得到所述第二手部特征信息；其中，所述第一权重用于表征所述第一图像帧之前的图像帧中的身体特征信息与所述第一身体特征信息间的关联性；所述第二权重用于表征所述第一身体特征信息和所述第一手部特征信息间的关联性；所述第三权重用于表征所述第一图像帧之前的图像帧中的手部特征信息与所述第一手部特征信息间的关联性。 3.根据权利要求2所述的方法，其特征在于，所述翻译模型包括：第一多头注意力模块、三段式多头注意力模块残差和标准化模块以及前反馈模块；所述采用第一权重和第二权重对所述第一身体特征信息进行处理，得到第二身体特征信息，包括：基于所述第一多头注意力模块，采用所述第一权重对所述第一身体特征信息进行处理，得到第三身体特征信息；基于所述三段式多头注意力模块，采用所述第二权重对所述第一身体特征信息进行处理，得到第四身体特征信息；基于所述残差和标准化模块，计算所述第三身体特征信息和所述第四身体特征信息对应的均值和标准差值，并基于所述均值和标准差值对所述第三身体特征信息和所述第四身体特征信息进行处理；基于所述前反馈模块，将处理后的所述第三身体特征信息和所述第四身体特征信息中的所有特征信息进行融合，得到所述第二身体特征信息。 4.根据权利要求2或3所述的方法，其特征在于，所述翻译模型包括：第二多头注意力模块、三段式多头注意力模块残差和标准化模块以及前反馈模块；所述采用所述第二权重和第三权重对所述第一手部特征信息进行处理，得到第二手部特征信息，包括：基于所述第二多头注意力模块，采用所述第三权重对所述第一手部特征信息进行处理，得到第三手部特征信息；基于所述三段式多头注意力模块，采用所述第二权重对所述第一手部特征信息进行处理，得到第四手部特征信息；基于所述残差和标准化模块，计算所述第三手部特征信息和所述第四手部特征信息对权　利　要　求　书 1/4 页 2 CN 115546897 A 2应的均值和标准差值，并基于所述均值和标准差值对所述第三手部特征信息和所述第四手部特征信息进行处理；基于所述前反馈模块，将处理后的所述第三手部特征信息和所述第四手部特征信息中的所有特征信息进行融合，得到所述第二手部特征信息。 5.根据权利要求1所述的方法，其特征在于，所述获取第一图像帧中的目标用户的第一人体特征信息之前，所述方法还包括：获取第一图像帧中的所述目标用户的人体关节的关节信息，所述人体关节包括身体关节和手部关节；将所述目标用户的身体关节的关节信息进行拼接，得到第一身体关节信息，并将所述第一身体关节信息输入固定序列长标准化模块进行特征提取，得到所述第一身体特征信息；基于所述人体关节的关节信息，得到第一手部关节信息，并将所述第一手部关节信息输入所述固定序列长标准化模块进行特征提取，得到所述第一手部特征信息。 6.根据权利要求5所述的方法，其特征在于，所述基于所述人体关节的关节信息，得到第一手部关节信息，包括：基于所述人体关节的关节信息，计算所述目标用户的人体肩宽信息；基于所述人体肩宽信息以及所述目标用户的手部关节的关节信息，构建目标坐标系，所述目标坐标系是以所述目标用户的人体肩宽为边长、以所述目标用户的手部中心为中心的坐标系；将所述目标用户的手部关节的关节信息映射至所述目标坐标系，得到所述第一手部关节信息。 7.根据权利要求1所述的方法，其特征在于，所述对所述第二人体特征信息进行分类处理，输出所述目标用户手语语义信息，包括：将所述第二人体特征信息输入语义分析模型，获取与所述第二人体特征信息存在映射关系的语义分析信息，并基于所述语义分析信息，得到目标预测参数；所述目标预测参数包括所述第二人体特征信息所体现的用户手语的语义属于不同预设语义的概率；基于所述目标预测参数，得到所述目标用户手语语义信息。 8.一种手语识别装置，其特征在于，所述手语识别装置包括：获取模块和处理模块；所述获取模块，用于获取第一图像帧中的目标用户的第一人体特征信息，所述人体特征信息包括第一身体特征信息和第一手部特征信息；所述处理模块，用于将所述获取模块获取的所述第一人体特征信息输入翻译模型，分别对所述第一身体特征和所述第一手部特征信息进行加权处理，得到第二身体特征信息和第二手部特征信息；所述处理模块，还用于将所述第二身体特征信息和所述第二手部特征信息拼接，得到第二人体特征信息；所述处理模块，还用于对所述第二人体特征信息进行分类处理，输出所述目标用户手语语义信息。 9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于将所述第一人体特征信息输入翻译模型，采用第一权重和第权　利　要　求　书 2/4 页 3 CN 115546897 A 3

专利 手语识别方法、装置、电子设备及可读存储介质

专利手语识别方法、装置、电子设备及可读存储介质