专利 一种基于一致性约束图卷积网络的多模态情绪识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211272982.0 (22)申请日 2022.10.18 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人相艳　谭晓聪　郭军军　王红斌　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于一致性约束图卷积网络的多模态情绪识别方法 (57)摘要本发明涉及一种基于一致性约束图卷积网络的多模态情绪识别方法，属于情绪识别技术领域。目前大多数多模态研究主要集中在通过特征拼接来简单地建模多模态信息，或者使用图卷积网络来学习不同话语(样本)和带有情感标签的分类特征；本发明以话语为节点，根据两个节点之间的不同模态关系构建图卷积网络，同时，将同一说话者在对话中的一致性损失和同一话语中不同模态特征的一致性损失作为正则项添加到模型损失中，通过这样做，本发明对应模型调整了话语特征来更好地预测情绪类别。在两个公共基准数据集IEMOCAP和MELD上评估了本方法，结果表明，在多模态会话环境下，本方法优于其他方法。权利要求书2页说明书7页附图1页 CN 115438750 A 2022.12.06 CN 115438750 A 1.一种基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述方法包括如下步骤： Step1、对数据集进行预处理； Step2、对不同的模态信息进行编码； Step3、构建图卷积网络的基本架构，其中包括邻接矩阵的节点与边； Step4、对图的特征进行学习； Step5、提取说话人级别的一致性约束； Step6、提取不同模态间的一致性约束； Step7、将经过图卷积网络的特征送入情绪分类器，得到节点的情绪分类。 2.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step3包括构建图卷积网络邻接矩阵的图节点，构建图卷积网络邻接矩阵的边；对于节点采用句子级来表示，在对话的数据集中，把每个对话中的每个话语作为每个节点，在多模态的表示下，每一句话分别有三种模态的表示，所以有N个话语时，有3N个节点。 3.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step3中的构造邻接矩阵的节点与边，对于节点之间的边，对于相同模态与不同模态有不同的构建方法，分为两种情况；第一种情况，如果两个节点来自不同的对话，则它们的不同模态特征不会被传递；在这种情况下，将这两个节点的边权值设置为0；采用角相似度来衡量任意两个节点的边的权重；其中，分别表示第i和第j个utterance某种相同模态的初始特征， a、 t、 v表示语音模态、文本模态、图像模态， sim是余弦相似度函数；在第二种情况下，如果两个节点来自同一个对话，那么它们之间的不同模态特征也是相关的，需要进行特征传递，两个节点的边的权重也通过角相似度来衡量：其中，分别表示第i和第j个utterance的两种不同模态的初始特征， 4.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step4中，根据节点之间边的权重计算方法构建邻接矩阵后，对于节点的某种模态特征，构建3种邻接矩阵来进行特征传递和学习；对于节点的某种模态特征，分别考虑此某种模态特征与其自身模态以及另外两个模态的关系来构建，其中，节点的模态包括语音模态、文本模态、图像模态。 5.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step5中，关于说话人级别的一致性约束，在经过l层的deepGCN模型编码后，每个节点都融合了其他节点的多种模态信息；假设数据集中有M个说话人，第m个说话人在同一权　利　要　求　书 1/2 页 2 CN 115438750 A 2个对话中有K句utterances，同一个说话人不会出现在两个dialogue中，即有K个图卷积特征向量，设定第 m个说话人的第k句utterance的图卷积特征向量表示为将这K 个节点特征向量进行拼接，得到该说话人的特征矩阵然后进行meanpooling 操作，得到该说话人的平均特征向量其中·表示点积运算， ||·||表示l2向量的范数， dl为一限定维数，然后，计算了数据集的总说话者一致性损失Lspk： 6.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step6中，关于模态间的一致性约束，以文本模态特征为基准，使语音模态特征和图像模态特征接近于文本模态特征；具体来说，计算了ui的语音特征、图像特征和文本特征之间的余弦相似度，并将其作为一种一致性损失：然后，对数据集中话语的一致性损失进行总结，得到总的模态一致性损失：为l+1层的语言模态的特征表示，为l+1层的文本模态的特征表示，为 l+1层的图像模态的特征表示， ui第i个utterance。 7.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法，其特征在于：所述Step7中，将节点的卷积特征送到一个具有两个全连接层的MLP和一个 Softmax函数中，以获得该节点属于不同情绪类别的概率：选择与最大概率值对应的情绪类别作为第i个utteranc e ui的情绪标签并使用交叉熵作为类别损失函数：其中pi[j]是j类ut terance ui的模型预测概率， yi[j]是j类ut terance ui的情感标签；在模型训练中，模型结合了分类损失、说话人一致性损失、模态一致性损失和l2正则化，具体公式为： L＝Lcls+λ1Lspk+λ2Lmod+λ3|| θ|2 其中， Lspk为数据集的总说话者一致性损失， Lmod为总的模态一致性损失， λ1， λ1， λ1分别为三个正则项的权重， θ表示可训练参数的集合。权　利　要　求　书 2/2 页 3 CN 115438750 A 3

专利 一种基于一致性约束图卷积网络的多模态情绪识别方法

专利一种基于一致性约束图卷积网络的多模态情绪识别方法