说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211272982.0 (22)申请日 2022.10.18 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 相艳 谭晓聪 郭军军 王红斌  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于一致性约束图卷积网络的多模态 情绪识别方法 (57)摘要 本发明涉及一种基于一致性约束图卷积网 络的多模态情绪识别方法, 属于情绪识别技术领 域。 目前大多数多模态研究主要集中在通过特征 拼接来简单地建模多模态信息, 或者使用图卷积 网络来学习不同话语(样本)和带有情感标签的 分类特征; 本发明以话语为节点, 根据两个节点 之间的不同模态关系构建图卷积网络, 同时, 将 同一说话者在对话中的一致性损失和同一话语 中不同模态特征的一致性损失作为正则项添加 到模型损失中, 通过这样做, 本发明对应模型调 整了话语特征来更好地预测情绪类别。 在两个公 共基准数据集IEMOCAP和MELD上评估了本方法, 结果表明, 在多模态会话环境下, 本方法优于其 他方法。 权利要求书2页 说明书7页 附图1页 CN 115438750 A 2022.12.06 CN 115438750 A 1.一种基于一致性约束图卷积网络的多模态情绪识别方法, 其特征在于: 所述方法包 括如下步骤: Step1、 对数据集进行 预处理; Step2、 对不同的模态信息进行编码; Step3、 构建图卷积网络的基本架构, 其中包括邻接矩阵的节点与边; Step4、 对图的特 征进行学习; Step5、 提取说话人级别的一 致性约束; Step6、 提取不同模态间的一 致性约束; Step7、 将经 过图卷积网络的特 征送入情绪分类 器, 得到节点的情绪分类。 2.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step3包括构建图卷积网络邻接矩阵的图节点, 构建图卷积网络邻接矩阵的边; 对于节点采用句子级来表示, 在 对话的数据集中, 把每个对话中的每个话语作为每个节点, 在多模态的表示下, 每一句话分别有三种模态的表示, 所以有N个话语时, 有3N个节点。 3.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step3中的构造邻接矩阵的节点与边, 对于节点之间的边, 对于相同模态与不同 模态有不同的构建方法, 分为两种情况; 第一种情况, 如果两个节点来自不同的对话, 则它们的不同模态特征不会被传递; 在这 种情况下, 将这两个节点的边权值设置为0; 采用角相似度来衡量任意两个节点的边的权 重; 其中, 分别表示第i和第j个utterance某种相同模态的初始特征, a、 t、 v表示语音模态、 文本模态、 图像模态, sim是余弦相似度函数; 在第二种情况下, 如果两个节点来自同一个对话, 那么它们之间的不同模态特征也是 相关的, 需要 进行特征传递, 两个节点的边的权 重也通过角相似度来衡量: 其中, 分别表示第i和第j个utterance的两种不同模态的初始特 征, 4.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step4中, 根据节点之间边的权重计算方法构建邻接矩阵后, 对于节点的某种模 态特征, 构建3种邻接矩阵来进行特征传递和学习; 对于节点的某种模态特征, 分别考虑此 某种模态特征与其自身模态以及另外两个模态的关系来构建, 其中, 节点的模态包括语音 模态、 文本模态、 图像模态。 5.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step5中, 关于说话人级别的一致性约束, 在经过l层的deepGCN模型编码后, 每个 节点都融合了其他节点的多种模态信息; 假设数据集中有M个说话人, 第m个说话人在同一权 利 要 求 书 1/2 页 2 CN 115438750 A 2个对话中有K句utterances, 同一个说话人不会出现在两个dialogue中, 即有K个图卷积特 征向量, 设定第 m个说话人的第k句utterance的图卷积特征向量表示为 将这K 个节点特征向量进行拼接, 得到该说话人的特征矩阵 然后进行meanpooling 操作, 得到该说话人的平均特 征向量 其中·表示点积 运算, ||·||表示l2向量的范数, dl为一限定 维数, 然后, 计算了数据集 的总说话 者一致性损失Lspk: 6.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step6中, 关于模态间的一致性约束, 以文本模态特征为基准, 使语音模态特征和 图像模态特征接近于文本模态特征; 具体来说, 计算了ui的语音特征、 图像特征和文本特征 之间的余弦相似度, 并将其作为 一种一致性损失: 然后, 对数据集中话语的一 致性损失进行总结, 得到总的模态一 致性损失: 为l+1层的语言模态的特征表示, 为l+1层的文本模态的特征表示, 为 l+1层的图像模态的特 征表示, ui第i个utterance。 7.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法, 其特征 在于: 所述Step7中, 将节 点的卷积特征 送到一个具有两个全连接层的MLP和一个 Softmax函数中, 以获得 该节点属于不同情绪类别的概 率: 选择与最大概率值对应的情绪类别 作为第i个utteranc e ui的情绪标签 并使用交叉 熵作为类别损失函数: 其中pi[j]是j类ut terance ui的模型预测概率, yi[j]是j类ut terance ui的情感标签; 在模型训练中, 模型结合了分类损失、 说话人一致性损失、 模态一致性损失和l2正则 化, 具体公式为: L=Lcls+λ1Lspk+λ2Lmod+λ3|| θ|2 其中, Lspk为数据集 的总说话者一致性损失, Lmod为总的模态一致性损失, λ1, λ1, λ1分别 为三个正则项的权 重, θ表示可训练参数的集 合。权 利 要 求 书 2/2 页 3 CN 115438750 A 3

PDF文档 专利 一种基于一致性约束图卷积网络的多模态情绪识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于一致性约束图卷积网络的多模态情绪识别方法 第 1 页 专利 一种基于一致性约束图卷积网络的多模态情绪识别方法 第 2 页 专利 一种基于一致性约束图卷积网络的多模态情绪识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。