专利 一种面向不平衡数据集针对少数类的意图识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211270264.X (22)申请日 2022.10.18 (71)申请人中科合肥智慧农业协同创新研究院地址 230031 安徽省合肥市长丰县双凤开发区金江路32 号合肥智慧农业协同创新研究院 (72)发明人王儒敬　刘海燕　计洁　李志远　胡宜敏　金洲　王雪　史杨　张永恒　 (74)专利代理机构合肥国和专利代理事务所 (普通合伙) 34131 专利代理师吴娜 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向不平衡数据集针对少数类的意图识别方法 (57)摘要本发明涉及一种面向不平衡数据集针对少数类的意图识别方法，包括：准备数据集与确定少数类；采样与文本编码；生成假样本；混合采样样本与假样本，建立生成式对抗网络辅助模型，利用采样样本和假样本训练生成式对抗网络辅助模型；在训练完成的生成式对抗网络辅助模型的基础上，根据确定的少数类别信息，利用生成器生成对应意图的新样本；根据生成的对应意图的新样本训练生成式对抗网络辅助模型；对最终得到的生成式对抗网络辅助模型进行评价，判断生成式对抗网络辅助模型在少数类上的识别准确度。本发明利用了生成式对抗网络，通过两阶段训练，学习少数类在特征空间中的分布，增强生成式对抗网络辅助模型对少数类的识别能力。权利要求书3页说明书8页附图2页 CN 115438647 A 2022.12.06 CN 115438647 A 1.一种面向不平衡数据集针对少数类的意图识别方法，其特征在于：该方法包括下列顺序的步骤： (1)准备数据集与确定少数类：根据问答系统所属领域，明确问答系统所覆盖的用户意图类型，采集文本数据构建数据集；根据数据集中各意图类别的数量信息，确定数据集中的少数类别； (2)采样与文本编码：从数据集中随机采样数据作为采样样本，利用文本编码器对采样样本进行编码，得到句子表示； (3)生成假样本：利用生成器随机生成数据作为假样本； (4)样本混合与模型训练：混合采样样本与假样本，建立生成式对抗网络辅助模型，利用采样样本和假样本训练生成式对抗网络辅助模型，所述生成式对抗网络辅助模型由生成器、判别器和文本编码器组成； (5)生成少数类样本：在训练完成的生成式对抗网络辅助模型的基础上，根据确定的少数类别信息，利用生成器生成对应意图的新样本； (6)模型增强训练：根据生成的对应意图的新样本训练生成式对抗网络辅助模型； (7)少数类准确率评价：对最终得到的生成式对抗网络辅助模型进行评价，判断生成式对抗网络辅助模型在少数类上的识别准确度。 2.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(1)具体包括以下步骤： (1a)统计获得的数据集信息，所述数据集信息包括数据集大小信息、意图类别数量信息和各意图类别样本数量信息； (1b)根据所获取的数据集的信息，计算出每个类别的占比yi：式中， T表示数据集大小，即样本总数量； Ni表示意图类别i的样本数量； (1c)根据少数类判定函数确定数据集中的少数类信息，所述少数类判定函数如公式 (2)所示：式中， n表示数据集中的意图类别数量；所述少数类判定函数的判定方法为：给定意图类别i，当其少数类判定函数值为1时，判定该意图类别为少数类，当其少数类判定函数值为0时，判定该意图类别不为少数类；所述少数类判定函数的特征表现为：当数据集中的样本总数量T不变时，数据集包含意图类别数量越多，即n越大，对于给定意图类别i，判定其为少数类所要求的样本数量越小；反之，判定其为少数类所要求的样本数量越大；当数据集中包含的意图类别数量n不变时，数据集包含的样本总数量越多，即T越大，对于给定意图类别i，判定其为少数类所要求的样本数量越大；反之，判定其为少数类所要求的样本数量越小。权　利　要　求　书 1/3 页 2 CN 115438647 A 23.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(2)具体包括以下步骤： (2a)从数据集中随机采样a个采样样本，作为单次生成式对抗网络辅助模型训练的批数据； (2b)利用文本编码器对a个采样样本进行编码，得到样本数据的分布式表示即句子表示，并且标记为{0,1,. ..,c}： E＝TextEncoder(X) (3) 式中， X表示采样样本数据， TextEncoder表示文本编码器， E表示采样样本对应的分布式表示，所述TextEncoder采用神经网络或深度模型。 4.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(3)具体包括以下步骤： (3a)给定数据集的少数类信息，利用生成器生成对应的样本，由公式(4)计算得到：式中， I表示确定的少数类信息； A为全一矩阵； N为高斯噪声， W、 b分别为模型权值和偏差参数； (3b)将生成器生成的样本标记为假样本。 5.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(4)具体包括以下步骤： (4a)将采样样本和生成样本作为一批训练数据，输入给判别器； (4b)根据批训练损失，训练、微调文本编码器和判别器，批训练损失由公式(5)计算得到：式中， d表示少数类的数量， D表示判别器，所述判别器为多层感知机； a表示采样样本的数量， Ei表示采样样本的分布式表示， Eif表示生成器所生成的样本。 6.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(5)具体包括以下步骤： (5a)给定数据集的少数类信息，利用生成器生成对应意图的新样本：式中， I表示确定的少数类信息； A为全一矩阵； N为高斯噪声， W、 b分别为模型权值和偏差参数； (5b)根据少数类信息，将对应生成样本标记为对应意图识别。 7.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法，其特征在于：所述步骤(6)具体包括以下步骤： (6a)将生成少数类样本数据作为一批训练数据，输入给判别器； (6b)根据批训练损失，训练、微调文本编码器和生成器，批训练损失函数为：权　利　要　求　书 2/3 页 3 CN 115438647 A 3

专利 一种面向不平衡数据集针对少数类的意图识别方法

专利一种面向不平衡数据集针对少数类的意图识别方法