(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211270264.X
(22)申请日 2022.10.18
(71)申请人 中科合肥智慧农业协同创新研究院
地址 230031 安徽省合肥市长 丰县双凤开
发区金江路32 号合肥智慧农业协同创
新研究院
(72)发明人 王儒敬 刘海燕 计洁 李志远
胡宜敏 金洲 王雪 史杨
张永恒
(74)专利代理 机构 合肥国和专利代理事务所
(普通合伙) 34131
专利代理师 吴娜
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/289(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向不平衡数据集针对少数类的意图
识别方法
(57)摘要
本发明涉及一种面向不平衡数据集针对少
数类的意图识别方法, 包括: 准备数据集与确定
少数类; 采样与文本编码; 生 成假样本; 混合采样
样本与假样本, 建立生成式对抗网络辅助模型,
利用采样样本和假样本训练生成式对抗网络辅
助模型; 在训练完成的生 成式对抗网络辅助模型
的基础上, 根据确定的少数类别信息, 利用生成
器生成对应意图的新样本; 根据生成的对应意图
的新样本训练生成式对抗网络辅助模 型; 对最终
得到的生 成式对抗网络辅助模型进行评价, 判断
生成式对抗网络辅助模型在少数类上的识别准
确度。 本发明利用了生成式对抗网络, 通过两阶
段训练, 学习少数类在特征空间中的分布, 增强
生成式对抗网络 辅助模型对少数类的识别能力。
权利要求书3页 说明书8页 附图2页
CN 115438647 A
2022.12.06
CN 115438647 A
1.一种面向不平衡数据集针对少数类的意图识别方法, 其特征在于: 该方法包括下列
顺序的步骤:
(1)准备数据集与确定少数类: 根据问答系统所属领域, 明确问答系统所覆盖的用户意
图类型, 采集文本数据构建数据集; 根据数据集中各意图类别的数量信息, 确定数据集中的
少数类别;
(2)采样与文本编码: 从数据集中随机采样数据作为采样样本, 利用文本编码器对采样
样本进行编码, 得到句子表示;
(3)生成假样本: 利用生成器随机生成数据作为 假样本;
(4)样本混合与模型训练: 混合采样样本与假样本, 建立生成式对抗网络辅助模型, 利
用采样样本和假样本训练生成 式对抗网络辅助模型, 所述生成 式对抗网络辅助模型由生成
器、 判别器和文本编码器组成;
(5)生成少数类样本: 在训练完成的生成式对抗网络辅助模型的基础上, 根据确定的少
数类别信息, 利用生成器生成对应意图的新样本;
(6)模型增强训练: 根据生成的对应意图的新样本训练生成式对抗网络 辅助模型;
(7)少数类准确率评价: 对最终得到的生成式对抗网络辅助模型进行评价, 判断生成式
对抗网络 辅助模型在少数类上的识别准确度。
2.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(1)具体包括以下步骤:
(1a)统计获得的数据集信息, 所述数据集信息包括数据集大小信息、 意 图类别数量信
息和各意图类别样本数量信息;
(1b)根据所获取的数据集的信息, 计算出每 个类别的占比yi:
式中, T表示数据集大小, 即样本总数量; Ni表示意图类别i的样本数量;
(1c)根据少数类判定函数确定数据集中的少数类信息, 所述少数类判定函数如公式
(2)所示:
式中, n表示数据集中的意图类别数量;
所述少数类判定函数的判定方法为: 给定意图类别i, 当其少数类判定函数值为1时, 判
定该意图类别为少数类, 当其少数类判定函数值 为0时, 判定该意图类别不 为少数类;
所述少数类判定函数的特 征表现为:
当数据集中的样本总数量T不变时, 数据集包含意图类别数量越多, 即n越大, 对于给定
意图类别i, 判定其为少数类所要求的样本数量越小; 反之, 判定其为少数类所要求的样本
数量越大;
当数据集中包含的意图类别数量n不变时, 数据集包含的样本总数量越多, 即T越大, 对
于给定意图类别i, 判定其为少数类所要求的样本数量越大; 反之, 判定其为少数类所要求
的样本数量越小。权 利 要 求 书 1/3 页
2
CN 115438647 A
23.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(2)具体包括以下步骤:
(2a)从数据集中随机采样a个采样样本, 作为单次生成式对抗网络辅助模型训练的批
数据;
(2b)利用文本编码器对a个采样样本进行编码, 得到样本数据的分布式表示即句子表
示, 并且标记为{0,1,. ..,c}:
E=TextEncoder(X) (3)
式中, X表示采样样本数据, TextEncoder表示文本编码器, E表示采样样本对应 的分布
式表示, 所述TextEncoder采用神经网络或深度模型。
4.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(3)具体包括以下步骤:
(3a)给定数据集的少数类信息, 利用生成器生成对应的样本, 由公式(4)计算得到:
式中, I表示确定的少数类信息; A为全一矩阵; N为高斯噪声, W、 b分别为模型权值和偏
差参数;
(3b)将生成器生成的样本标记为 假样本。
5.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(4)具体包括以下步骤:
(4a)将采样 样本和生成样本作为 一批训练数据, 输入给判别器;
(4b)根据批训练损失, 训练、 微调文本编码器和判别器, 批训练损失由公式(5)计算得
到:
式中, d表示少数类的数量, D表示判别器, 所述判别器为多层感知机; a表示采样样本的
数量, Ei表示采样 样本的分布式表示, Eif表示生成器所生成的样本 。
6.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(5)具体包括以下步骤:
(5a)给定数据集的少数类信息, 利用生成器生成对应意图的新样本:
式中, I表示确定的少数类信息; A为全一矩阵; N为高斯噪声, W、 b分别为模型权值和偏
差参数;
(5b)根据少数类信息, 将对应生成样本标记为对应意图识别。
7.根据权利要求1所述的面向不平衡数据集针对少数类的意图识别方法, 其特征在于:
所述步骤(6)具体包括以下步骤:
(6a)将生成少数类样本数据作为 一批训练数据, 输入给判别器;
(6b)根据批训练损失, 训练、 微调文本编码器和生成器, 批训练损失函数为:权 利 要 求 书 2/3 页
3
CN 115438647 A
3
专利 一种面向不平衡数据集针对少数类的意图识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:31上传分享