说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211273187.3 (22)申请日 2022.10.18 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 相艳 刘威 黄于欣 郭军军  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于局部和全局字符表征增强的中文命名 实体识别方法 (57)摘要 本发明涉及基于局部和全局字符表征增强 的中文命名实体识别方法。 现有中文命名实体识 别方法将其 建模为基于字 符的序列标注问题, 但 单独的中文字符向量难以表征独立语义, 带来实 体边界和类型识别错误问题。 中文字符的字形结 构及其相关领域术语包含了领域实体特有的信 息, 有效利用这些信息有利于上述问题的解决。 为此本发明利用自编码机制融合字符的形旁结 构嵌入、 形旁序列嵌入和上下文语义嵌入, 得到 局部字符表征; 并利用交互门控机制, 将字符所 对应的全局领域术语表征和局部字符表征相结 合, 得到增强的字符表征; 最后将增强的字符表 征送入Bi ‑LSTM和CRF层, 获得字符序列标签。 在 领域中文命名实体识别数据集上的实验表明, 本 发明是有效的。 权利要求书4页 说明书12页 附图2页 CN 115455955 A 2022.12.09 CN 115455955 A 1.基于局部和全局字符表征增强的中文命名实体识别方法, 其特征在于: 所述方法包 括如下步骤: Step1、 将在语料上所训练的字符向量作为字符的初始嵌入: 将每个字符都映射到一个 密集向量表示, 得到每 个句子的字符嵌入; Step2、 将字符拆分为形旁和其他的字符成分, 然后用序列特征编码器来提取字符的字 形序列特 征; Step3、 将单个字符视为二维图像, 通过图像特征编码器来获得字符的字形结构特征; 其中汉字所对应的图像通过的多个卷积层, 捕获低级别的图形特征, 再使用自适应池化操 作并应用群卷积映射到最终字形 结构特征; Step4、 采用自编码机制, 对字符的字形结构特征、 字形序列特征和预训练的字符嵌入 三种向量进行融合得到 字符局部表征; Step5、 首先在领域语料库上使用word2vec的Skip ‑Gram模型训练一个领域词典, 然后, 对每个字符在词典中进行查询匹配, 得到若干个词集合, 再通过加权分配权并拼接最后得 到字符的全局表征; Step6、 在获得字符的局部表征和全局表征后, 利用交互门控机制对两者的特征进行信 息筛选, 得到综合表征; 之后将综合表征送入到Bi ‑LSTM进行上下文编码, 然后CRF被用作解 码层, 来得到 输出结果的标签。 2.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step1 中, 将输入句子视为字符序列s={c1, c2,···, cn}, 然后将每个字符 ci都映射到一个密集向量表示 得到每个句子的字符嵌入: 其中ec表示字符嵌入查找 表。 3.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step2中, 首先对 数据集里的每个字使用拆字的字典来构建包含每个字的组 成部分查询表; 然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特 征, 再使用残差网络来优化卷积层, 缓解神经网络深度加深的梯度消失问题, 最后, 利用最 大池和全连通层得到 字形序列特 征嵌入。 4.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step2包括如下步骤: : Step2.1、 将第i个字符ci拆分为K个部分, 如果某个字符成分 的长度不足K, 则将空缺 位置用“<PAD>”来填充, 然后对每 个字符成分进行随机嵌入操作Er: Step2.2、 将所获得字符的随机嵌入序列 送入卷积核大小为3的卷积操作 conv3, 得到 字符隐向量序列 Step2.3、 将该字符隐向量序列中每一个字符成分所对应的向量进行max ‑pooling, 然权 利 要 求 书 1/4 页 2 CN 115455955 A 2后送入一个全连接层fc进行维度变换, 得到该字符的字形序列嵌入 该字符的字形 序列嵌入维度大小为do; 5.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step3中, 字形结构特征能从字符图像中获取丰富的象形文字信息, 以提升 中文命名实体识别模型性能; 对于不同字体类型 的图像, 将其拼接到一起来表示该字的结 构图像, 将字符图片通过多个卷积层和多个输出通道, 捕获低级别的字形 结构特征。 6.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step3包括如下步骤: Step3.1、 将ci字符转换为对应的6种不同字体的灰度图像 其中 为第j种字体的大小为12 ×12的8bit灰度图像, 将不同图像矩阵进行拼接, 得到 字符ci的结构图像 其中concat表示拼接操作; Step3.2、 然后, 使用卷积核大小为5 ×5, 有384个输出通道的卷积操作conv1, 捕获低级 别的图形 特征, 得到隐藏层向量 Step3.3、 使用模板大小为4 ×4的maxpooling操作, 将 的分辨率从8 ×8降低到2 × 2; 再通过一个卷积核大小为1 ×1和ds个输出通道的卷积操作conv2, 得到隐藏层向量 Step3.4、 最后, 将 送入卷积核大小为2的群卷积操作groupconv, 并进行维度转化操作 reshape, 得到该字符的字形 结构表征 该字符的字形 结构嵌入维度大小为ds; reshape表示 一个维度变换将2维向量变成一维的。 7.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step4中, 首先将字符 的字形结构特征、 字形序列特征和预训练的字符嵌入 拼接起来, 再通过变换层得到一个 自动融合的潜在向量, 然后尝试从自融合的潜在向量重 建最初拼接的向量, 最后, 通过计算原始向量和重构向量之间的欧氏距离, 使用均方误差来 计算损失, 获得 经过中间层压缩但没有损耗的信息 。 8.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法, 其 特征在于: 所述Step4中, 使用自编码网络来对字符 的字形结构特征、 字形序列特征和预训 练的字符嵌入三种向量进行融合, 通过最大化不同粒度输入之间的相关性, 鼓励模型提取权 利 要 求 书 2/4 页 3 CN 115455955 A 3

PDF文档 专利 基于局部和全局字符表征增强的中文命名实体识别方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于局部和全局字符表征增强的中文命名实体识别方法 第 1 页 专利 基于局部和全局字符表征增强的中文命名实体识别方法 第 2 页 专利 基于局部和全局字符表征增强的中文命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。