专利 基于局部和全局字符表征增强的中文命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211273187.3 (22)申请日 2022.10.18 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人相艳　刘威　黄于欣　郭军军　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于局部和全局字符表征增强的中文命名实体识别方法 (57)摘要本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法。现有中文命名实体识别方法将其建模为基于字符的序列标注问题，但单独的中文字符向量难以表征独立语义，带来实体边界和类型识别错误问题。中文字符的字形结构及其相关领域术语包含了领域实体特有的信息，有效利用这些信息有利于上述问题的解决。为此本发明利用自编码机制融合字符的形旁结构嵌入、形旁序列嵌入和上下文语义嵌入，得到局部字符表征；并利用交互门控机制，将字符所对应的全局领域术语表征和局部字符表征相结合，得到增强的字符表征；最后将增强的字符表征送入Bi ‑LSTM和CRF层，获得字符序列标签。在领域中文命名实体识别数据集上的实验表明，本发明是有效的。权利要求书4页说明书12页附图2页 CN 115455955 A 2022.12.09 CN 115455955 A 1.基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述方法包括如下步骤： Step1、将在语料上所训练的字符向量作为字符的初始嵌入：将每个字符都映射到一个密集向量表示，得到每个句子的字符嵌入； Step2、将字符拆分为形旁和其他的字符成分，然后用序列特征编码器来提取字符的字形序列特征； Step3、将单个字符视为二维图像，通过图像特征编码器来获得字符的字形结构特征；其中汉字所对应的图像通过的多个卷积层，捕获低级别的图形特征，再使用自适应池化操作并应用群卷积映射到最终字形结构特征； Step4、采用自编码机制，对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征； Step5、首先在领域语料库上使用word2vec的Skip ‑Gram模型训练一个领域词典，然后，对每个字符在词典中进行查询匹配，得到若干个词集合，再通过加权分配权并拼接最后得到字符的全局表征； Step6、在获得字符的局部表征和全局表征后，利用交互门控机制对两者的特征进行信息筛选，得到综合表征；之后将综合表征送入到Bi ‑LSTM进行上下文编码，然后CRF被用作解码层，来得到输出结果的标签。 2.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step1 中，将输入句子视为字符序列s＝{c1， c2，···， cn}，然后将每个字符 ci都映射到一个密集向量表示得到每个句子的字符嵌入：其中ec表示字符嵌入查找表。 3.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step2中，首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表；然后将字符拆分的序列送入到卷积神经网络CNN中提取字符的字形序列特征，再使用残差网络来优化卷积层，缓解神经网络深度加深的梯度消失问题，最后，利用最大池和全连通层得到字形序列特征嵌入。 4.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step2包括如下步骤：： Step2.1、将第i个字符ci拆分为K个部分，如果某个字符成分的长度不足K，则将空缺位置用“<PAD>”来填充，然后对每个字符成分进行随机嵌入操作Er: Step2.2、将所获得字符的随机嵌入序列送入卷积核大小为3的卷积操作 conv3，得到字符隐向量序列 Step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max ‑pooling，然权　利　要　求　书 1/4 页 2 CN 115455955 A 2后送入一个全连接层fc进行维度变换，得到该字符的字形序列嵌入该字符的字形序列嵌入维度大小为do； 5.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step3中，字形结构特征能从字符图像中获取丰富的象形文字信息，以提升中文命名实体识别模型性能；对于不同字体类型的图像，将其拼接到一起来表示该字的结构图像，将字符图片通过多个卷积层和多个输出通道，捕获低级别的字形结构特征。 6.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step3包括如下步骤： Step3.1、将ci字符转换为对应的6种不同字体的灰度图像其中为第j种字体的大小为12 ×12的8bit灰度图像，将不同图像矩阵进行拼接，得到字符ci的结构图像其中concat表示拼接操作； Step3.2、然后，使用卷积核大小为5 ×5，有384个输出通道的卷积操作conv1，捕获低级别的图形特征，得到隐藏层向量 Step3.3、使用模板大小为4 ×4的maxpooling操作，将的分辨率从8 ×8降低到2 × 2；再通过一个卷积核大小为1 ×1和ds个输出通道的卷积操作conv2，得到隐藏层向量 Step3.4、最后，将送入卷积核大小为2的群卷积操作groupconv，并进行维度转化操作 reshape，得到该字符的字形结构表征该字符的字形结构嵌入维度大小为ds； reshape表示一个维度变换将2维向量变成一维的。 7.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step4中，首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来，再通过变换层得到一个自动融合的潜在向量，然后尝试从自融合的潜在向量重建最初拼接的向量，最后，通过计算原始向量和重构向量之间的欧氏距离，使用均方误差来计算损失，获得经过中间层压缩但没有损耗的信息。 8.根据权利要求1所述的基于局部和全局字符表征增强的中文命名实体识别方法，其特征在于：所述Step4中，使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合，通过最大化不同粒度输入之间的相关性，鼓励模型提取权　利　要　求　书 2/4 页 3 CN 115455955 A 3

专利 基于局部和全局字符表征增强的中文命名实体识别方法

专利基于局部和全局字符表征增强的中文命名实体识别方法