说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210544080.1 (22)申请日 2022.05.19 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 线岩团 张恒滔 赖华  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 融入标签信息的案情要素识别方法 (57)摘要 本发明涉及融入标签信息的案情要素识别 方法, 属于自然语言 处理领域。 本发明包括: 预处 理CAIL2019 ‑SCM要素标注的关于民间借贷的裁 判文书文本数据集; 使用清洗过的裁判文书作为 输入; 之后利用在民事裁判文书上预训练的BERT 对输入编码表示; 进一步地利用CNN网络对事实 描述部分特征提取; 将提取后的表 示分别与属性 和标签表 示进行融合; 随后将合成的表示按照属 性依次对该属性下的标签进行识别, 分类器计算 获得最终的标签概率分布。 实验结果表明, 该模 型在CAIL2019 ‑SCM数据集的要素标注数据上能 够更有效地将要素识别出来。 权利要求书3页 说明书9页 附图1页 CN 114764913 A 2022.07.19 CN 114764913 A 1.融入标签信息的案情要素识别方法, 其特 征在于: 所述方法的具体步骤如下: Step1、 对数据集的标注要素数据进行预处理, 通过构建的正则表达式提取出裁判文书 中的事实和理由部分, 同时对标注的标签进行重名替换, 并按照比例划分数据集; Step2、 通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以 及具体标签的表示, 利用CNN对裁判文书事实描述进行特征提取, 获得输入的编码表示, 包 括要素属性表示、 要素 标签表示、 裁判文 书的事实描述表示; Step3、 将获得的要素属性表示、 要素标签表示分别与裁判文书的事实描述表示进行融 合, 最终按照要素属性得到对该属性下要素 标签不同关注度的特 征向量; Step4、 特征向量被送入不同属性对应的分类器, 经分类器计算得到每一个属性下各标 签的概率作为输出。 2.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 所述步骤 Step1的具体步骤为: Step1.1、 对每一篇裁判文书, 利用正则表达式来提取裁判文书的主体部分, 具体而言 就是裁判文 书中的事实和理由部分; Step1.2、 对标签信息进行重名替换, 将表述一致的标签进行修改, 加上该标签对应的 属性名字; Step1.3、 CAIL2019 ‑SCM标注要素数据按照8: 1: 1进行划分, 分别 设为训练集、 验证集、 测试集。 3.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 利用基于 BERT和CNN构造的编码模块获得要素属性表示、 要素标签表示、 裁判文书的事实描述表示, 所述步骤Step2的具体步骤如下: Step2.1、 利用民事裁判文书预训练的 “民事BERT ”同时对事实描述、 要素类别属性、 要 素标签三部分文本进行编码, 输入的文本经词表转化为对应的id表示, id表示经BERT编码 后输出, 其过程抽象为公式(1 ‑3)所示; HX=BERT(X)                          (1) HA=BERT(A)                          (2) HY=BERT(Y)                          (3) 其中 n表示事实描述文本序列的长度, m表示类别属性 总个数, s表示标签集所包 含的标签总个数, d代 表词向量维度; Step2.2、 对于属 性和标签的表示, 将每一个属性 标签 的字符向量 ati、 yti平均后得到该属性、 标签的编码表示, ti表示第i个字符, la、 ly分别表示某一属 性、 某一标签所含的字符个数, 详细计算见公式(4 ‑5); 上式中 即为类别属性、 要素标签的编码表示, 即为类别 属性集合和标签集 合的BERT编码后的最终结果;权 利 要 求 书 1/3 页 2 CN 114764913 A 2Step2.3、 利用CNN构成的特征提取网络来对事实描述序列进行特征提取, 对于裁判文 书经由BERT编码的输出 通过公式(6)来对其中的文本表示向量卷积; Ci=f(W·Xi:i+h‑1+b)                       (6) 上式的含义是文本矩阵由n个词的向量表示x组成, 一个与编码层维度长宽度为h的卷 积核, 自上而 下地与卷积核窗口内的词做卷积, 式子中的W为卷积核中的参数矩阵, b是一个 偏置项, f为非线性函数, 使用ReLU函数代替, 得到特征ci; 在窗口大小为h的卷积作用下, 得 到的特征图 如公式(7)所示; C=[C1,C2,...,Cn‑h+1]                       (7) 在池化层对特征图进行最大池化操作, 如公式(8)所示; 每一种长度为h的卷积, 设置m 个, 则该种卷积核 卷积得到的最 终池化后的特征图为一个m维向量; 将多种窗口大小不同的 卷积核卷积得到的向量拼接后得到最 终的特征向量, 事实描述表示矩阵的整个特征提取的 过程概括为公式(9), 其中特 征向量 h=CNN_Pooling(HX)                    (9)。 4.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 所述Step3 的具体步骤如下: Step3.1、 基于多标签文本分类的要素识别, 通常直接利用文本编码表示识别要素标 签, 难以将标签完整识别出来, 将类别属性的编码表示 的行向量分别与事实描述 的特征表示向量 融合, 融合过程如下: (1)加权特征: 将事实描述特征表示与类别属性表示对位相加, 通过公式(10)对两者加 权; h′=α h+β ha                         (10) 上式表示两种表示在词向量维度d上以预 先设置的权值α, β 按比例进行相加; (2)特征转化: 将特征表示送入前馈神经网络, 进一步融合, 利用这种方式将稀疏的特 征整合, 通过网络参数 学习来提升表示能力, 其过程表示 为公式(1 1); Step3.2、 Step3.1公式(11)中的Wl为参数矩阵, bl为偏置项, 转化后的特征表示记作 将所有属性与事 实描述融合后的特征表示连接得到矩阵 融合了属性信 息的表示分别与对应属性下的标签集 合基于注意力机制加权, 整个过程如下: (1)截取标签集: 经BERT编码后的标签矩阵包含了所有标签的表示, 根据属性对应的标 签集长度从标签矩阵上截取出m个子集矩阵, 属性ai, 其对应的标签集 共包含li个标签, 则li个标签向量表示构成了属性ai的标签矩阵 (2)计算注意力得分: 融合了属性信息的表示与该属性下的标签集分别计算注意力分 数, 注意力得分显性地展示了文本对不同交互对 象的关注程度, 基于软注意力机制通过计 算融合属性的表示与各标签向量之间的点积来计算注意力分布, 计算过程如公式(13 ‑14)权 利 要 求 书 2/3 页 3 CN 114764913 A 3

.PDF文档 专利 融入标签信息的案情要素识别方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融入标签信息的案情要素识别方法 第 1 页 专利 融入标签信息的案情要素识别方法 第 2 页 专利 融入标签信息的案情要素识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。