(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210544080.1
(22)申请日 2022.05.19
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 线岩团 张恒滔 赖华
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06V 20/62(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
融入标签信息的案情要素识别方法
(57)摘要
本发明涉及融入标签信息的案情要素识别
方法, 属于自然语言 处理领域。 本发明包括: 预处
理CAIL2019 ‑SCM要素标注的关于民间借贷的裁
判文书文本数据集; 使用清洗过的裁判文书作为
输入; 之后利用在民事裁判文书上预训练的BERT
对输入编码表示; 进一步地利用CNN网络对事实
描述部分特征提取; 将提取后的表 示分别与属性
和标签表 示进行融合; 随后将合成的表示按照属
性依次对该属性下的标签进行识别, 分类器计算
获得最终的标签概率分布。 实验结果表明, 该模
型在CAIL2019 ‑SCM数据集的要素标注数据上能
够更有效地将要素识别出来。
权利要求书3页 说明书9页 附图1页
CN 114764913 A
2022.07.19
CN 114764913 A
1.融入标签信息的案情要素识别方法, 其特 征在于: 所述方法的具体步骤如下:
Step1、 对数据集的标注要素数据进行预处理, 通过构建的正则表达式提取出裁判文书
中的事实和理由部分, 同时对标注的标签进行重名替换, 并按照比例划分数据集;
Step2、 通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以
及具体标签的表示, 利用CNN对裁判文书事实描述进行特征提取, 获得输入的编码表示, 包
括要素属性表示、 要素 标签表示、 裁判文 书的事实描述表示;
Step3、 将获得的要素属性表示、 要素标签表示分别与裁判文书的事实描述表示进行融
合, 最终按照要素属性得到对该属性下要素 标签不同关注度的特 征向量;
Step4、 特征向量被送入不同属性对应的分类器, 经分类器计算得到每一个属性下各标
签的概率作为输出。
2.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 所述步骤
Step1的具体步骤为:
Step1.1、 对每一篇裁判文书, 利用正则表达式来提取裁判文书的主体部分, 具体而言
就是裁判文 书中的事实和理由部分;
Step1.2、 对标签信息进行重名替换, 将表述一致的标签进行修改, 加上该标签对应的
属性名字;
Step1.3、 CAIL2019 ‑SCM标注要素数据按照8: 1: 1进行划分, 分别 设为训练集、 验证集、
测试集。
3.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 利用基于
BERT和CNN构造的编码模块获得要素属性表示、 要素标签表示、 裁判文书的事实描述表示,
所述步骤Step2的具体步骤如下:
Step2.1、 利用民事裁判文书预训练的 “民事BERT ”同时对事实描述、 要素类别属性、 要
素标签三部分文本进行编码, 输入的文本经词表转化为对应的id表示, id表示经BERT编码
后输出, 其过程抽象为公式(1 ‑3)所示;
HX=BERT(X) (1)
HA=BERT(A) (2)
HY=BERT(Y) (3)
其中
n表示事实描述文本序列的长度, m表示类别属性
总个数, s表示标签集所包 含的标签总个数, d代 表词向量维度;
Step2.2、 对于属 性和标签的表示, 将每一个属性
标签
的字符向量
ati、 yti平均后得到该属性、 标签的编码表示, ti表示第i个字符, la、 ly分别表示某一属 性、
某一标签所含的字符个数, 详细计算见公式(4 ‑5);
上式中
即为类别属性、 要素标签的编码表示,
即为类别
属性集合和标签集 合的BERT编码后的最终结果;权 利 要 求 书 1/3 页
2
CN 114764913 A
2Step2.3、 利用CNN构成的特征提取网络来对事实描述序列进行特征提取, 对于裁判文
书经由BERT编码的输出
通过公式(6)来对其中的文本表示向量卷积;
Ci=f(W·Xi:i+h‑1+b) (6)
上式的含义是文本矩阵由n个词的向量表示x组成, 一个与编码层维度长宽度为h的卷
积核, 自上而 下地与卷积核窗口内的词做卷积, 式子中的W为卷积核中的参数矩阵, b是一个
偏置项, f为非线性函数, 使用ReLU函数代替, 得到特征ci; 在窗口大小为h的卷积作用下, 得
到的特征图
如公式(7)所示;
C=[C1,C2,...,Cn‑h+1] (7)
在池化层对特征图进行最大池化操作, 如公式(8)所示; 每一种长度为h的卷积, 设置m
个, 则该种卷积核 卷积得到的最 终池化后的特征图为一个m维向量; 将多种窗口大小不同的
卷积核卷积得到的向量拼接后得到最 终的特征向量, 事实描述表示矩阵的整个特征提取的
过程概括为公式(9), 其中特 征向量
h=CNN_Pooling(HX) (9)。
4.根据权利要求1所述的融入标签信息的案情要素识别方法, 其特征在于: 所述Step3
的具体步骤如下:
Step3.1、 基于多标签文本分类的要素识别, 通常直接利用文本编码表示识别要素标
签, 难以将标签完整识别出来, 将类别属性的编码表示
的行向量分别与事实描述
的特征表示向量
融合, 融合过程如下:
(1)加权特征: 将事实描述特征表示与类别属性表示对位相加, 通过公式(10)对两者加
权;
h′=α h+β ha (10)
上式表示两种表示在词向量维度d上以预 先设置的权值α, β 按比例进行相加;
(2)特征转化: 将特征表示送入前馈神经网络, 进一步融合, 利用这种方式将稀疏的特
征整合, 通过网络参数 学习来提升表示能力, 其过程表示 为公式(1 1);
Step3.2、 Step3.1公式(11)中的Wl为参数矩阵, bl为偏置项, 转化后的特征表示记作
将所有属性与事 实描述融合后的特征表示连接得到矩阵
融合了属性信
息的表示分别与对应属性下的标签集 合基于注意力机制加权, 整个过程如下:
(1)截取标签集: 经BERT编码后的标签矩阵包含了所有标签的表示, 根据属性对应的标
签集长度从标签矩阵上截取出m个子集矩阵, 属性ai, 其对应的标签集
共包含li个标签, 则li个标签向量表示构成了属性ai的标签矩阵
(2)计算注意力得分: 融合了属性信息的表示与该属性下的标签集分别计算注意力分
数, 注意力得分显性地展示了文本对不同交互对 象的关注程度, 基于软注意力机制通过计
算融合属性的表示与各标签向量之间的点积来计算注意力分布, 计算过程如公式(13 ‑14)权 利 要 求 书 2/3 页
3
CN 114764913 A
3
专利 融入标签信息的案情要素识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:47上传分享