专利 融入标签信息的案情要素识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210544080.1 (22)申请日 2022.05.19 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人线岩团　张恒滔　赖华　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称融入标签信息的案情要素识别方法 (57)摘要本发明涉及融入标签信息的案情要素识别方法，属于自然语言处理领域。本发明包括：预处理CAIL2019 ‑SCM要素标注的关于民间借贷的裁判文书文本数据集；使用清洗过的裁判文书作为输入；之后利用在民事裁判文书上预训练的BERT 对输入编码表示；进一步地利用CNN网络对事实描述部分特征提取；将提取后的表示分别与属性和标签表示进行融合；随后将合成的表示按照属性依次对该属性下的标签进行识别，分类器计算获得最终的标签概率分布。实验结果表明，该模型在CAIL2019 ‑SCM数据集的要素标注数据上能够更有效地将要素识别出来。权利要求书3页说明书9页附图1页 CN 114764913 A 2022.07.19 CN 114764913 A 1.融入标签信息的案情要素识别方法，其特征在于：所述方法的具体步骤如下： Step1、对数据集的标注要素数据进行预处理，通过构建的正则表达式提取出裁判文书中的事实和理由部分，同时对标注的标签进行重名替换，并按照比例划分数据集； Step2、通过在民事裁判文书上预训练的BERT模型生获得裁判文书和要素标签属性以及具体标签的表示，利用CNN对裁判文书事实描述进行特征提取，获得输入的编码表示，包括要素属性表示、要素标签表示、裁判文书的事实描述表示； Step3、将获得的要素属性表示、要素标签表示分别与裁判文书的事实描述表示进行融合，最终按照要素属性得到对该属性下要素标签不同关注度的特征向量； Step4、特征向量被送入不同属性对应的分类器，经分类器计算得到每一个属性下各标签的概率作为输出。 2.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：所述步骤 Step1的具体步骤为： Step1.1、对每一篇裁判文书，利用正则表达式来提取裁判文书的主体部分，具体而言就是裁判文书中的事实和理由部分； Step1.2、对标签信息进行重名替换，将表述一致的标签进行修改，加上该标签对应的属性名字； Step1.3、 CAIL2019 ‑SCM标注要素数据按照8： 1： 1进行划分，分别设为训练集、验证集、测试集。 3.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：利用基于 BERT和CNN构造的编码模块获得要素属性表示、要素标签表示、裁判文书的事实描述表示，所述步骤Step2的具体步骤如下： Step2.1、利用民事裁判文书预训练的 “民事BERT ”同时对事实描述、要素类别属性、要素标签三部分文本进行编码，输入的文本经词表转化为对应的id表示， id表示经BERT编码后输出，其过程抽象为公式(1 ‑3)所示； HX＝BERT(X) (1) HA＝BERT(A) (2) HY＝BERT(Y) (3) 其中 n表示事实描述文本序列的长度， m表示类别属性总个数， s表示标签集所包含的标签总个数， d代表词向量维度； Step2.2、对于属性和标签的表示，将每一个属性标签的字符向量 ati、 yti平均后得到该属性、标签的编码表示， ti表示第i个字符， la、 ly分别表示某一属性、某一标签所含的字符个数，详细计算见公式(4 ‑5)；上式中即为类别属性、要素标签的编码表示，即为类别属性集合和标签集合的BERT编码后的最终结果；权　利　要　求　书 1/3 页 2 CN 114764913 A 2Step2.3、利用CNN构成的特征提取网络来对事实描述序列进行特征提取，对于裁判文书经由BERT编码的输出通过公式(6)来对其中的文本表示向量卷积； Ci＝f(W·Xi:i+h‑1+b) (6) 上式的含义是文本矩阵由n个词的向量表示x组成，一个与编码层维度长宽度为h的卷积核，自上而下地与卷积核窗口内的词做卷积，式子中的W为卷积核中的参数矩阵， b是一个偏置项， f为非线性函数，使用ReLU函数代替，得到特征ci；在窗口大小为h的卷积作用下，得到的特征图如公式(7)所示； C＝[C1,C2,...,Cn‑h+1] (7) 在池化层对特征图进行最大池化操作，如公式(8)所示；每一种长度为h的卷积，设置m 个，则该种卷积核卷积得到的最终池化后的特征图为一个m维向量；将多种窗口大小不同的卷积核卷积得到的向量拼接后得到最终的特征向量，事实描述表示矩阵的整个特征提取的过程概括为公式(9)，其中特征向量 h＝CNN_Pooling(HX) (9)。 4.根据权利要求1所述的融入标签信息的案情要素识别方法，其特征在于：所述Step3 的具体步骤如下： Step3.1、基于多标签文本分类的要素识别，通常直接利用文本编码表示识别要素标签，难以将标签完整识别出来，将类别属性的编码表示的行向量分别与事实描述的特征表示向量融合，融合过程如下： (1)加权特征：将事实描述特征表示与类别属性表示对位相加，通过公式(10)对两者加权； h′＝α h+β ha (10) 上式表示两种表示在词向量维度d上以预先设置的权值α, β 按比例进行相加； (2)特征转化：将特征表示送入前馈神经网络，进一步融合，利用这种方式将稀疏的特征整合，通过网络参数学习来提升表示能力，其过程表示为公式(1 1)； Step3.2、 Step3.1公式(11)中的Wl为参数矩阵， bl为偏置项，转化后的特征表示记作将所有属性与事实描述融合后的特征表示连接得到矩阵融合了属性信息的表示分别与对应属性下的标签集合基于注意力机制加权，整个过程如下： (1)截取标签集：经BERT编码后的标签矩阵包含了所有标签的表示，根据属性对应的标签集长度从标签矩阵上截取出m个子集矩阵，属性ai，其对应的标签集共包含li个标签，则li个标签向量表示构成了属性ai的标签矩阵 (2)计算注意力得分：融合了属性信息的表示与该属性下的标签集分别计算注意力分数，注意力得分显性地展示了文本对不同交互对象的关注程度，基于软注意力机制通过计算融合属性的表示与各标签向量之间的点积来计算注意力分布，计算过程如公式(13 ‑14)权　利　要　求　书 2/3 页 3 CN 114764913 A 3

专利 融入标签信息的案情要素识别方法

专利融入标签信息的案情要素识别方法