说明:收录全文最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211283553.3 (22)申请日 2022.10.20 (71)申请人 暨南大学 地址 510632 广东省广州市黄埔大道西6 01 号 (72)发明人 黄斐然 刘文骁 支庭荣 (74)专利代理 机构 广州汇盈知识产权代理事务 所(普通合伙) 44603 专利代理师 邓有才 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06F 16/31(2019.01) G06F 40/30(2020.01) (54)发明名称 基于BERT的多 任务新闻分类方法及装置 (57)摘要 本发明实施例涉及 文本分类技术领域, 公开 了一种基于BERT的多任务新闻分类方法, 包括: 获取新闻的原始文本数据; 将所述原始文本数据 进行数据清洗; 将所述待分类文本信息输入编码 层, 得到所述原始文本数据的特征向量; 将所述 特征向量输入注意力层; 将所述特征向量与超参 数作点乘, 得到注意力层输出结果; 将所述注意 力层输出结果输入前馈神经网络层进行归一化 处理, 得到各类新闻文本的独有特征向量; 将所 述独有特征向量进行联合学习, 得到各类新闻任 务的联合损失函数结果; 根据联合损失函数结果 输出新闻分类结果。 本发明通过BERT模型对新闻 文本数据进行处理, 采用多任务新闻分类任务进 行联合训练, 提高新闻分类的准确度和适用性。 权利要求书2页 说明书7页 附图4页 CN 115357720 A 2022.11.18 CN 115357720 A 1.一种基于BERT的多任务 新闻分类方法, 其特 征在于, 包括: 获取新闻的原 始文本数据; 将所述原 始文本数据进行 数据清洗, 得到待分类文本信息; 将所述待分类文本信息 输入编码层, 得到所述原 始文本数据的特 征向量; 将所述特征向量输入注意力层; 将所述特征向量与超参数作点乘, 得到注意力层输出 结果; 将所述注意力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的 独有特征向量; 将所述独有特 征向量进行 联合学习, 得到各类新闻任务的联合损失函数 结果; 根据联合损失函数 结果输出新闻分类结果。 2.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述原始 文本数据进行 数据清洗, 包括: 将所述原 始文本数据拆分成若干条长度小于预设值的子文本; 将长度小于预设值的所述原 始文本数据利用特殊符号进行补齐; 将所述原 始文本数据中的特殊字符和标签元 素进行去除; 将所述原 始文本数据中的表情符号 转换成相应的中文释义。 3.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述特征 向量与所述超参数作点乘, 得到注意力层输出 结果, 包括: 将所述特 征向量与超参数进行点乘运 算, 生成向量 Query、 向量K ey和向量Value; 将所述向量 Query、 向量K ey和向量Value输入注意力函数, 得到Value相似度的权 重; 注意力函数表示如下: , 其中T表示矩阵的转置操作, 表示矩阵向量的维度, Q表示向量Query, K表示向量Key, V表示向量Value。 4.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述注意 力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的独有特征向量, 包括: 将所述注意力层输出 结果利用L2范 数进行归一 化处理; 通过残差模块缓解网络退化, 更新浅层网络参数, 得到 输入结果; 将所述输入结果 集成到语义特 征向量中; 获取所述语义特征向量中的信 息, 将其中的新闻文本类别和对应种类的新闻文本语料 进行下游微调, 得到各类新闻文本的独有特 征向量。 5.如权利要求4所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述新闻文本类 别包括: 动态新闻类、 典型新闻类、 综合 新闻类和述评新闻类。 6.如权利要求1所述的基于BERT的多任务 新闻分类方法, 其特 征在于: 还 包括: 对带遮罩的语言任务进行 预训练; 对次句预测任务进行 预训练;权 利 要 求 书 1/2 页 2 CN 115357720 A 2所述对带遮罩的语言任务进行 预训练, 包括: 在BERT模型中将样本序列中以15%的概率随机遮蔽一些原有符号, 并将所述原有符号 分别以80%、 10%和10%的概 率替换成特殊标记、 随机标记和原有符号; 将多头自注意力机制层里的向量矩阵进行混淆; 所述对次句预测任务进行 预训练, 包括: 输入新闻文本句子对 (第一句子,第二句子) , 将第二句子以预设概率替换成语料库中 的其他子句, 其 余的保持不变; 通过语义特征向量输出一个全局特征表示标签, 判断第 二句子是否是第 一句子的下一 句。 7.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述根据 联合损 失函数结果输出新闻分类结果, 包括: 设定一个损失阈值; 判断所述联合损失函数结果是否超过所述损失阈值; 若是, 则继续迭代, 重新计算联合 损失函数 结果; 若否, 输出新闻分类结果。 8.一种基于BERT的多任务 新闻分类方法的装置, 其特 征在于, 包括: 文本提取模块: 用于获取新闻的原 始文本数据; 文本清洗模块: 用于多原始文本数据进行清洗, 包括对长文本进行截断、 对短文本进行 补齐、 清除特殊字符以及将表情符号 转换成中文释义; 数据处理模块: 用于将已经进行数据清洗的文本数据通过BERT模型进行数据处理, 并 得到联合损失函数 结果; 分类判断模块: 用于根据联合损失函数 结果判断并输出新闻的类型。 9.一种电子设备, 其特征在于, 包括: 存储有可执行程序代码的存储器; 与所述存储器 耦合的处理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 用于执行权利 要求1至7任一项所述的基于BERT的多任务 新闻分类方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 其中, 所述计算机程序使得计算机执行权利要求1至7任一项所述的基于BERT的多任务 新闻分类方法。权 利 要 求 书 2/2 页 3 CN 115357720 A 3
专利 基于BERT的多任务新闻分类方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:23
上传分享
举报
下载
原文档
(950.7 KB)
分享
友情链接
GB-T 36361-2018 LED加速寿命试验方法.pdf
GB-T 37697-2019 露天煤矿边坡变形监测技术规范.pdf
T-SSCI 002—2021 学校室外运动场地合成材料面层 铺装技术规程.pdf
YD-T 3907.3-2021 基于BB84协议的量子密钥分发(QKD)用关键器件和模块 第3部分:量子随机数发生器(QRNG).pdf
GB-T 42980-2023 智能制造 机器视觉在线检测系统 测试方法.pdf
GB-T 23492-2022 培根质量通则.pdf
GB-T 18103-2022 实木复合地板.pdf
DB32-T 4535-2023 固定污染源废气 颗粒物快速监测技术规范 江苏省.pdf
GB/T 40685-2021 信息技术服务 数据资产 管理要求.pdf
T-ZZB 2034—2021 食品包装用阻隔塑料杯.pdf
GB-T 16550-2020 新城疫诊断技术.pdf
信息技术 大数据 数据治理实施指南.pdf
GB/T 40212-2021 工业机器人云服务平台分类及参考体系结构.pdf
GB-T 24265-2014 工业用硅藻土助滤剂.pdf
GB-T 5357-2023 内六角花形扳手.pdf
NIST.SP.800-53r5-draft-IT系统和组织的安全与隐私控制_Security and Privacy Controls for Information Systems and Organizations .pdf
GB-T 20834-2014 发电电动机基本技术条件.pdf
GB-T 22264.6-2009 安装式数字显示电测量仪表 第6部分:绝缘电阻表的特殊要求.pdf
GB-T 32427-2015信息技术SOA成熟度模型及评估方法.pdf
GB-T 39335-2020 信息安全技术 个人信息安全影响评估指南.pdf
1
/
14
评价文档
赞助2.5元 点击下载(950.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。