说明:收录全文最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210699090.2 (22)申请日 2022.06.20 (71)申请人 中国科学院计算机网络信息中心 地址 100083 北京市海淀区东升南路2号院 (72)发明人 辛之夼 王怡宁 李非 王彦棡 王珏 刘芳 (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06N 5/04(2006.01) G16B 15/20(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种基于分布式技术的蛋白质结构推理方 法 (57)摘要 本发明涉及一种基于分布式技术的蛋白质 结构推理方法, 方法包括: 获取蛋白质结构推理 所需要的数据集; 在AlphaFold2的Data Pipeline模 块中, 使用分布式计算流对所述数据 集进行并行搜索, 得到多序列比对MSA表征和模 板表征; 在AlphaFold2的Evoformer模块和 Structure Module模块中, 以所述MSA表征和模 板表征作为输入, 使用并行计算对至少两组不同 配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型 作为输出模型; 使用Amber relaxation对所述蛋 白质三维结构进行弛豫操作, 得到最终稳定的蛋 白质三维结构, 其中, 使用GP U版本的openMM对所 述Amber relaxati on进行计算。 权利要求书1页 说明书3页 附图2页 CN 115034393 A 2022.09.09 CN 115034393 A 1.一种基于分布式技 术的蛋白质结构推理方法, 其特 征在于, 所述方法包括: 获取蛋白质结构推理所需要的数据集; 在AlphaFold2的Data Pipeline模块中, 使用分布式计算流对所述数据集进行并行搜 索, 得到多序列比对MSA 表征和模板表征; 在AlphaFold2的Evoformer模块和Structure Module模块中, 以所述MSA表征和模板表 征作为输入, 使用并行计算对至少 两组不同配置的模型并行迭代学习, 生成蛋白质三维结 构, 在最终生成的模型中选择置信度最高的模型作为输出模型; 使用Amber relaxation对所述蛋白质三维结构进行弛豫操作, 得到最终稳定的蛋白质 三维结构, 其中, 使用GPU版本的openM M对所述Amber relaxati on进行计算。 2.根据权利要求1所述的方法, 其特征在于, 所述使用分布式计算流对输入的蛋白质结 构数据进行并行搜索的方法, 还 包括: 使用三个进程进行并行搜索, 其中, 第一进程使用H HBlits软件对BFD及Un iclust30数据集进行搜索, 得到第一搜索结果; 第二进程使用JackH MMER软件对MGnify数据集进行比对搜索, 得到第二搜索结果; 第三进程首先使用JackHMMER软件对UniRef90数据集进行MSA检索, 得到第三搜索结 果, 然后使用HHSearch软件对 所述第三搜索结果基于PDB70数据库进行模版匹配, 得到模板 表征; 将所述第一搜索结果、 第二搜索结果和第三搜索结果进行组合, 得到 MSA表征。 3.根据权利要求1所述的方法, 其特征在于, 所述并行搜索与所述并行计算, 均使用分 布式框架Ray进行 管理。 4.根据权利要求1所述的方法, 其特 征在于, 所述 不同配置的模型的数量 为五组。权 利 要 求 书 1/1 页 2 CN 115034393 A 2一种基于分布式技术的蛋白质结构推 理方法 技术领域 [0001]本发明涉及人工智能领域, 尤其涉及一种基于分布式技术的蛋白质结构推理方 法。 背景技术 [0002]2020年, DeepMind在A lphaFold基础上再出新版本AlphaFold2, 并在当年CASP14比 赛中取得了平均GDT分数为91.1、 中位数GDT92.4的蛋白质结构预测成绩, 这意味着 AlphaFold2可将预测均方根误差降低到大约1.6A, 相当于一个原子宽度误差, 实现了原子 级精度的蛋白质结构预测。 [0003]AlphaFold2采用一个基于注意力的神经网络系统处理氨基酸序列内部关系和外 部关系, 并用端到端的方式进 行训练, 以理解图结构, 同时基于其构建的隐式图的方式来执 行推理。 [0004]AlphaFold2整个算法包含DataPipeline, Evoformer以及Structure module三个 部分。 AlphaFold2在 进行蛋白质结构推理 时, 模型输入氨基酸序列, 输出三维结构坐标实现 端到端结构预测。 [0005]其中, Data pipeline是整个推理流程的第一个模块, 主要负责对输入氨基酸序列 进行同源序列搜索(Genetic search)以及模版搜索(Template search), 生成输入序列的 多序列比对表征(MSA representation)以及模版表征(Template represention)。 上述两 种搜索操作皆通过借助第三方序列搜索软件完成。 Genetic search使用JackHMMER对 MGnify和U niRef90数据库进行搜索, 此外还通过HHblits对BFD、 U niclust30 数据库搜索, 得 到输入序列的同源序列, 构造MSA representation。 Template search使用HHsearch对 genetic search得到的Uniref90 MSA在PDB70结构数据库 上进行搜索, 得到对应的结构模 版, 即Template representati on。 [0006]模型第二部分Evoformer由48个神经网络块(block)组成, 是一个类似 Transformer的变体结构, 它创新性的引入了轴向注 意力机制、 三角更新法则以及三角注 意 力机制来学习Data pipeline生成的表征信息并不断更新表征矩阵。 [0007]模型最后一部分Structure module借助了不动点注意力机制, 通过对Evoformer 生成的对表征信息的关系学习, 不断更新序列表征信息(Single repr.), 将更新过的序列 表征映射到主链上, 通过欧几里得变换更新坐标信息, 再通过计算主链以及侧链扭转角 信 息, 最终更新得到预测的全原子坐标, 得到初步的三维结构。 在Structure module之后, 模 型加入了Amber relaxation机制, 使用openMM软件施加力场对生成蛋白质结构进行弛豫操 作, 去除结构上的违规部分以及碎片支 链, 得到最终稳定的蛋白质三维结构。 [0008]然而, Alp haFold2的多个模块在运行过程中, 普遍存在 速度较慢的问题, 影响总体 的蛋白质结构预测效率。说 明 书 1/3 页 3 CN 115034393 A 3
专利 一种基于分布式技术的蛋白质结构推理方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 00:09:41
上传分享
举报
下载
原文档
(469.4 KB)
分享
友情链接
GB-T 40857-2021 汽车网关信息安全技术要求及试验方法.pdf
T-CSAE 131—2020 乘用车白车身防腐排水及密封设计指南.pdf
GB-T 26510-2011 防水用塑性体改性沥青.pdf
DB44-T 1212-2013 用能单位能源计量管理体系通用要求 广东省.pdf
T-SSCE 0001—2021 关于团体标准 轴力自动补偿钢支撑技术规程 报批稿 的批复.pdf
DB52-T 705-2011 人工马尾松地径材积表 贵州省.pdf
GB-T 20502-2006 膜组件及装置型号命名.pdf
GB-Z 42759-2023 智慧城市 人工智能技术应用场景分类指南.pdf
freebuf 2021企业安全运营实践研究报告.pdf
T-GDIIA 005—2021 信息技术应用创新项目运行维护服务标准.pdf
DB37-T 3160-2018 渔港安全管理规范 山东省.pdf
T-CIECCPA 009—2020 工业企业节能诊断改造效果评估指南.pdf
GB-T 30998-2014信息技术软件安全保障规范.pdf
GA-T 912-2018 信息安全技术 数据泄露防护产品安全技术要求.pdf
奇安信 中国政企机构数据安全风险分析报告.pdf
JR-T0223-2021 金融数据安全 数据生命周期安全规范.pdf
DB33-T 2349-2021 数字化改革 公共数据目录编制规范 浙江省.pdf
GB-T 30287.3-2013 卫星定位船舶信息服务系统 第3部分:信息安全规范.pdf
DB44-T 718-2010 中央空调系统节能运行管理规范 广东省.pdf
tc260 人工智能安全标准化白皮书 2019.pdf
1
/
3
7
评价文档
赞助2.5元 点击下载(469.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。