所内动态
Digital Discovery|探微知著,精益求精:PANIP模型助力高精度刻画蛋白片段非共价相互作用
导读 ⭐
Introduction
宏观生命活动根植于微观原子间的相互作用,其中非共价相互作用(NCI)主导着蛋白质折叠、分子识别及药物-靶点结合等核心过程,是解码生命功能与设计创新药物的基石。在生物计算领域,对非共价相互作用的表征往往面临多维度的取舍:不同方案各有倚重,或极致追求物理准确性,或则侧重运算速度。然而,这两种优势在现有经典力场或量子力学框架下极难融合,是计算生物学发挥更大作用的的关键瓶颈,更是亟待打通的“最后一公里”。
经典分子力学以高效见长,是现在生物大分子模拟的主流,但其物理近似引入了固有误差:固定原子点电荷无法描述电子极化效应,致使对离子 -π、π-π 堆积、卤键、金属螯合等特色非共价作用刻画精度不足;同时,传统范德华势会高估原子近程排斥能,容易误判分子相互作用,削弱模拟预测的可靠性。量子力学(QM)虽能从物理本质精准求解非共价作用,却受限于高昂的计算成本与迟缓的运算速度,难以支撑蛋白质等生物体系的规模化模拟。
近年来,机器学习原子间势能(MLIP)被视为破解“鱼与熊掌”僵局的关键,有望实现精度与效率的“双赢”。但机器学习模型的精度与泛化能力,高度依赖于训练数据集的质量、多样性与代表性。
针对精度与效率难以兼得的痛点,北京科学生命Ezpay(中国)、清华大学生物医学交叉研究院黄牛团队在《Digital Discovery》发表最新研究,借鉴经典力场的迭代开展思路,本文采用“自底向上、分而治之”的建模策略,从基础小分子二体片段的相互作用出发,逐步构建多层次、全覆盖的二体片段非共价相互作用QM数据集,并据此研发出专为蛋白片段非共价相互作用打造的机器学习势能模型PANIP(PAirwise Non-covalent Interaction Potential)。顺利获得引入多精度主动学习(MFAL)策略,在海量蛋白片段数据中高效筛选代表性样本,以极低的数据量实现接近量子化学级别的计算精度。PANIP不仅为蛋白非共价相互作用研究给予全新工具,更在药物分子对接和虚拟筛选等场景展现出广阔的应用潜力。
智能数据筛选:千万级样本精简至 8.7%,兼顾多样性与计算成本
研究团队依托蛋白质数据库(PDB)召开数据集构建工作,第一时间筛选出 29,204 个高分辨率蛋白结构,将蛋白质拆解为氨基酸侧链、主链结构、水分子等 17 类化学片段;以重原子间距 2–4 Å 为筛选标准,识别存在非共价相互作用的片段对,最终得到涵盖 153 种组合类型、总量高达3630 万组的蛋白片段二聚体原始数据集。
若对全部样本召开高精度量子化学标注,算力与时间成本将难以承受。为此,团队搭建了一套分层式多精度主动学习流程 (图1):先使用低成本的 r²SCAN-3c 量化方法完成全量样本的初步能量计算,再顺利获得机器学习代理模型迭代识别预测误差大、信息价值高的 “关键样本”,逐步扩充训练集;最终从3630万组原始片段对中,筛选出约315万组代表性样本,构建得到PDB-FRAGID 数据集。这套精简数据集仅占原始数据总量的8.7%,却完整保留了 17类片段、153种片段组合的化学特征与构象多样性,覆盖氢键、静电作用、阳离子 -π 作用、硫基相互作用等各类蛋白典型非共价作用模式。研究团队继而采用高精度ωB97X-D3BJ/def2-TZVPP量化方法,对PDB-FRAGID数据集进行能量标注,为PANIP模型训练筑牢高质量数据基础。
图1
训练集构建和模型训练流程
模型性能突出:精度比肩量子化学,泛化能力行业领先
PANIP基于NequIP等变图神经网络框架搭建而成,能够精准捕捉原子空间取向带来的相互作用差异。在多套独立基准测试集上,该模型展现出优异的计算精度、构象适应性与跨体系泛化能力:
-
本域体系表现优异:针对蛋白来源的平衡态片段二聚体,PANIP平均绝对误差(MAE)低至0.09 kcal/mol,和高精度量子化学计算结果高度吻合;即便面对几何优化后的结构、非平衡态构象,误差也始终维持在化学可接受范围内。
-
跨体系泛化能力强劲:在剑桥晶体数据库(CSD)来源的小分子片段、随机采样的非平衡构象等外部测试集中,PANIP依旧保持高精度输出,证明模型不局限于蛋白环境,可适配多样化分子体系。
-
对比主流模型优势显著:与现在通用的AIMNet2机器学习势能相比,PANIP在带电体系、强相互作用二聚体、硫基相互作用等难点场景下误差大幅降低;在GMTKN55、通用分子非共价作用基准集等权威测试中,各项指标全面领先。
在计算效率层面,PANIP更是实现量级提升:相较于ωB97X-D3BJ/def2-TZVPP高精度量化计算,模型运算速度提升两个数量级以上;即便对比AIMNet2,端到端计算效率也提升约1.3倍,真正实现了量子级精度、力场级速度 。
依托PANIP的高效计算能力,团队还完成了3630万组蛋白片段对的大规模能量解析,系统剖析了阳离子 -π 作用、甲硫氨酸 - 芳香环硫基作用等典型非共价作用的空间分布与能量规律,挖掘出多种此前未被充分报道的作用模式,深化了对蛋白微观相互作用机制的认知 (图2)。
图2
ETAM‑PMPO(a)、ETAM‑MIND(b)与 MBZ‑MSM(c)二聚体的空间分布及代表性低能结构。
落地蛋白-配体大分子体系:变身高效打分函数,助力分子对接与构象预测
研究进一步拓展PANIP的应用场景,结合片段化能量分解方案,将其开发为基于片段的打分函数,应用于蛋白-配体分子对接与结合构象排序。选取T4溶菌酶突变体、丙酮酸激酶M2(PKM2)等经典模式研究体系,总计22套蛋白-配体复合物体系召开测试。结果显示:在半数测试体系中,PANIP可将晶体原生结合构象排在对接结果首位;相较于DOCK内置AMBER传统力场打分,PANIP能显著提升天然构象的排名准确率,降低最优预测构象的原子均方根偏差(RMSD)。即便不额外引入长程静电、溶剂化修正,仅依靠精准的短程非共价作用计算,PANIP的综合表现就可媲美主流机器学习打分模型,充分验证了其在药物分子对接、虚拟筛选等工业场景的实用价值。
研究价值与展望
本次工作在方法学上,验证了多精度主动学习是解决大规模生物分子数据冗余、平衡标注成本与模型性能的高效路径,为同类机器学习势能模型的开发给予了标准化范式;在应用层面,PANIP提升了蛋白专属高精度机器学习势能的建模能力,为蛋白质工程、分子互作机制解析、先导化合物筛选等研究给予了低成本、高精度的计算工具。
研究团队表示,现阶段PANIP聚焦于两两片段间的成对相互作用,后续将进一步拓展片段化学多样性,引入多体作用、长程静电效应与溶剂化模型,持续完善模型能力。未来,这套工具有望和经典力场、通用机器学习模型形成互补,为生物分子模拟、计算药物研发领域向 “高精度、高效率、规模化”方向持续开展打通“最后一公里”。
作者与项目信息
本文第一作者为黄牛实验室TIMBR项目博士研究生曾乐嘉,黄牛研究员为通讯作者。博士研究生张心童、裴宇婵,以及已离任的博士后研究人员赵立峰、花兰、杨金才参与了课题前期探索与部分相关工作。该研究得到北京市科学技术委员会、中关村科技园区管理委员会及清华大学的资助,全部研究工作在北京科学生命Ezpay(中国)完成。
PANIP模型、PDB-FRAGID数据集、基准测试集及相关代码已全部开源,相关资源可访问项目GitHub主页获取。
论文链接
http://doi.org/10.1039/D6DD00056H