MM/PBSA在药物设计里用得非常多——把一个蛋白-配体复合物的MD轨迹拿出来,对每个帧算一次分子力学能+溶剂化自由能,取平均,复合物的值减去蛋白和配体各自的值就是结合自由能。流程成熟、工具成熟(gmx_MMPBSA脚本几乎一站式搞定),但真正让人头疼的不是”怎么算”,是”跑多久才算够”。

一个激酶(约320个残基)与小分子抑制剂(分子量420Da)的体系,实验Kd值在纳摩尔级(对应的ΔG约-12 kcal/mol)。我们用三种不同的模拟时长跑了一组对比——10ns、50ns、200ns——同样的力场(AMBER ff14SB蛋白+GAFF2配体)、同样的溶剂条件(TIP3P水、0.15M NaCl),唯一的变量就是采样时间。出来的结果差异远远超出了预期。
10ns的轨迹在RMSD上已经平了——蛋白Cα的RMSD在8ns之后稳定在1.8±0.2Å,配体重原子的RMSD也收敛到了0.5Å以内。如果你只检查轨迹的RMSD稳定性,10ns看起来足够了。
但这个”够了”是假象。配体在结合口袋里的构象采样远没达到平衡——10ns里配体的可旋转键(共6个)中有4个没有完成完整的构象翻转。这些翻转的自由能垒大概在3-5 kcal/mol之间,在300K下需要几十纳秒才能被充分采样。缺少翻转意味着配体的熵贡献被严重低估——MM/PBSA的准简谐近似对熵的估计高度依赖构象采样的完备性,缺了四个旋转自由度的贡献,计算出来的结合自由能比实验值浅了将近7 kcal/mol(模拟值-5.2,实验值约-12.0)。
不止是熵的问题。结合口袋里的几个关键水分子——尤其是与配体形成氢键网络的那两个桥接水——在10ns内根本没来得及交换。这些水分子的位置和取向直接影响PB(Poisson-Boltzmann)计算的介电边界和溶质-溶剂界面能。水分子没采样全,溶剂化自由能的统计误差不是一个常数,而是与溶质构象耦合的系统误差。
把模拟拉到50ns之后,RMSD没有明显变化(仍在1.8Å附近),但配体的构象空间明显展开了。6个可旋转键中5个完成了至少一次翻转,剩下那一个(与苯环相连的-C-O-键,翻转能垒约6 kcal/mol)在50ns内没有翻转。缺失这一个旋转自由度对熵的直接贡献只有约0.5 kcal/mol,但间接影响更大——这个键连接着配体的一个关键疏水基团,未翻转状态下该基团始终埋在结合口袋的疏水区;翻转之后这个基团会短暂暴露到溶剂里,引起附近3-4个水分子的重排。
结合能模拟值从10ns的-5.2提升到了-9.8 kcal/mol,离实验参考值(-12.0)还差约2.2 kcal/mol。差距来自三个来源:缺失的那个高能垒旋转自由度的熵贡献(~0.5 kcal/mol)、那些未交换的水分子的溶剂化自由能残余误差(~0.8 kcal/mol)、以及配体结合/解离路径上蛋白质构象变化的可逆功(~0.9 kcal/mol,MM/PBSA的单轨迹近似会忽略这部分)。
200ns模拟里,所有6个可旋转键都至少翻转了2-3轮。结合口袋里的桥接水分子也有充分的交换——每个水分子在口袋里的平均驻留时间约2-5ns,200ns里有40-100轮的交换事件,统计上已经达到了收敛的标准(相对标准误差<5%)。
最终的MM/PBSA结合能是-11.4 kcal/mol,离实验值-12.0 kcal/mol的差距缩到了0.6 kcal/mol(约2.5 kJ/mol)。这个残余差距可以归因到力场精度本身和MM/PBSA方法的内在近似(比如PB连续介质模型的介电常数设定)。对于药物设计前期的筛选来说,0.6 kcal/mol的偏差完全可以接受——给定纳摩尔级Kd的实验测量误差通常在0.2-0.3 kcal/mol的级别,MD+MM/PBSA能做到0.6 kcal/mol已经是当前方法链的合理精度上限。
把这个经验推出去之前,需要申明一件事:200ns不是一个普适的”够了”的答案。这个体系只有320个残基和一个420Da的配体,计算量适中。如果换成500+残基的GPCR或1500Da的大环肽配体,200ns可能刚够蛋白质松弛,配体的构象平衡还远没开始。
但三组对比给出了一条判定准则而非固定数值:在MM/PBSA计算之前,检查配体的所有可旋转键是否至少完成了一轮翻转。如果有任何一个可旋转键从头到尾待在一个构象里没动,不要算MM/PBSA——算出来的ΔG偏差可以大到让一个纳摩尔级的高活性分子被误判为微摩尔级的弱活性分子。
决定精度的不是CPU小时数,是构象的遍历性。而遍历性,在RMSD收敛之后才刚刚开始。
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
量子化学模拟计算:方法选择与计算精度的平衡逻辑
小分子动力学模拟:溶剂效应与构象采样的计算策略
高斯分子动力学模拟:BOMD与CPMD方法的选择和能垒计算实践
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
纳米流体在受限空间中的输运行为模拟——从体相到纳米通道,水的扩散系数怎么变了
核酸结构的分子动力学模拟:从双螺旋到配体结合的动态路径
石墨烯力学性能的分子动力学模拟:周期性边界与自由边界对断裂行为的系统性影响
溶液环境中蛋白质构象变化的分子动力学模拟:显式溶剂与隐式溶剂模型在构象采样中的权衡
VASP计算磁各向异性:自旋轨道耦合、磁矩取向和k点的三角关系——SOC开关不是越早开越好
多肽的分子动力学模拟:在溶剂、离子和膜环境中跑一条多肽链,水盒子里的每一颗钠离子都在改变构象分布
金属原子间键能计算:从结合能到解离能的路径选择
吸附能计算中的范德华修正方案选择:DFT-D3、DFT-D3(BJ)与TS的定量对比
VASP能带计算中的k点收敛性测试:从粗网格到精确结果的路径
VASP功函数怎么计算:静电势方法与参数设置详解
VASP分子动力学模拟:AIMD计算的设置逻辑与注意事项
VASP计算分子能量:从孤立分子建模到BSSE校正的全流程