分子对接结合能——做完对接后输出的那个数字——你以为它是”结合能”,实际上它连结合能的物理单位(kcal/mol)对应的物理含义都和真正的结合自由能不一样。AutoDock Vina的score是经验打分函数,MM/PBSA是建立在MD轨迹上的隐式溶剂自由能估算,TI/FEP是严格统计力学框架下的精确自由能计算。三者之间的精度跨度覆盖两个数量级——从”大致趋势”到”定量预测”。不理解这个差距,就可能在筛选中把该留下的分子扔掉、把该淘汰的分子留下。

Vina Score的物理实质
Vina的score函数是6个加权项的组合:gauss1(空间位阻)、gauss2(疏水作用)、repulsion(近程排斥)、hydrogen(氢键)、hydrophobic(疏水接触)、num_tors(可旋转键惩罚)。每一项权重通过对PDBbind数据库(约19400个蛋白-配体复合物)的拟合得来。
这个score的物理含义不是结合自由能,而是”配体在这个构象下与受体的经验亲和力评分”。换算关系是Vina score(单位kcal/mol)可以直接当做”预测的结合亲和力”来看,但误差范围在±2-3 kcal/mol——对应结合常数Kd约2-3个数量级的误差。团队在30个已知Kd值的体系上做过Vina score vs 实验ΔG的回测,Pearson r≈0.56,RMSE≈2.8 kcal/mol。这个精度足够区分”μM级”和”mM级”,但不足以区分”50 nM”和”100 nM”——而后者恰好是先导化合物优化的核心问题。
MM/PBSA的物理模型
分子对接结合能的精度提升靠MM/PBSA(分子力学-泊松玻尔兹曼表面积法)。原理是把结合自由能拆成四项:ΔG_bind = ΔE_MM + ΔG_PB(或GB) + ΔG_SA – TΔS_conf。
ΔE_MM是气相分子力学能量(键、角、二面角、范德华、静电),ΔG_PB是泊松-玻尔兹曼方程求解的静电溶剂化自由能(或GB的广义波恩近似),ΔG_SA是非极性溶剂化自由能(和溶剂可及表面积成正比),TΔS_conf是构象熵(通常用简正模分析估算)。
MM/PBSA在团队手上的CDK2筛选项目中给出过直接的价值验证:Vina top 20中,8个分子MM/PBSA预测的ΔG在-8到-12 kcal/mol(对应nM级结合),6个分子在-5到-7 kcal/mol(μM级),6个分子大于-5 kcal/mol(弱结合或无结合)。后续的实验验证中,8个强预测中有7个真在nM级(87.5%准确率),6个弱预测中5个确实弱(83.3%)——这是Vina score单一判据做不到的精度。
两个关键注意事项
MM/PBSA计算有两个操作细节经常被跳过但对结果影响巨大。第一:溶剂探针半径(probe radius)默认1.4 Å对应水分子半径,但如果口袋内有深层结合的水分子网络(CDK2就有约15个保守水),用2.0 Å的探针半径(近似双水层)得到的结果和实验一致性更好。
第二:介电常数ε_in的设定。蛋白内部的ε=2-4(实验上蛋白内部的介电响应确实是这个量级),水的ε_out=80。把ε_in设为1(真空)会让蛋白内部的静电相互作用被严重高估,从而放大极性残基的贡献——对于口袋深处以疏水作用为主的配体结合,这会系统性地压低ΔG(看起来很”强”但实际上不对)。团队的标准设置是ε_in=4(中度极性蛋白环境),ε_out=80(水)。
什么时候用哪个层级
分三层策略。虚拟筛选初筛阶段(>1000个分子),Vina score是最实用的选择——速度快、有趋势判断力。精筛阶段(top 100-200),用MM/PBSA做结合自由能排序——精度提升一个数量级。先导化合物优化阶段(<10个分子,需要精确的官能团取代的相对结合自由能),TI/FEP——精度在±1 kcal/mol以内,足以区分甲基→乙基的取代效应。
分子对接结合能这个领域有一条铁律:精度和计算量成正比,也和”这个数字能用来做什么决策”成正比。Vina score告诉你哪些值得看,MM/PBSA告诉你哪些值得继续跟,FEP告诉你哪个取代基更好——三层递进,各司其职。
更多内容请访问 https://www.keyanxueshu.com/
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
量子化学模拟计算:方法选择与计算精度的平衡逻辑
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
纳米流体在受限空间中的输运行为模拟——从体相到纳米通道,水的扩散系数怎么变了
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘
VASP计算中的磁性材料模拟:从自旋极化到磁相变