分子对接结合能计算得到的那个数字(-7.2, -9.1, -8.4 kcal/mol)——它到底从哪来?Vina的打分函数是一个empirical的线性回归模型,从晶体结构-亲和力数据库(PDBbind)的9000+复合物中拟合出来的权重。了解每一项的物理来源和校准假设,是判断一个体系的对接打分是否”靠谱”的唯一方式。

Vina的打分函数(以kcal/mol为单位)由四项加和:空间位阻项(gauss1+gauss2+排斥项)、疏水项、氢键项和可旋转键数惩罚项。
空间位阻项用两个高斯函数叠加一个线性项来近似Lennard-Jones型相互作用——短程排斥随距离减小而剧增、近程吸引力在vdW接触距离处达到最优。Gauss1控制原子的”最优接触距离”,Gauss2控制”允许的最近距离”,排斥项是短程硬球的最后防线。这三参数的组合,本质是在模拟”原子不能重叠但又要紧密接触”的硬球物理。
疏水项不是基于溶解自由能的物理计算,而是基于原子类型的表面接触面积的经验值。Vina将疏水相互作用简化到原子对经验项——碳-碳近距离接触→疏水稳定化——这样的简化放弃了疏水效应的长程本质(围绕非极性表面的水分子笼形成),但对传统药物靶点(活性位点主要是疏水腔体的酶)的rank-ordering已经足够。
氢键项基于几何判据——给体-受体距离<3.5 Å、D-H···A角度>120°且偏离直线角度尽可能小——满足几何条件的原子对获得氢键能量奖励。这个简化隐去了氢键的轨道重叠和多体协同效应——对中性氢键(N-H···O=C)工作良好,但对电荷辅助氢键(NH⁺···O⁻,如Asp/His之间的盐桥-氢键)可能低估1-2 kcal/mol。
可旋转键惩罚是对构象熵损失的经验补偿——每个可旋转键在结合过程中损失约0.3-0.5 kcal/mol的自由度(对应构象熵的降低)——配体被”冻结”在结合构型中付出的熵代价。这条经验规则对柔性配体(可旋转键>10)的惩罚约3-5 kcal/mol——但配体在结合腔中可能以多个近简并的构象存在,实际熵损失低于预期。因此对大型柔性配体,Vina倾向于高估熵惩罚、低估结合亲和力。
Vina的打分函数权重是从PDBbind refined set(9000+晶体复合物-亲和力数据)中拟合出来的。PDBbind本身对类药分子(分子量300-600 Da,logP 1-5,可旋转键<10)的覆盖率极高,但对以下三类配体的校准可靠性会下降:
这些偏差不是bug——是Vina打分函数结构本身的选择。理解这些局限性,才能判断”对一个特定的靶点-配体对,Vina打分是否值得信任”。
如果目标是从一批docking pose中挑出最可能结合的那个,除了Vina本身的重打分(redock用更精细参数),常见的重打分策略有三条:
基于力场的重打分(AutoDock4打分函数或AMBER/CHARMM MM能量+广义Born隐式溶剂):计算每个docking pose的完整分子力学能量+GB溶剂化能,用更物理化的能量项取代Vina的empirical加权。对于Vina打分高度聚集、难以排序的pose cluster,力场重打分能提供更高的区分度。
基于知识的统计势(DrugScore, PMF):将蛋白-配体原子对距离分布与参考态(忽略相互作用的随机分布)进行比较,距离分布频率高→有利相互作用→负能量。基于知识的方法避开了一些力场参数化误差,但对PDB数据库中的共性偏好——如芳香堆积被高估——同样敏感。
ML重打分(RF-Score, NNScore, OnionNet等):用对接pose的分子指纹或原子对特征加上随机森林/神经网络来预测结合亲和力。这类方法可以用训练集的范围来”隐式校准”某些传统打分函数的系统性偏差——如对卤素键、阳离子-π等非经典相互作用的描述比Vina原始打分有明显改善。但ML重打分对训练集的依赖意味着靶点、化学空间的分布偏移会直接影响预测可靠性。
-9.0 kcal/mol和-8.0 kcal/mol在对接中的”可区分度”到底多大?鉴于Vina打分在PDBbind上的标准差~2-3 kcal/mol,一个-9.0和一个-8.0的配体在对接中的差异很可能落在噪声水平内——批量虚拟筛选中对头部结果的rank不应用1 kcal/mol的精度来做绝对划分,而是用top 1%/5%的clip来做富集分析。
分子对接结合能计算的最终目标不是”算出一个精确的ΔG”,而是在给定的化学空间内,把真正的结合物和非结合物正确地分开——ROC曲线下的AUC、富集因子(EF1%)这些统计指标,比单个预测的偏差更有信息量。
更多内容请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘