手机版
           

分子对接结合能计算:Vina打分函数的内部构造与可靠性边界

发布时间:2026-06-22   来源:科研学术网    
字号:

分子对接结合能计算得到的那个数字(-7.2, -9.1, -8.4 kcal/mol)——它到底从哪来?Vina的打分函数是一个empirical的线性回归模型,从晶体结构-亲和力数据库(PDBbind)的9000+复合物中拟合出来的权重。了解每一项的物理来源和校准假设,是判断一个体系的对接打分是否”靠谱”的唯一方式。

Vina打分的四个物理项

Vina的打分函数(以kcal/mol为单位)由四项加和:空间位阻项(gauss1+gauss2+排斥项)、疏水项、氢键项和可旋转键数惩罚项。

空间位阻项用两个高斯函数叠加一个线性项来近似Lennard-Jones型相互作用——短程排斥随距离减小而剧增、近程吸引力在vdW接触距离处达到最优。Gauss1控制原子的”最优接触距离”,Gauss2控制”允许的最近距离”,排斥项是短程硬球的最后防线。这三参数的组合,本质是在模拟”原子不能重叠但又要紧密接触”的硬球物理。

疏水项不是基于溶解自由能的物理计算,而是基于原子类型的表面接触面积的经验值。Vina将疏水相互作用简化到原子对经验项——碳-碳近距离接触→疏水稳定化——这样的简化放弃了疏水效应的长程本质(围绕非极性表面的水分子笼形成),但对传统药物靶点(活性位点主要是疏水腔体的酶)的rank-ordering已经足够。

氢键项基于几何判据——给体-受体距离<3.5 Å、D-H···A角度>120°且偏离直线角度尽可能小——满足几何条件的原子对获得氢键能量奖励。这个简化隐去了氢键的轨道重叠和多体协同效应——对中性氢键(N-H···O=C)工作良好,但对电荷辅助氢键(NH⁺···O⁻,如Asp/His之间的盐桥-氢键)可能低估1-2 kcal/mol。

可旋转键惩罚是对构象熵损失的经验补偿——每个可旋转键在结合过程中损失约0.3-0.5 kcal/mol的自由度(对应构象熵的降低)——配体被”冻结”在结合构型中付出的熵代价。这条经验规则对柔性配体(可旋转键>10)的惩罚约3-5 kcal/mol——但配体在结合腔中可能以多个近简并的构象存在,实际熵损失低于预期。因此对大型柔性配体,Vina倾向于高估熵惩罚、低估结合亲和力。

PDBbind校准:隐含的偏差

Vina的打分函数权重是从PDBbind refined set(9000+晶体复合物-亲和力数据)中拟合出来的。PDBbind本身对类药分子(分子量300-600 Da,logP 1-5,可旋转键<10)的覆盖率极高,但对以下三类配体的校准可靠性会下降:

  • 高度极性配体(ClogP<0):疏水项贡献降到极低,结合力主要由氢键/静电驱动,Vina倾向于低估亲和力2-3 kcal/mol。
  • 大型天然产物/多肽(MW>800 Da):可旋转键惩罚大量累积→Vina打出的分数偏正(预测结合弱)→可能与实验的中等-强结合(nM级)矛盾。
  • 共价抑制剂:Vina不做反应机制建模,把共价键形成完全排除在外。对接打分给出的是”非共价对接”的亲和力,与实验的共价IC₅₀没有直接可比性。

这些偏差不是bug——是Vina打分函数结构本身的选择。理解这些局限性,才能判断”对一个特定的靶点-配体对,Vina打分是否值得信任”。

重打分策略:当Vina打分不够用时

如果目标是从一批docking pose中挑出最可能结合的那个,除了Vina本身的重打分(redock用更精细参数),常见的重打分策略有三条:

基于力场的重打分(AutoDock4打分函数或AMBER/CHARMM MM能量+广义Born隐式溶剂):计算每个docking pose的完整分子力学能量+GB溶剂化能,用更物理化的能量项取代Vina的empirical加权。对于Vina打分高度聚集、难以排序的pose cluster,力场重打分能提供更高的区分度。

基于知识的统计势(DrugScore, PMF):将蛋白-配体原子对距离分布与参考态(忽略相互作用的随机分布)进行比较,距离分布频率高→有利相互作用→负能量。基于知识的方法避开了一些力场参数化误差,但对PDB数据库中的共性偏好——如芳香堆积被高估——同样敏感。

ML重打分(RF-Score, NNScore, OnionNet等):用对接pose的分子指纹或原子对特征加上随机森林/神经网络来预测结合亲和力。这类方法可以用训练集的范围来”隐式校准”某些传统打分函数的系统性偏差——如对卤素键、阳离子-π等非经典相互作用的描述比Vina原始打分有明显改善。但ML重打分对训练集的依赖意味着靶点、化学空间的分布偏移会直接影响预测可靠性。

结合能数值的意义与限度

-9.0 kcal/mol和-8.0 kcal/mol在对接中的”可区分度”到底多大?鉴于Vina打分在PDBbind上的标准差~2-3 kcal/mol,一个-9.0和一个-8.0的配体在对接中的差异很可能落在噪声水平内——批量虚拟筛选中对头部结果的rank不应用1 kcal/mol的精度来做绝对划分,而是用top 1%/5%的clip来做富集分析。

分子对接结合能计算的最终目标不是”算出一个精确的ΔG”,而是在给定的化学空间内,把真正的结合物和非结合物正确地分开——ROC曲线下的AUC、富集因子(EF1%)这些统计指标,比单个预测的偏差更有信息量。

更多内容请访问 https://www.keyanxueshu.com/

图说天下

×
gromacs计算
lammps计算
VASP计算
分子对接
分子自组装