手机版

分子对接结合能计算：Vina打分函数的内部构造与可靠性边界

发布时间：2026-06-22 来源：科研学术网

小中大

字号：

分子对接结合能计算得到的那个数字（-7.2, -9.1, -8.4 kcal/mol）——它到底从哪来？Vina的打分函数是一个empirical的线性回归模型，从晶体结构-亲和力数据库（PDBbind）的9000+复合物中拟合出来的权重。了解每一项的物理来源和校准假设，是判断一个体系的对接打分是否”靠谱”的唯一方式。

Vina打分的四个物理项

Vina的打分函数（以kcal/mol为单位）由四项加和：空间位阻项（gauss1+gauss2+排斥项）、疏水项、氢键项和可旋转键数惩罚项。

空间位阻项用两个高斯函数叠加一个线性项来近似Lennard-Jones型相互作用——短程排斥随距离减小而剧增、近程吸引力在vdW接触距离处达到最优。Gauss1控制原子的”最优接触距离”，Gauss2控制”允许的最近距离”，排斥项是短程硬球的最后防线。这三参数的组合，本质是在模拟”原子不能重叠但又要紧密接触”的硬球物理。

疏水项不是基于溶解自由能的物理计算，而是基于原子类型的表面接触面积的经验值。Vina将疏水相互作用简化到原子对经验项——碳-碳近距离接触→疏水稳定化——这样的简化放弃了疏水效应的长程本质（围绕非极性表面的水分子笼形成），但对传统药物靶点（活性位点主要是疏水腔体的酶）的rank-ordering已经足够。

氢键项基于几何判据——给体-受体距离<3.5 Å、D-H···A角度>120°且偏离直线角度尽可能小——满足几何条件的原子对获得氢键能量奖励。这个简化隐去了氢键的轨道重叠和多体协同效应——对中性氢键（N-H···O=C）工作良好，但对电荷辅助氢键（NH⁺···O⁻，如Asp/His之间的盐桥-氢键）可能低估1-2 kcal/mol。

可旋转键惩罚是对构象熵损失的经验补偿——每个可旋转键在结合过程中损失约0.3-0.5 kcal/mol的自由度（对应构象熵的降低）——配体被”冻结”在结合构型中付出的熵代价。这条经验规则对柔性配体（可旋转键>10）的惩罚约3-5 kcal/mol——但配体在结合腔中可能以多个近简并的构象存在，实际熵损失低于预期。因此对大型柔性配体，Vina倾向于高估熵惩罚、低估结合亲和力。

PDBbind校准：隐含的偏差

Vina的打分函数权重是从PDBbind refined set（9000+晶体复合物-亲和力数据）中拟合出来的。PDBbind本身对类药分子（分子量300-600 Da，logP 1-5，可旋转键<10）的覆盖率极高，但对以下三类配体的校准可靠性会下降：

高度极性配体（ClogP<0）：疏水项贡献降到极低，结合力主要由氢键/静电驱动，Vina倾向于低估亲和力2-3 kcal/mol。
大型天然产物/多肽（MW>800 Da）：可旋转键惩罚大量累积→Vina打出的分数偏正（预测结合弱）→可能与实验的中等-强结合（nM级）矛盾。
共价抑制剂：Vina不做反应机制建模，把共价键形成完全排除在外。对接打分给出的是”非共价对接”的亲和力，与实验的共价IC₅₀没有直接可比性。

这些偏差不是bug——是Vina打分函数结构本身的选择。理解这些局限性，才能判断”对一个特定的靶点-配体对，Vina打分是否值得信任”。

重打分策略：当Vina打分不够用时

如果目标是从一批docking pose中挑出最可能结合的那个，除了Vina本身的重打分（redock用更精细参数），常见的重打分策略有三条：

基于力场的重打分（AutoDock4打分函数或AMBER/CHARMM MM能量+广义Born隐式溶剂）：计算每个docking pose的完整分子力学能量+GB溶剂化能，用更物理化的能量项取代Vina的empirical加权。对于Vina打分高度聚集、难以排序的pose cluster，力场重打分能提供更高的区分度。

基于知识的统计势（DrugScore, PMF）：将蛋白-配体原子对距离分布与参考态（忽略相互作用的随机分布）进行比较，距离分布频率高→有利相互作用→负能量。基于知识的方法避开了一些力场参数化误差，但对PDB数据库中的共性偏好——如芳香堆积被高估——同样敏感。

ML重打分（RF-Score, NNScore, OnionNet等）：用对接pose的分子指纹或原子对特征加上随机森林/神经网络来预测结合亲和力。这类方法可以用训练集的范围来”隐式校准”某些传统打分函数的系统性偏差——如对卤素键、阳离子-π等非经典相互作用的描述比Vina原始打分有明显改善。但ML重打分对训练集的依赖意味着靶点、化学空间的分布偏移会直接影响预测可靠性。

结合能数值的意义与限度

-9.0 kcal/mol和-8.0 kcal/mol在对接中的”可区分度”到底多大？鉴于Vina打分在PDBbind上的标准差~2-3 kcal/mol，一个-9.0和一个-8.0的配体在对接中的差异很可能落在噪声水平内——批量虚拟筛选中对头部结果的rank不应用1 kcal/mol的精度来做绝对划分，而是用top 1%/5%的clip来做富集分析。

分子对接结合能计算的最终目标不是”算出一个精确的ΔG”，而是在给定的化学空间内，把真正的结合物和非结合物正确地分开——ROC曲线下的AUC、富集因子（EF1%）这些统计指标，比单个预测的偏差更有信息量。

更多内容请访问 https://www.keyanxueshu.com/