分子对接预测在药物发现管线里的位置,通常是高通量虚拟筛选的第一步。一个典型的项目流程是:从百万级化合物库出发,用对接打分做粗筛,筛出前一千个候选,再用更精确的MM/PBSA结合自由能计算做精筛,最后进入实验验证。
这个流程逻辑清楚,但执行起来每一层筛选都可能把真正有活性的分子筛掉——不是因为方法不好,而是因为对接的精度还做不到在所有化学空间中均一表现。

打分函数:为什么排名前十的化合物未必是最优的
AutoDock Vina和Glide SP是目前主流的对接打分方案。它们的打分函数本质上基于经验的线性回归模型:把范德华作用、静电作用、氢键、疏水作用等各项能量拆开,用训练好的权重系数加权求和,得到一个”结合能”估计值。
问题在于这个线性回归的适用范围。打分函数的训练集通常是PDBbind这类已知晶体结构和实验结合常数的复合物,训练集里的配体分布决定了打分函数在哪些化学空间中更准。如果筛选的化合物化学空间和训练集偏离较大——比如含硼、含硅的共价抑制剂——打分函数给出的排名可信度会显著下降。
在筛选激酶ATP结合位点的抑制剂时,用Vina做了80万化合物的初筛,把打分排名前500的化合物拿去检查对接构象。发现排名前10里有3个化合物的对接构象有明显的空间冲突——苯环和蛋白侧链的骨架原子距离不到2.0 Å,在物理上不成立,但Vina的打分没有严重惩罚它。
究其原因,Vina的范德华排斥项用了软化的Lennard-Jones势,在近程做了平滑处理,目的是减少打分函数对构象微小偏差的敏感性。但副作用是:显著的空间冲突不会被充分惩罚,导致一些物理上不能结合的构象被打出了不错的分。
构象采样:对接精度的物理瓶颈
对接包含两个子问题:构象采样和打分。打分函数的局限已有充分讨论,但构象采样的欠充分性同样是被低估的误差来源。
Vina默认用Lamarckian遗传算法做全局搜索,每个配体跑几十次独立对接、每次探索几千个构象。对于只有3-5个可旋转键的小分子,这个采样量通常足够。但对含8-10个可旋转键的柔性分子,构象空间指数增长——采样不到的地方可能是能量最低的构象,也可能不是,但对接不会告诉你它有没有探索到。
这个项目的二次筛选阶段,给排名前100的候选配体跑了一次10 ns的分子动力学模拟来采样构象系综,再对MD轨迹中的代表性构象重新对接。结果发现大约30%的候选在MD弛豫后对接打分变了超过1 kcal/mol,其中约一半是排名下降的——说明初筛阶段的构象采样不够充分。
实验验证的闭环反馈
纯计算的对接筛选不做实验验证缺乏说服力,但做实验也有实验的误差。激酶抑制活性测试常用的ADP-Glo发光法,IC₅₀值的批次间重复性大约在±30%范围。如果对接预测的结合能差了1 kcal/mol(对应Kd大约差5倍),实验上未必能显著区分——尤其在初筛阶段。
团队的经验是:不要期望对接打分和实验IC₅₀之间有完美的线性相关(R²到0.6-0.7已是很好的结果),而是把对接筛选看作一种富集策略——从80万候选里选出500个,这500个里有活性的比例应显著高于随机挑选的背景概率。从这个角度看,对接的意义不在精确预测每个分子的结合能,而在提升筛选的命中率。
受体柔性的补充:多构象对接
传统对接使用刚性受体,忽略了蛋白在配体结合过程中的构象调整。对于结合口袋有显著柔性的靶点(如激酶的DFG-motif翻转),刚性受体对接的精度会打折扣。
处理受体柔性的一个实用策略是:对apo态受体跑200 ns MD模拟做构象采样,用RMSD聚类选5-10个代表性构象,每个分别对接,最后取共识评分。这个多构象对接方案比单一刚性对接更全面地考虑了受体柔性,代价是计算量翻了一个数量级。
从计算筛选到实验命中的最后一公里
在激酶抑制剂项目中,经过对接初筛→多构象对接精筛→MD模拟验证→MM/PBSA排序,把6个候选推给了实验团队。实验测出其中4个IC₅₀在纳摩尔量级,1个在微摩尔,1个无活性。6进4的命中率在激酶抑制剂筛选中算不错,但那微摩尔活性的分子在MM/PBSA预测中排第2——提醒自由能预测在这个精度水平下仍有10-20%的显著错判概率。
在科研学术网首页上能看到更多关于计算辅助药物发现的方法对比和选型经验。
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
量子化学模拟计算:方法选择与计算精度的平衡逻辑
小分子动力学模拟:溶剂效应与构象采样的计算策略
高斯分子动力学模拟:BOMD与CPMD方法的选择和能垒计算实践
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
纳米流体在受限空间中的输运行为模拟——从体相到纳米通道,水的扩散系数怎么变了
核酸结构的分子动力学模拟:从双螺旋到配体结合的动态路径
石墨烯力学性能的分子动力学模拟:周期性边界与自由边界对断裂行为的系统性影响
溶液环境中蛋白质构象变化的分子动力学模拟:显式溶剂与隐式溶剂模型在构象采样中的权衡
VASP计算磁各向异性:自旋轨道耦合、磁矩取向和k点的三角关系——SOC开关不是越早开越好
多肽的分子动力学模拟:在溶剂、离子和膜环境中跑一条多肽链,水盒子里的每一颗钠离子都在改变构象分布
金属原子间键能计算:从结合能到解离能的路径选择
吸附能计算中的范德华修正方案选择:DFT-D3、DFT-D3(BJ)与TS的定量对比
VASP能带计算中的k点收敛性测试:从粗网格到精确结果的路径
VASP功函数怎么计算:静电势方法与参数设置详解
VASP分子动力学模拟:AIMD计算的设置逻辑与注意事项
VASP计算分子能量:从孤立分子建模到BSSE校正的全流程