药物分子对接服务的价值不只是一个-9.2 kcal/mol的打分数字——它帮课题组在合成之前回答”这批2000个候选分子里,哪些值得进细胞实验”。去年我们接过一个CDK2激酶抑制剂的对接项目,对方手里有HTS筛出的30个hits,但选择性不清楚、结合模式未知,不知道该优化哪个骨架。这个项目后来跑了三轮对接——从初筛到精确重打分——最终锁定了2个骨架、5个候选分子进了后续的酶活验证。因为这个项目把药物分子对接服务中容易踩的坑踩了个遍,这里用它当主线,讲清楚一套完整的对接服务是怎么运转的。

药物分子对接服务最容易在第一步就出错的分岔口,是”用哪个蛋白结构”。PDB里有这个CDK2的几十个晶体结构——有结合ATP的、结合不同抑制剂的、有磷酸化T160的、有未磷酸化的。直接随便挑一个跑对接,结果可能被蛋白构象的差异完全吃掉。
我们的做法是先做结构的交叉比对。把5个高分辨率(≤2.0 Å)的CDK2结构叠在一起看ATP结合口袋的构象差异:DFG-in和DFG-out两种状态下,Phe80侧链的位置差了将近6 Å——这直接改变口袋的溶剂可及体积。这个项目的抑制剂是Type I(结合DFG-in构象),所以我们选择了DFG-in状态下口袋开口最大的那个晶体结构(PDB 1H1S,1.8 Å)。
蛋白准备的具体操作:用Schrödinger的Protein Preparation Wizard补缺失的loop区原子、给His残基分配质子化状态(根据局部氢键网络判断是HIE/HID/HIP)、在pH=7.4条件下分配可滴定残基的电荷态。口袋内的结晶水分子不是一刀切删除——我们保留了和关键残基(Lys33和Asp145)形成稳定氢键网络的3个水分子,它们在对接中作为”桥接水”参与配体-蛋白相互作用。
药物分子对接服务的效率取决于”粗筛用快方法、精选用准方法”的分层策略。这个CDK2项目我们用了两层:
第一层——Vina高速初筛。 对接格点盒(docking box)以共晶配体的质心为中心,20×20×20 Å的立方盒足够覆盖整个ATP口袋加部分变构区域。exhaustiveness设为32——这个值在速度和采样充分性之间取了一个平衡。低于16的话,对小分子的构象采样可能不够;高于64,对单个分子的计算时间翻倍但排序精度提升有限(参考文献中exhaustiveness=32时重对接RMSD已收敛到1.5 Å以内)。
这一层跑完了30个hits分子和200个decoys(从ZINC数据库中根据分子量和logP匹配的类似物)——目的不是看打分绝对值,是看hits能不能在decoys堆里排到前5%。结果是:30个hits中,23个在decoys+ hits的混合库(230个分子)中排进了前10%。这个富集率说明对接模型对这类骨架是有效的——如果hits散落在排名中段,那要回头检查蛋白准备或盒子设置。
第二层——Glide SP+XP精选。 把Vina选出的8个高打分pose导入Glide做精确对接和打分。Glide SP在这一层的优势是对氢键几何有严格的惩罚函数——和CDK2铰链区(hinge region,残基Glu81-Leu83)的氢键偏离角度超过30°时会扣分,这对激酶体系非常关键,因为铰链区氢键是激酶抑制剂结合的核心锚点。
换Glide之后排名发生了变化:Vina排名第1的分子,在Glide SP掉到了第3——因为它和铰链区的双氢键有一个角度偏了12°,Vina的氢键项对此不敏感,但Glide SP的惩罚函数立刻捕捉到了。这个排名的变化后来被酶活实验印证了:Glide SP排第1的分子IC₅₀ 48 nM,Vina排第1的那个分子IC₅₀ 210 nM。
激酶是做对接最”舒服”的一类——口袋深、溶剂暴露少、铰链区氢键锚定效果好。换一个靶点类型,药物分子对接服务的策略要跟着调整。
GPCR类靶点的问题不在对接本身,在蛋白结构。 GPCR的晶体结构少、很多时候只能用同源建模的结构。同源模型的侧链位置有系统误差,loop区的构象更是”猜”出来的。这种情况下,对接盒子的设置要比晶体结构更大(25×25×25 Å),而且要用柔性对接(induce fit docking)——允许结合口袋的部分侧链在配体靠近时做构象调整。对A2A腺苷受体这样的GPCR靶点,直接刚性对接的错误率会很高。
金属酶靶点的对接需要专门改力场参数。 Vina和Glide默认的原子类型定义对Zn²⁺、Mg²⁺等金属离子的vdW半径和电荷处理都有简化——如果体系里有催化锌,需要手动定义金属离子的vdW参数,或者在Glide里启用金属配位约束。我们做过一个MMP-13(含催化Zn²⁺)的对接项目,不加金属约束时,对接pose把配体放到了Zn²⁺对侧的口袋壁上——加约束后才回到正确的四面体配位几何。
蛋白-蛋白界面(PPI)是对接最难的一类。 界面大(通常1500-3000 Ų)、较平、缺乏深口袋,打分函数的疏水项贡献不足、极性项噪音过大。这类靶点一般不建议直接用标准对接流程——改用FTPepDock或基于肽段的对接策略,比全配体对接的命中率高得多。
对接输出几十个pose,选哪个进下一轮?药物分子对接服务中这一步的决策逻辑是:不只看打分,看pose的物理合理性。
这个CDK2项目里,我们对每个hit选了3个最好的pose,逐一检查三项:
做完人工检查后,对过审的pose做了MM/GBSA重打分。和Vina/Glide SP的结果对比:MM/GBSA的排序和酶活实验IC₅₀的Spearman相关系数(0.78)高于Vina(0.61)和Glide SP(0.72)。不是说MM/GBSA一定最好——是它的隐式溶剂模型对这个疏水主导的激酶口袋体系特别适配。换一个高电荷、强溶剂化的体系(如蛋白-核酸界面),MM/GBSA的优势就没这么明显了。
做过几十个对接项目的经验是:药物分子对接服务能保证的是”筛选效率”——把千级候选分子压缩到几十个、给出结合模式的原子级假设、为合成优化提供结构依据。不能保证的是”打分最高的分子一定是活性最好的”——任何一个打分函数在陌生化学空间中的排序精度都有天花板。
这个CDK2项目最终选了5个候选分子进酶活测试。5个里4个有活性(IC₅₀ 48 nM—5.2 μM),1个无活性(后分析发现是分子刚性过高、可旋转键只有1个,结合熵惩罚过大,而对接打分没计算熵的贡献)。这个验证率(4/5)在这个靶点类型里算正常偏上——不代表所有体系都这样。对柔性配体多、可旋转键超过10个的体系,验证率一般会明显下降。
回过头看,一套靠谱的药物分子对接服务,核心在于靶点准备的细致程度、分层筛选的策略设计、以及pose选择时对物理原理的坚守——打分只是一个参考维度,不是判决书。
更多案例请访问 https://www.keyanxueshu.com/
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程
VASP可以计算分子能量吗:气相分子DFT的周期边界修正与Gaussian交叉验证
分子动力学模拟对接:MD精修配体构象与对接打分互补的筛选策略
全原子分子动力学模拟原理:力场选择、时间步长与系综耦合的物理账本
分子结构预测:从DFT全局优化到ML辅助搜索的实战复盘
VASP分子动力学模拟:一个高温下MgO熔体结构的AIMD分析
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘