分子对接预测的核心目标很简单——在受体结合口袋里找到配体的最优结合构象,然后给出一个打分来评估结合强度。听起来像是一个”输入配体、输出打分”的黑箱操作,但实际做下来你会发现,对接打分和实验测量值之间的相关性,很大程度上取决于你对蛋白结构的处理方式和对对接结果的筛选策略。

分子对接的第一步是准备受体的三维结构。如果PDB数据库里有实验解析的晶体结构(X-ray或cryo-EM),优先使用。但拿到PDB文件之后不能直接用——里面可能包含结晶水、配体、金属离子、共结晶的别构效应分子,需要根据对接目标决定哪些保留、哪些删除。
团队做过一个EGFR激酶抑制剂的对接项目,用的PDB结构是4ZAU。这个结构里有一个共价结合的不可逆抑制剂分子,占据了ATP结合口袋。如果直接删掉配体开始对接,口袋的侧链构象可能还停留在结合态——跟apo态的构象有差异。正确的做法是先把共价配体删掉,对口袋残基做侧链旋转优化(侧链预测),让结合口袋恢复到开放状态。
另一个常被忽略的问题是质子化状态。蛋白结构里的His、Asp、Glu等残基的质子化取决于体系的pH值和微环境。His有两个可能的质子化位点(δ位和ε位),如果质子化选错了,配体和His之间关键的氢键就无法形成,对接打分会显著偏高。团队用PROPKA工具对受体做了pKa预测,确定了His793在生理pH下是单质子化的δ-His——这个信息直接影响了对接结果里配体取向的判断。
金属离子的处理也需要格外小心。如果结合口袋里有Zn²⁺或Mg²⁺参与配位,在AutoDock Vina里需要显式指定金属-配体相互作用参数,否则对接程序会把金属当成一个刚性原子处理,配位键的贡献完全丢失。
配体的构象搜索是对接中的计算密集环节。AutoDock Vina用的是一种改进的随机全局优化算法,通过Monte Carlo搜索+局部优化来探索构象空间。它比旧版AutoDock 4的遗传算法快了一个数量级,但搜索的完备性也打了折扣——有些低能构象可能被跳过。
团队在这个激酶对接项目里,对Vina的exhaustiveness参数做了敏感性测试。默认值8跑出来的最优打分是-9.2 kcal/mol,设到32之后打分降到了-10.1 kcal/mol。最优构象的RMSD差了1.8 Å——这在结合模式判断上可能是质变的差异。
exhaustiveness参数本质上是搜索轮数的控制。设到32意味着计算时间增加约4倍,但对20个配体的小库来说仍然在可接受范围内(单配体对接时间从30秒增加到2分钟左右)。对于高通量虚拟筛选(数万化合物),这个参数需要回到默认值8,牺牲精度换取速度——这是一道明确的取舍题。
AutoDock Vina的打分函数包含了范德华力、氢键、疏水相互作用和构象惩罚等项,是经验性的拟合函数。它的绝对打分值(kcal/mol)和实验结合自由能之间没有简单的线性对应关系——Vina打分-10 kcal/mol和实验IC₅₀在纳摩尔级别之间只是一种粗略的统计关系。
更关键的问题是排名可靠性。在一个包含50个化合物的库中,Vina能否把活性化合物排到前10名?实测表明,top-5的命中率大约在40-60%之间,远不如人们期望的那么高。原因包括:评分函数没有考虑蛋白柔性的诱导契合效应、溶剂化效应被粗略处理、熵贡献难以准确估算。
团队在这个项目中没有依赖Vina打分做最终排序,而是把对接结果(前20个构象)全部导出,用MM-GBSA方法做了重新打分。MM-GBSA虽然也有近似,但至少把蛋白-配体复合物的构象能、去溶剂化能和熵贡献做了显式分离。重新排名后,top-5里3个是已知活性化合物——比纯Vina排名多了一个。多出来的这个化合物后来被实验验证了微摩尔级活性,成了项目的亮点发现。
分子对接预测能告诉你”哪个构象在物理上合理”,但无法告诉你”这个化合物在体内是否有效”。对接结果的验证最终要回到实验——SPR(表面等离子体共振)测结合动力学、细胞实验测活性。计算能做的是缩小搜索范围、降低实验成本,但不能替代实验。
分子对接预测在整个分子动力学工作流中是性价比最高的筛选环节之一。用好了,它能把万级化合物库缩减到百级,再交给更高精度的MD模拟或自由能微扰做精细评估。更多对接和筛选的案例,可参阅科研学术网首页。
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
量子化学模拟计算:方法选择与计算精度的平衡逻辑
小分子动力学模拟:溶剂效应与构象采样的计算策略
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
纳米流体在受限空间中的输运行为模拟——从体相到纳米通道,水的扩散系数怎么变了
核酸结构的分子动力学模拟:从双螺旋到配体结合的动态路径
石墨烯力学性能的分子动力学模拟:周期性边界与自由边界对断裂行为的系统性影响
溶液环境中蛋白质构象变化的分子动力学模拟:显式溶剂与隐式溶剂模型在构象采样中的权衡
siRNA序列高通量筛选:从靶标mRNA到有效siRNA序列的计算设计流程
污染扩散模拟计算:一个化工园区大气扩散项目的完整复盘
VASP计算中的磁性材料模拟:从自旋极化到磁相变
VASP计算在电池材料研究中的深度应用
表面科学模拟从清理表面到反应机理
VASP计算磁各向异性:自旋轨道耦合、磁矩取向和k点的三角关系——SOC开关不是越早开越好
多肽的分子动力学模拟:在溶剂、离子和膜环境中跑一条多肽链,水盒子里的每一颗钠离子都在改变构象分布
金属原子间键能计算:从结合能到解离能的路径选择