做药物设计的人,大多在结合位点预测这一步踩过坑。预测出来的口袋看着挺合理,对接进去的结合模式也说得通,结果合成出来一测,IC50差了三个数量级。
问题不在对接程序,而在口袋本身——你找的那个口袋,在真实生理条件下可能根本不开放,或者是别的小分子先占了,或者构象变化之后这个口袋就消失了。

几何方法(SiteMap、FPocket):纯几何描述,找蛋白表面的凹陷区域。计算快,适合初步扫描。缺点是假阳性高——蛋白表面凹陷不等于功能口袋,有些凹陷是结构柔性造成的瞬时空腔,不是稳定的配体结合位点。
探针方法(FTMap、MDMix):把一小分子探针(甲醇、乙腈、异丙醇等)放到蛋白表面做能量最小化,探针聚集的地方就是潜在结合位点。FTMap的结果通常比纯几何方法靠谱,因为探针的能量打分考虑了疏水、氢键和静电贡献。
保守性方法(ConCavity、ConSurf):基于进化保守性,功能重要的口袋通常在进化上高度保守。这个方法能过滤掉很多假阳性口袋,但需要可靠的同源序列比对,对孤儿蛋白(orphan proteins)不好用。
SiteMap(Schrodinger):界面友好,打分函数考虑了疏水性、亲水性、暴露表面积。对已知口袋的蛋白,SiteMap的Top1预测准确率很高。但如果你做的是全蛋白扫描,SiteMap有时会把活性位点旁边的辅助口袋排到第一位——这个口袋可能也有结合能力,但不是你想要的那个功能位点。
FTMap:基于快速傅里叶变换的分子对接,把小探针往蛋白表面贴。好处是速度快,结果用集群热图展示,一目了然。缺点是探针分子太小,无法模拟真实配体的形状互补性。FTMap找到的位点通常是”热点”(hot spot),但热点不等于完整口袋。
实际工作里,我倾向于先用FTMap扫一遍,找到能量最低的几个热点,再用SiteMap在热点附近做精细扫描,两个结果叠加,重合度高的区域优先做后续对接。
这是很多教程里不提但非常关键的一步。晶体结构里的口袋,和溶液里平均结构里的口袋,形状可能完全不一样。
具体做法:跑一段100-200 ns的MD,每隔1 ns取一帧,对每一帧做SiteMap或FPocket计算,然后把所有帧的口袋打分做时间平均。有些口袋在晶体结构里看着很深,但在MD轨迹里平均下来很浅——说明这个口袋的动态波动大,不适合做药物设计靶点。
另一个更有信息量的分析是口袋体积的时序变化。用fpocket对轨迹逐帧分析,画出口袋体积随时间变化的曲线。如果体积在模拟中剧烈波动(标准差>30%),这个口袋的成药性要打问号。
如果目标蛋白有至少20个同源序列,一定要做保守性分析。ConSurf是最好上手的工具,网页版直接上传序列或者PDB ID就能跑。
保守性分析的两个用途:
第一,过滤假阳性。FTMap找到一个热点,但ConSurf显示这个区域进化上不保守,说明这个位点在自然界没有被选择压力锁定,可能不是功能相关的口袋。
第二,发现别构位点。有些口袋不在活性中心附近,但在进化上高度保守,这往往是别构调节位点。别构位点的成药价值有时候比活性中心还高——选择性更好,脱靶效应更低。
坑一:只依赖晶体结构的单一构象。蛋白是动态的,晶体结构只是一个快照。如果只基于这个快照做口袋预测,可能会错过只有特定构象才开放的口袋(cryptic pocket)。
坑二:忽略水的竞争。口袋里如果有有序水分子簇,配体要结合就必须把这些水挤出去,这部分去溶剂化自由能的代价很高。预测口袋的时候要用WaterMap(Schrodinger)或者类似的工具评估水的热力学贡献。
坑三:把对接打分当结合亲和力。对接打分函数(docking score)是相对值,不是绝对值。两个口袋的对接打分差10 kcal/mol,不代表结合亲和力真的差10 kcal/mol。对接打分的用途是排序,不是绝对值预测。
这套流程走下来,假阳性率能降到10%以下。关键是第3步——很多人跳过MD验证,直接进对接,结果浪费大量时间在不能用的口袋上。
蛋白结合位点预测的核心矛盾是:几何上合理的口袋,不一定在动力学上稳定;动力学上稳定的口袋,不一定有成药性。这三层过滤(几何→动力学→进化),每一步都在帮你淘汰错误答案。
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
蛋白配体分子动力学模拟:从对接结果到结合稳定性的验证
量子化学模拟计算:方法选择与计算精度的平衡逻辑
小分子动力学模拟:溶剂效应与构象采样的计算策略
高斯分子动力学模拟:BOMD与CPMD方法的选择和能垒计算实践
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
LAMMPS计算结合能:聚合物-纳米填料界面的结合能,从拔出模拟到PMF,力场精度决定你拉出来的是多少
LAMMPS粗粒化建模:把几万个原子缩减到几百个珠子,精度不是白送的
材料拉伸模拟计算:从弹性段到颈缩失稳,有限元不是把曲线跑出来就算完
纳米流体在受限空间中的输运行为模拟——从体相到纳米通道,水的扩散系数怎么变了
核酸结构的分子动力学模拟:从双螺旋到配体结合的动态路径
石墨烯力学性能的分子动力学模拟:周期性边界与自由边界对断裂行为的系统性影响
溶液环境中蛋白质构象变化的分子动力学模拟:显式溶剂与隐式溶剂模型在构象采样中的权衡
VASP计算磁各向异性:自旋轨道耦合、磁矩取向和k点的三角关系——SOC开关不是越早开越好
多肽的分子动力学模拟:在溶剂、离子和膜环境中跑一条多肽链,水盒子里的每一颗钠离子都在改变构象分布
金属原子间键能计算:从结合能到解离能的路径选择
吸附能计算中的范德华修正方案选择:DFT-D3、DFT-D3(BJ)与TS的定量对比
VASP能带计算中的k点收敛性测试:从粗网格到精确结果的路径
VASP功函数怎么计算:静电势方法与参数设置详解
VASP分子动力学模拟:AIMD计算的设置逻辑与注意事项
VASP计算分子能量:从孤立分子建模到BSSE校正的全流程