高通量药物筛选项目中,项目组为一家药企做激酶抑制剂筛选,从百万级化合物库出发,经过四轮虚拟筛选和实验验证,最终获得数个体外活性<100 nM的苗头化合物。整个计算筛选耗时数天(GPU集群),如果用实验高通量筛选(HTS)处理同等规模的化合物库,需要数月和大量试剂费用。计算筛选的杠杆效应在药物发现早期阶段尤为显著。

项目组建立的四级筛选管线:
百万级化合物库
↓ 第一级:类药性过滤(Lipinski规则)
数十万化合物
↓ 第二级:药效团模型筛选
数万化合物
↓ 第三级:分子对接(Glide HTVS模式)
数千化合物
↓ 第四级:分子对接(Glide SP模式)+ ADMET预测
数百化合物
↓ 实验验证
苗头化合物(体外活性<10 μM)
→ 先导化合物(<100 nM)
每一级都有明确的筛选标准和淘汰理由,确保不遗漏潜在活性分子。
类药性过滤用Lipinski五规则和Veber规则作为初筛:
200万化合物经过类药性过滤后剩120万。这一步淘汰率40%——大量化合物因为分子量过大或logP过高被排除。类药性过滤的目的是降低后续计算量,不是精确筛选——有些违反Lipinski规则但仍有活性的药物(如大环内酯类)会在这一步被误删,但这是可接受的代价。
项目组用RDKit做批量过滤,处理200万化合物约2小时(单CPU)。
药效团模型描述的是活性分子共有的空间特征排列。项目组从已知的激酶抑制剂晶体结构(PDB中检索到15个靶蛋白-配体复合物)中提取药效团特征:
项目组用Phase(Schrödinger)构建药效团模型,对120万化合物做匹配。匹配标准:至少匹配3/4个特征(允许缺失一个非关键特征)。筛选后剩8万化合物。
药效团筛选的价值在于:它基于物理特征而非纯能量评分,可以筛出对接评分可能不高但结合模式正确的分子——这是纯对接筛选容易遗漏的。
8万化合物进入Glide HTVS(High Throughput Virtual Screening)模式对接。HTVS模式相比SP(Standard Precision)和XP(Extra Precision)模式,搜索精度降低但速度快约100倍——适合处理大化合物库。
对接参数:
8万化合物的HTVS对接在8块NVIDIA A100 GPU上跑了18小时。按GlideScore排序,取前5000名进入下一轮。
踩过的坑:最初没有做受体柔性处理,铰链区Phe的侧链朝向与晶体结构不同(对接用的apo结构与holo结构有差异),导致大量正确构象被评分函数惩罚。解决方案:用Induced Fit Docking(IFD)对前100名做受体柔性对接——IFD允许受体侧链在对接过程中调整,代价是计算量大100倍。
5000化合物用Glide SP模式精筛(更高的采样精度),取前200名。
200个化合物进入ADMET预测。项目组使用以下模型:
| 性质 | 工具 | 标准 |
|---|---|---|
| 口服吸收率(Caco-2) | QikProp | >200 nm/s |
| 血脑屏障渗透 | QikProp | logBB > -1 |
| hERG抑制 | QikProp | IC50 > 10 μM |
| 肝毒性(DILI) | DILIscore | 无DILI风险 |
| 代谢稳定性(CYP3A4) | SMARTCyp | 代谢位点数<3 |
ADMET过滤后剩50个化合物。考虑到计算筛选的假阳性率(约30-50%),项目组建议客户选择12个化合物做体外实验验证——涵盖不同化学骨架和不同评分区间。
12个化合物的体外激酶抑制实验结果概况:
假阳性(评分好但无活性)的常见失败原因:
这个分析说明:单一评分函数不足以区分真假阳性。项目组在后续优化中加入了10 ns MD稳定性筛选——对排名靠前的对接结果各跑10 ns MD,如果配体RMSD>3 Å则标记为不稳定,降级处理。这个额外步骤可将假阳性率显著降低。
虚拟筛选适用于”先导化合物发现”阶段——从大库中找到初步的活性分子。但它不能替代先导化合物优化(hit-to-lead和lead optimization)。从12个苗头化合物到3个先导化合物,项目组用了额外的自由能微扰(FEP)计算来指导结构优化——这是另一套方法学。
虚拟筛选的成功率高度依赖靶蛋白类型。激酶有明确的铰链区氢键模式,药效团清晰,筛选成功率高。而对于蛋白-蛋白相互作用界面(PPI抑制剂),没有明确的结合口袋,虚拟筛选的命中率可能降到5%以下。更多药物计算设计的实战经验,可以参考分子对接相关文章,或返回科研学术网首页。
GROMACS计算自由能:膜蛋白-配体FEP结合能中电荷-范德华解耦与BAR收敛
分子动力学模拟计算:GROMACS蛋白质-配体复合物稳定性验证全流程
GROMACS分子动力学模拟:一个离子液体体系中锂离子传输的机理研究
全原子分子动力学模拟原理:从力场参数到轨迹分析的完整链条
蛋白质-配体结合自由能的MM/PBSA计算中采样不足如何影响结果
聚合物玻璃化转变温度的分子动力学模拟——Tg计算中五个容易忽略的收敛问题
高斯Anharmonic计算:为什么谐振近似会误导你
Gaussian频率计算:振动分析与热化学数据的提取方法
LAMMPS计算RDF:从轨迹到结构信息的完整分析链条
LAMMPS计算吸附能:力场选择策略与DFT交叉验证方法
LAMMPS计算自由能:固液界面TI-US双路径的λ策略与收敛判据
蛋白定点突变预测在热稳定性改造中的计算策略:从RosettaΔΔG到AlphaFold2多突变扫描
分子动力学模拟RMSD:从轨迹对齐到分段分析的蛋白构象稳定性判断方法
LAMMPS计算径向分布函数:参数设置与物理含义的深度剖析
LAMMPS粗粒化建模:从全原子映射到CG力场参数拟合的实战路径
高分子动力学模拟:链长、温度和缠结——三个变量交织成Tg和扩散系数的十度偏差
分子动力学理论计算:统计力学根基与各态历经假设的实践检验
电解液分子动力学模拟:离子电导率预测与溶剂化结构分析
分子动力学的计算:系综选择、时间步长与恒温器对比
扩散分子动力学模拟:从MSD斜率到扩散系数的统计陷阱与规避方法
生物分子动力学模拟:蛋白质在显式溶剂中的构象采样与力场选择
分子动力学模拟如何做:从初始结构到可发表轨迹的十步工作流
VASP计算吉布斯自由能:金属表面吸附自由能中ZPE、振动熵与平动熵的校正链
分子动力模拟解析蛋白质在水-有机溶剂界面的结构失稳全过程