手机版
           

高通量药物筛选:虚拟筛选管线与先导化合物优化策略

发布时间:2026-06-24   来源:科研学术网    
字号:

高通量药物筛选项目中,项目组为一家药企做激酶抑制剂筛选,从百万级化合物库出发,经过四轮虚拟筛选和实验验证,最终获得数个体外活性<100 nM的苗头化合物。整个计算筛选耗时数天(GPU集群),如果用实验高通量筛选(HTS)处理同等规模的化合物库,需要数月和大量试剂费用。计算筛选的杠杆效应在药物发现早期阶段尤为显著。

虚拟筛选管线的整体架构

项目组建立的四级筛选管线:

百万级化合物库
    ↓ 第一级:类药性过滤(Lipinski规则)
数十万化合物
    ↓ 第二级:药效团模型筛选
数万化合物
    ↓ 第三级:分子对接(Glide HTVS模式)
数千化合物
    ↓ 第四级:分子对接(Glide SP模式)+ ADMET预测
数百化合物
    ↓ 实验验证
苗头化合物(体外活性<10 μM)
    → 先导化合物(<100 nM)

每一级都有明确的筛选标准和淘汰理由,确保不遗漏潜在活性分子。

第一级:类药性过滤

类药性过滤用Lipinski五规则和Veber规则作为初筛:

  • 分子量 < 500 Da
  • logP < 5
  • 氢键供体 < 5
  • 氢键受体体 < 10
  • 可旋转键 < 10(Veber规则)
  • TPSA < 140 Ų(影响口服吸收)

200万化合物经过类药性过滤后剩120万。这一步淘汰率40%——大量化合物因为分子量过大或logP过高被排除。类药性过滤的目的是降低后续计算量,不是精确筛选——有些违反Lipinski规则但仍有活性的药物(如大环内酯类)会在这一步被误删,但这是可接受的代价。

项目组用RDKit做批量过滤,处理200万化合物约2小时(单CPU)。

第二级:药效团模型筛选

药效团模型描述的是活性分子共有的空间特征排列。项目组从已知的激酶抑制剂晶体结构(PDB中检索到15个靶蛋白-配体复合物)中提取药效团特征:

  • 1个氢键受体体(与铰链区 backbone NH形成氢键)
  • 1个氢键供体(与铰链区C=O形成氢键)
  • 1个疏水中心(占据疏水口袋I)
  • 1个芳香环中心(π-π堆积)
  • 排斥体积(Excluded Volume,标记蛋白骨架不可穿透区域)

项目组用Phase(Schrödinger)构建药效团模型,对120万化合物做匹配。匹配标准:至少匹配3/4个特征(允许缺失一个非关键特征)。筛选后剩8万化合物。

药效团筛选的价值在于:它基于物理特征而非纯能量评分,可以筛出对接评分可能不高但结合模式正确的分子——这是纯对接筛选容易遗漏的。

第三级:高通量分子对接

8万化合物进入Glide HTVS(High Throughput Virtual Screening)模式对接。HTVS模式相比SP(Standard Precision)和XP(Extra Precision)模式,搜索精度降低但速度快约100倍——适合处理大化合物库。

对接参数:

  • 搜索空间:以晶体结构中配体位置为中心,15×15×15 Å的网格盒
  • 柔性:配体全柔性,受体刚性
  • 评分函数:GlideScore(HTVS版本)
  • 输出:每个化合物保留前10个构象

8万化合物的HTVS对接在8块NVIDIA A100 GPU上跑了18小时。按GlideScore排序,取前5000名进入下一轮。

踩过的坑:最初没有做受体柔性处理,铰链区Phe的侧链朝向与晶体结构不同(对接用的apo结构与holo结构有差异),导致大量正确构象被评分函数惩罚。解决方案:用Induced Fit Docking(IFD)对前100名做受体柔性对接——IFD允许受体侧链在对接过程中调整,代价是计算量大100倍。

第四级:精筛与ADMET预测

5000化合物用Glide SP模式精筛(更高的采样精度),取前200名。

200个化合物进入ADMET预测。项目组使用以下模型:

性质 工具 标准
口服吸收率(Caco-2) QikProp >200 nm/s
血脑屏障渗透 QikProp logBB > -1
hERG抑制 QikProp IC50 > 10 μM
肝毒性(DILI) DILIscore 无DILI风险
代谢稳定性(CYP3A4) SMARTCyp 代谢位点数<3

ADMET过滤后剩50个化合物。考虑到计算筛选的假阳性率(约30-50%),项目组建议客户选择12个化合物做体外实验验证——涵盖不同化学骨架和不同评分区间。

实验验证与命中率分析

12个化合物的体外激酶抑制实验结果概况:

  • 约半数化合物显示体外活性(IC50<10 μM),命中率约40-50%——在虚拟筛选中属于优秀水平(行业平均20-30%)。
  • 评分最好的化合物确实活性最高(IC50<100 nM),但评分与活性之间并非强线性相关(GlideScore与-log(IC50)的Pearson相关系数通常在0.5-0.7范围内)。
  • 评分最低的化合物全部无活性——说明评分可以有效排除无活性化合物,但对活性化合物内部的排序不够精确。

假阳性分析

假阳性(评分好但无活性)的常见失败原因:

  • 结合模式正确但动力学稳定性不足——MD模拟中配体脱离口袋
  • 氢键距离偏长(>2.5 Å),氢键强度不足以维持结合
  • TPSA过高(>150 Ų),去溶剂化代价大

这个分析说明:单一评分函数不足以区分真假阳性。项目组在后续优化中加入了10 ns MD稳定性筛选——对排名靠前的对接结果各跑10 ns MD,如果配体RMSD>3 Å则标记为不稳定,降级处理。这个额外步骤可将假阳性率显著降低。

反思:虚拟筛选的适用边界

虚拟筛选适用于”先导化合物发现”阶段——从大库中找到初步的活性分子。但它不能替代先导化合物优化(hit-to-lead和lead optimization)。从12个苗头化合物到3个先导化合物,项目组用了额外的自由能微扰(FEP)计算来指导结构优化——这是另一套方法学。

虚拟筛选的成功率高度依赖靶蛋白类型。激酶有明确的铰链区氢键模式,药效团清晰,筛选成功率高。而对于蛋白-蛋白相互作用界面(PPI抑制剂),没有明确的结合口袋,虚拟筛选的命中率可能降到5%以下。更多药物计算设计的实战经验,可以参考分子对接相关文章,或返回科研学术网首页。

图说天下

×
gromacs计算
lammps计算
VASP计算
分子对接
分子自组装