手机版

高通量药物筛选：虚拟筛选管线与先导化合物优化策略

发布时间：2026-06-24 来源：科研学术网

小中大

字号：

高通量药物筛选项目中，项目组为一家药企做激酶抑制剂筛选，从百万级化合物库出发，经过四轮虚拟筛选和实验验证，最终获得数个体外活性<100 nM的苗头化合物。整个计算筛选耗时数天（GPU集群），如果用实验高通量筛选（HTS）处理同等规模的化合物库，需要数月和大量试剂费用。计算筛选的杠杆效应在药物发现早期阶段尤为显著。

虚拟筛选管线的整体架构

项目组建立的四级筛选管线：

百万级化合物库
    ↓ 第一级：类药性过滤（Lipinski规则）
数十万化合物
    ↓ 第二级：药效团模型筛选
数万化合物
    ↓ 第三级：分子对接（Glide HTVS模式）
数千化合物
    ↓ 第四级：分子对接（Glide SP模式）+ ADMET预测
数百化合物
    ↓ 实验验证
苗头化合物（体外活性<10 μM）
    → 先导化合物（<100 nM）

每一级都有明确的筛选标准和淘汰理由，确保不遗漏潜在活性分子。

第一级：类药性过滤

类药性过滤用Lipinski五规则和Veber规则作为初筛：

分子量 < 500 Da
logP < 5
氢键供体 < 5
氢键受体体 < 10
可旋转键 < 10（Veber规则）
TPSA < 140 Å²（影响口服吸收）

200万化合物经过类药性过滤后剩120万。这一步淘汰率40%——大量化合物因为分子量过大或logP过高被排除。类药性过滤的目的是降低后续计算量，不是精确筛选——有些违反Lipinski规则但仍有活性的药物（如大环内酯类）会在这一步被误删，但这是可接受的代价。

项目组用RDKit做批量过滤，处理200万化合物约2小时（单CPU）。

第二级：药效团模型筛选

药效团模型描述的是活性分子共有的空间特征排列。项目组从已知的激酶抑制剂晶体结构（PDB中检索到15个靶蛋白-配体复合物）中提取药效团特征：

1个氢键受体体（与铰链区 backbone NH形成氢键）
1个氢键供体（与铰链区C=O形成氢键）
1个疏水中心（占据疏水口袋I）
1个芳香环中心（π-π堆积）
排斥体积（Excluded Volume，标记蛋白骨架不可穿透区域）

项目组用Phase（Schrödinger）构建药效团模型，对120万化合物做匹配。匹配标准：至少匹配3/4个特征（允许缺失一个非关键特征）。筛选后剩8万化合物。

药效团筛选的价值在于：它基于物理特征而非纯能量评分，可以筛出对接评分可能不高但结合模式正确的分子——这是纯对接筛选容易遗漏的。

第三级：高通量分子对接

8万化合物进入Glide HTVS（High Throughput Virtual Screening）模式对接。HTVS模式相比SP（Standard Precision）和XP（Extra Precision）模式，搜索精度降低但速度快约100倍——适合处理大化合物库。

对接参数：

搜索空间：以晶体结构中配体位置为中心，15×15×15 Å的网格盒
柔性：配体全柔性，受体刚性
评分函数：GlideScore（HTVS版本）
输出：每个化合物保留前10个构象

8万化合物的HTVS对接在8块NVIDIA A100 GPU上跑了18小时。按GlideScore排序，取前5000名进入下一轮。

踩过的坑：最初没有做受体柔性处理，铰链区Phe的侧链朝向与晶体结构不同（对接用的apo结构与holo结构有差异），导致大量正确构象被评分函数惩罚。解决方案：用Induced Fit Docking（IFD）对前100名做受体柔性对接——IFD允许受体侧链在对接过程中调整，代价是计算量大100倍。

第四级：精筛与ADMET预测

5000化合物用Glide SP模式精筛（更高的采样精度），取前200名。

200个化合物进入ADMET预测。项目组使用以下模型：

性质	工具	标准
口服吸收率(Caco-2)	QikProp	>200 nm/s
血脑屏障渗透	QikProp	logBB > -1
hERG抑制	QikProp	IC50 > 10 μM
肝毒性(DILI)	DILIscore	无DILI风险
代谢稳定性(CYP3A4)	SMARTCyp	代谢位点数<3

ADMET过滤后剩50个化合物。考虑到计算筛选的假阳性率（约30-50%），项目组建议客户选择12个化合物做体外实验验证——涵盖不同化学骨架和不同评分区间。

实验验证与命中率分析

12个化合物的体外激酶抑制实验结果概况：

约半数化合物显示体外活性（IC50<10 μM），命中率约40-50%——在虚拟筛选中属于优秀水平（行业平均20-30%）。
评分最好的化合物确实活性最高（IC50<100 nM），但评分与活性之间并非强线性相关（GlideScore与-log(IC50)的Pearson相关系数通常在0.5-0.7范围内）。
评分最低的化合物全部无活性——说明评分可以有效排除无活性化合物，但对活性化合物内部的排序不够精确。