在广袤的化学空间中,高效精准地锁定能治疗特定疾病的分子,是新药研发的核心挑战之一。为了攻克这一难题,DNA编码化合物库(DEL)技术应运而生。
DEL技术为万亿数量级的化合物标记上唯一的识别码。它使得药物研发人员能够从这个庞大的库中精准识别分子,快速获取苗头化合物。DEL潜力巨大,成为近年来备受瞩目的早期药物发现技术之一。
然而,虽历经发展二十余年,由DEL技术发现并进入临床的分子仍极为有限。实践显示,DEL技术对于不同靶点蛋白的命中率存在显著差异,这已成为阻碍其价值兑现的痛点。而这一现象背后的成因,长期以来一直是业界的认知盲区。
近日,西湖制药联合创始人黄晶、胡奇在Nature Communications发表了一项研究成果,论文题为“Deciphering DEL pocket patterns through contrastive learning”。该研究首次在结合口袋层面提出并回答了“何种蛋白口袋更适合DEL筛选”这一科学问题,同时开发了靶点蛋白口袋表征模型ErePOC(Enhanced representation of POCkets),这是业界首个专门用于识别DEL适配靶点的AI模型。

论文发表截图
该研究系统性地揭示了DEL筛选效率差异的关键原因,为业界未来更高效地应用乃至优化DEL技术奠定重要的理论基础。
论文链接
https://www.nature.com/articles/s41467-026-69663-y
通过系统分析大规模蛋白口袋结构与DEL结合数据,黄晶课题组发现,尽管DEL结合口袋与传统可成药口袋在整体特征上存在显著重叠,但在口袋体积、疏水性及相互作用模式等方面,却存在着此前未被识别的显著差异。因此,DEL靶点选择并非传统“可成药性”概念的简单延伸,而是在口袋层面受到更为特定的结构与功能约束。该研究首次从理论上界定了DEL筛选的靶点适配性。

相比广义蛋白口袋,DEL分子命中的蛋白口袋在大小和氨基酸组成上呈现明显偏好
针对口袋特征高维、DEL数据稀疏的特点,黄晶课题组引入对比学习策略,以配体化学相似性为监督信号,引导口袋表征的压缩与对齐,开发了蛋白口袋表征模型 ErePOC。

蛋白质口袋表征模型ErePOC训练流程
ErePOC 的独特之处在于,它首次将“配体化学空间”与“蛋白口袋功能空间”对齐,实现了一种不依赖结构的靶点识别。它可以帮助药物研发人员发现跨蛋白家族的潜在可结合靶点,并可扩展应用至全人类蛋白组规模筛选。
在该研究中,黄晶课题组通过ErePOC完成了多个下游任务,验证了其区分能力与泛化性能。

使用ErePOC模型预测并分析人类蛋白质的DEL适配性
通过ErePOC,药物研发人员在DEL筛选开始前就可以选择与DEL分子更适配的靶点,将资源聚焦于成功概率高的方向,把DEL技术从“高通量尝试”转变为“有策略的筛选”。
将DEL与AI深度融合,是全球新药研发领域的前沿,也是西湖制药践行的技术路径之一。早在公司首条管线的研发中,团队就利用迁移学习和预训练模型的方法,成功解决DEL筛选结果充斥着假阳性的问题,仅用约2个月时间就完成了苗头化合物的发现工作。此后,西湖制药持续升级“DEL+AI” 研发模式,助力团队不断取得了效率的突破。

西湖制药通过AI提升DEL筛选的效率
作为一家西湖大学、西湖实验室的科技成果转化企业,西湖制药始终将研发体系扎根于对科学机理的深刻理解。公司研发团队深知,真正的产业突破不能仅停留在对前沿技术的应用层面,更需要探究现象背后的本质。此次的理论研究成果即是西湖制药“DEL+AI”技术迭代的坚实基础。
将先进的技术高效转化为有临床价值的新药,是西湖制药始终不渝的使命。这一宏大目标的实现也离不开行业的进步。西湖制药期待,创始人团队此次的研究成果能为业界带来新的启发,更期待与行业伙伴携手实现效率的突破,让创新药物更快地触达患者。