Cell Host & Microbe | 从“序列检索”到“结构检索”—肠道微生物组功能研究新范式
人类肠道微生物组蕴藏着上千万个基因,这些基因所编码的蛋白质在人体的代谢、免疫等过程中发挥重要作用,也是开发疾病治疗新技术的重要资源库。然而,微生物蛋白质的进化多样性,给基于序列同源的功能推断方法带来了挑战。例如,在肠道噬菌体基因组中,有超过75%的蛋白无法注释功能。此外,肠道细菌中广泛存在宿主同工酶,但是这些酶与其真核同源蛋白的序列同源性很低,往往难以被识别。与序列相比,蛋白质的三维结构在进化中往往更为保守,这为解析肠道微生物的功能暗物质提供了新的研究思路——通过结构信息来推测蛋白质功能。肠道微生物的功能研究亟需从“序列检索”走向“结构检索”的新范式。
2025年11月26日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所(以下简称“深圳先进院合成所”)戴磊研究员课题组联合北京大学汪锴研究员、香港中文大学李煜教授的合作团队在Cell Host & Microbe发表了题为“Exploring Functional Insights into the Human Gut Microbiome via the Structural Proteome”的研究论文。该研究建立了人体肠道微生物的蛋白质结构组数据库和结构检索方法,显著提高了对噬菌体蛋白、菌源宿主同工酶等功能暗物质的预测能力。基于这一方法,研究团队成功验证了肠道致病菌的噬菌体裂解酶,并首次揭示了肠道细菌的褪黑素合成途径。

原文链接:https://www.cell.com/cell-host-microbe/fulltext/S1931-3128(25)00455-X
构建人体肠道微生物蛋白质结构组数据库
首先,研究团队构建了人体肠道微生物蛋白质结构组数据库 (human Gut Microbial Protein Structure database,https://www.gmpsdb.cn/)。该数据库涵盖968个肠道细菌和1255个肠道噬菌体基因组所编码的约270万个蛋白结构(图1)。

图1. 人体肠道微生物的蛋白质结构组数据库
噬菌体蛋白的结构聚类与功能验证
由于噬菌体基因组的快速进化,大部分噬菌体编码的蛋白难以通过序列比对进行注释。研究团队采用结构比对和聚类方法,研究噬菌体蛋白的功能注释和进化规律,发现许多噬菌体蛋白与已知功能蛋白之间存在结构相似度,可以大幅提高噬菌体蛋白的功能推断能力(图2)。

图2. 基于结构聚类的噬菌体蛋白功能推断
噬菌体裂解酶是一种噬菌体编码的溶菌酶,能够高效切割细菌细胞壁。通过系统分析噬菌体裂解酶的结构多样性,研究团队发现其存在结构域重排的进化机制。进而选取人体肠道致病菌噬菌体来源的裂解酶,通过合成生物学技术,成功验证了其对人体肠道致病菌的裂解活性(图3)。此外,一部分噬菌体裂解酶具有很高的物种靶向性,有望成为微生物组精准编辑的平台技术。

图3. 针对人体肠道致病菌的噬菌体裂解酶活性验证
肠道菌源-宿主同工酶的结构检索与功能验证
研究团队进一步将结构检索的方法拓展至肠道菌源的宿主同工酶。前期研究发现,肠道细菌编码的酶能模拟宿主酶的功能,参与疾病的发生发展过程。通过结构检索,研究团队在青春双歧杆菌(Bifidobacterium adolescentis)、多形拟杆菌(Bacteroides dorei)中发现了参与褪黑素合成的关键酶,首次揭示了肠道微生物的褪黑素合成途径(图4)。

图4. 基于结构检索发现肠道菌的褪黑素合成酶
动物实验表明,菌源酶能够显著调节宿主体内的褪黑素水平,进而影响肠道生理与疾病状态(图5)。

图5. 菌源酶能够显著调节宿主体内的褪黑素水平
最后,研究团队开发了人工智能方法Dense Enzyme Retrieval(DEER),能够快速、高效识别同工酶,其性能显著优于现有的基于序列或结构比对的方法(图6)。DEER的模型训练运用了融合结构信息的蛋白质语言模型及对比学习技术,实现了对酶功能的准确预测;DEER模型的推理运用了稠密检索技术,实现不依赖传统序列或结构对齐的快速检索;DEER模型的框架不仅适用于远源酶的挖掘,未来还可进一步拓展到其他功能的蛋白研究。

图6.基于人工智能DEER的肠道菌源宿主同工酶挖掘
综上所述,本研究提出蛋白结构检索的微生物组功能研究范式,不仅建立了人体肠道微生物蛋白质结构组数据库,还验证了多种噬菌体裂解酶和菌源宿主同工酶的功能,为解析人体肠道微生物组的功能暗物质提供了重要的工具和思路。
深圳先进院合成所戴磊研究员是本研究的主要通讯作者,北京大学汪锴研究员和香港中文大学李煜教授为共同通讯作者。深圳先进院合成所助理研究员刘红宾博士是本研究的第一作者,深圳先进院合成所助理研究员沈俊涛博士、北京大学张志威博士、香港中文大学王久铭博士、深圳先进院合成所张成辛研究员为论文的共同第一作者。北京大学姜长涛教授、智峪生科王晟博士、深圳先进院合成所司同研究员和马迎飞研究员对于本研究提供了重要支持。该项研究成果获得国家重点研发计划、国家自然科学基金等项目的资助。本研究获得了深圳合成生物研究重大科技基础设施和深圳合成生物学创新研究院公共技术平台提供的支持。
戴磊课题组在定量生物学与合成生物学的交叉领域开展研究,致力于实现复杂微生物组在基因层次、群落层次的功能预测和精准编辑。近年来,以通讯作者(含共同) 在Cell Host & Microbe(2025,2023)、Nature Biomedical Engineering (in press)、 Nature Communications(2025,2024,2023)、The ISME Journal(2022)等期刊发表研究论文。课题组长期招收人工智能、合成生物学、微生物组学等相关专业博士后,联系邮箱:lei.dai@siat.ac.cn。