Nucleic Acids Research | 基于深度学习与绝缘化原理的合成生物顺式调控元件从头设计
在合成生物学领域,科学家们希望能“编程”生命,实现可预测地设计基因元件(比如启动子、增强子)、蛋白质等目标,让细胞按照人们预定的强度表达功能基因。近年来,人工智能(AI)特别是深度学习技术,成为这项工作的“新引擎”。通过分析实验数据,AI模型能预测哪些序列会带来强或弱的基因表达,甚至能设计出全新的调控序列。 然而,这项技术存在一个长期被低估的难题——“数据污染”。正如人们所讨论的,大语言模型会受到网络中“错误信息”的污染,其本质在于训练数据受到非目标信息干扰,导致模型学习到错误的规律。在常规生物实验中,研究者会在特定宿主细胞中对人工设计的序列进行测试。但很多看起来“活跃”的序列,其活性实际上源于宿主细胞自身的意外激活,而非目标元件本身的活性。把这类“污染”数据喂给AI模型,就如同教幼儿识字时混进错别字,AI模型也会因此“学偏”,记住不应有的规则。这不仅会导致模型的预测结果失真,还使其难以在不同物种间实现通用。 近日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所娄春波课题组与清华大学自动化系汪小我课题组合作开展的研究取得重要进展。他们提出并验证了一项关键观点...
2025-07-04