机器学习“牵手”无细胞表达:酶工程的超级加速器

2025-04-18

生物催化剂在能源、材料和医药领域具有重要应用,如何高效、精准地设计并筛选出具有特定功能的生物催化剂一直是研究热点。然而,当前酶的定向进化方法存在很多局限性,设计与筛选过程往往耗时费力,且受限于生物体内复杂的遗传与环境因素。因此,开发一种高效、灵活且可控的生物催化剂设计与筛选平台显得尤为重要。

 

今天,小编将和您分享一篇今年发表于《Nature Communications》上的文献“Accelerated enzyme engineering by machine-learning guided cell-free expression”,该文献介绍了一种全新的高通量方法,用于探索化学空间多个区域的适应度景观,以实现生物催化剂的前瞻性设计。(注:适应度景观是一种理论模型,它将每个可能的蛋白质序列映射到一个适应度值上。适应度可以理解为该蛋白质在特定环境下的功能表现或生存优势。)

 

 

 

一、研究背景

 

酶工程旨在通过改造蛋白质序列来增强天然功能或赋予新功能,传统定向进化方法通过反复突变与筛选优化酶性能,但存在显著瓶颈:

 

1.序列空间探索受限,低通量筛选难以覆盖序列空间,可能遗漏关键协同突变;

2.多目标优化困难,单一酶需适配多种底物或反应(如合成不同药物分子),但现有方法难以并行优化多个功能目标;

3.数据生成效率低,构建高质量序列-功能数据集需合成并测试海量突变体,传统方法依赖于体内表达系统,但这一过程受到细胞生长周期、稳态条件及生产适应性等多重因素的制约,导致筛选效率低下且成本高昂。

尽管机器学习为酶设计提供了新思路,但如何高效构建大规模序列-功能数据集仍是核心挑战。为了应对这一挑战,研究团队开发了一个集成无细胞DNA组装、无细胞蛋白表达和蛋白功能分析的平台,能够快速生成新的适用性蛋白序列并快速验证这些新蛋白序列的实际功能,并优化多种不同化学反应的酶。

 

 

图1:机器学习指导的无细胞酶工程平台

 

二、无细胞表达技术的突破性作用

 

无细胞表达系统作为一种新兴的生物技术平台,为生物催化剂的设计与筛选提供了新的解决方案。该系统能够在体外环境中快速合成并测试蛋白质,不受细胞生长周期及稳态条件的限制,因此具有更高的灵活性和可控性。在本篇文献中,研究团队利用无细胞表达系统结合机器学习算法,构建了一个高通量的生物催化剂设计与筛选平台。该平台能够在短时间内合成并测试大量具有不同序列的蛋白质,并通过机器学习算法预测并筛选出具有最优催化性能的候选者。这一方法不仅显著提高了筛选效率,还降低了成本,为生物催化剂的前瞻性设计提供了有力支持。

具体来说,本研究通过以下创新解决了现有酶工程的技术难点:

 

1. 高通量无细胞系统

利用无细胞DNA组装与表达,用于构建定点饱和、序列明确的蛋白质库。工作流程包括五个步骤:通过PCR引入突变、DpnI消化亲本质粒、 Gibson组装形成突变质粒、第二次PCR扩增线性DNA表达模板(LETs)、通过CFE(无细胞蛋白表达系统)表达突变蛋白。该方法可在一天内构建数百到数千个序列明确的蛋白质突变体,并可通过快速迭代积累突变。此外,使用单体超稳定绿色荧光蛋白(muGFP)验证了该工作流程,针对四个已知对稳定性和荧光重要的残基进行突变。实验结果表明,该方法对引物设计偏差具有高容忍度,并且所有预期突变均成功引入。

 

2. 机器学习模型加速设计

基于单突变数据训练增强岭回归模型,并使用归一化折损累积增益(NDCG)评估模型预测性能,结合进化与物理化学特征编码,成功预测多突变组合的活性。模型从80个单突变数据中推断高阶突变,实验验证显示预测变体的活性提升达1.6-42倍(如抗抑郁药莫氯贝胺的转化率从12%提升至96%)。

 

 

图2:工作流程示意图

 

3. 并行优化多反应目标

研究团队开发了一个能够加速生物催化反应并显著减少筛选的工作量的并行优化流程,他们选择了具有底物普适性的酶McbA作为研究对象,通过并行处理多个反应,同时测试不同的突变体,从而快速识别出具有更高催化活性的突变体。为了进一步提高筛选效率,研究者们采用了机器学习技术来预测突变体的催化活性。通过训练模型,根据突变体的序列信息预测其催化活性。并且能够在实验前对突变体进行初步筛选,从而减少了实验验证的工作量。相比于ISM(iterative saturation mutagenesis)单独使用,此框架显著加快了工程进度,可在一周内同时完成六种酶的改造任务,突变体的产量提高了1.6到34倍。另外,该方法成本低廉(每10微升反应仅需几分钱)且具有高可扩展性。

 

 

图3:用于McbA机器学习引导的蛋白质工程策略

 

总结与展望

本研究将无细胞系统的高通量优势与机器学习的预测能力结合,用于生物催化剂的前瞻性设计。实现酶工程从单目标到多任务的跨越式发展,为可持续生物制造注入新动力。不仅突破了传统酶工程的效率瓶颈,使其同时具备速度与通量、精准预测能力等,还显著提高了生物催化剂的设计与筛选效率,为绿色化学与定制化生物催化剂开发提供了全新范式。随着技术的不断进步和创新,无细胞表达系统有望为生物技术领域带来更多机遇和挑战。

 

参考文献:Landwehr, G.M. et al. Accelerated enzyme engineering by machine-learning guided cell-free expression. *Nat. Commun.* **16**, 865 (2025).

DOI: [10.1038/s41467-024-55399-0]