Nature顶刊里程碑!腾讯 AI 发布 ORI 框架,破解蛋白工程计算与实验脱节核心难题
2026-03-25

一.摘要
计算建模与实验性能之间的脱节,始终是蛋白质工程领域亟待突破的核心挑战。本研究提出了 ORI(本体强化迭代,Ontology Reinforcement Iteration) —— 一套可扩展的通用型功能蛋白工程计算框架,该框架将本体条件解码与湿实验反馈强化学习(RLWF)深度融合,构建了完整的闭环迭代优化体系。ORI 以结构化生物本体作为语义提示,为蛋白生成施加多维度约束,实现了可控、可解释的蛋白质序列生成;其 “序列生成 - 实验检测 - 模型更新” 的闭环工作流,能够在真实实验目标下实现模型与功能表征的协同持续优化。研究通过酶活性优化、热稳定性增强、多功能蛋白工程等多样化任务,全面验证了 ORI 的实际应用价值;基于该框架设计的蛋白变体相较天然野生型实现了性能量级跃升,包括活性提升超 100 倍的溶菌酶、85℃高温下仍保持稳定的几丁质酶,以及同时具备溶菌酶与几丁质酶活性的双功能酶。上述结果证实,ORI 可作为一套稳健的技术平台,在真实实验场景中实现高效、多目标的蛋白质工程改造。
二.关键内容归纳
1. 研究背景与行业核心痛点
蛋白质是生命活动的核心功能分子,功能蛋白工程是分子生物学、生物技术、医药研发与工业生物催化领域的核心基础,但其发展长期受限于蛋白序列、结构与功能之间复杂的非线性关系,难以实现可靠的定向功能设计。
现有 AI 蛋白生成方法存在三大核心局限:一是高度依赖结构先验或设计模板,对细微序列差异导致的功能变化捕捉能力不足;二是无法有效优化酶活、热稳定性、蛋白表达量等稀疏、含噪声、非可微的实验表型目标;三是计算设计向实验功能的转化效率低,高度依赖资源密集型的试错实验,规模化应用受限。
现有基于实验反馈的强化学习方法,在高维蛋白序列空间中存在优化不稳定、样本效率低的问题,且大多局限于特定蛋白骨架或狭窄的设计目标,缺乏通用适配能力。
2. ORI 框架的三大核心组件
ORI 是一套闭环式功能蛋白工程计算框架,由三个紧密耦合的核心模块构成,形成 “生成 - 评估 - 验证 - 优化” 的完整工作流:
蛋白设计智能体(PDA)
基于 20 亿参数的 Gemma2-2B 大语言模型开发,通过监督微调(SFT)与近端策略优化(PPO)完成训练,可将用户的自然语言功能需求,精准转化为结构化的本体提示词,实现对下游蛋白生成、评估模型的自动化调用与全流程管控。
功能感知蛋白生成模型(PGM)
30 亿参数的自回归大语言模型,采用 LLaMA 系列的仅解码器架构,基于 1.66 亿条带多维度本体注释的蛋白序列(超 600 亿 token)训练完成,可在本体提示的引导下,生成符合功能、结构、理化性质约束的蛋白序列,学习序列 - 结构 - 功能之间的通用关联规律。
统一序列模型(USM)
专为生物序列设计的统一语言模型,创新融合列注意力、快速行注意力与 SwiGLU 激活函数,可同时处理单序列与多序列比对(MSA)数据;1 亿参数的 USM 训练算力效率达同参数 ESM2 模型的 100 倍以上,在蛋白特性预测任务上的性能可媲美 150 亿参数的 ESM2 模型,负责生成序列的结构置信度、功能相关性、理化性质的预实验评估,构成 ORI 的核心质控管线。
3. 核心技术创新
本体引导的可控蛋白生成
构建了整合物种、结构、功能、热稳定性、可溶性等信息的统一蛋白本体系统,通过结构化本体提示词为蛋白生成施加多层级语义约束,解决了传统生成模型可控性、可解释性不足的行业痛点。
湿实验反馈强化学习(RLWF)
受大语言模型 RLHF 技术启发,首创基于湿实验结果的自动化迭代优化框架,将实验功能数据直接转化为模型优化的偏好信号,系统性提升高功能活性蛋白的生成概率,打通了计算设计与实验验证的壁垒。
R-DPO 损失函数
在直接偏好优化(DPO)损失中加入长度正则项,解决了 RLHF 中常见的序列长度偏差问题,确保模型生成长度合理、具备实际应用价值的蛋白序列。
4. 关键实验验证结果
酶活性定向优化
初始模型生成的溶菌酶变体最高活性较天然鸡蛋清溶菌酶提升 2.7 倍;经 RLWF 一轮迭代优化后,最优变体 TX-RL15 活性较初始最优变体再提升 66 倍,相较天然野生型提升超 100 倍,性能超越经典的高活性 T4 溶菌酶。
蛋白热稳定性工程改造
ORI 可通过本体提示精准调控蛋白的热稳定性,生成的几丁质酶变体 TX-SC2 在 85℃长时间孵育后仍保持全部催化活性,甚至在 95℃下仍保留部分活性,而天然几丁质酶在同等高温条件下几乎完全失活。
多功能酶从头设计
ORI 成功实现了同时具备溶菌酶与几丁质酶活性的双功能酶设计,100 个随机筛选的候选蛋白中,65 个成功表达,25 个具备稳定的双酶活性;最优变体 TX-ME 的双功能活性,均显著优于天然单功能酶与天然双功能酶 Hevamine A。
蛋白表达效率系统性提升
经 RLWF 优化后,模型生成的糖苷水解酶、转糖基酶、噬菌体溶菌酶三大类酶,在无细胞表达系统中的中位表达量提升超 1.7 倍,大幅降低了计算设计蛋白的实验验证门槛。
质控管线性能验证
经 USM 质控管线筛选后,生成蛋白中目标功能结构域的包含率从原始的 45.89% 提升至 98.91%,大幅提升了功能蛋白的筛选效率。
5. 模型基准测试对比
与 ProteinSGM、ProGen3、Evo2 等主流蛋白生成模型相比,ORI 生成的蛋白在高结构置信度占比、目标功能结构域包含率上均实现显著领先。
在热稳定性优化任务中,ORI 相较 ProteinMPNN、Rosetta 等经典设计方法,在生成更高预测熔解温度蛋白的同时,计算成本大幅降低,实现了性能与效率的最优平衡。
6. 数据与开源情况
研究相关基准蛋白数据可通过 PDB 数据库获取,原始实验数据随论文同步发布。
ORI 模型的源代码已开源至 GitHub 平台,模型权重与论文对应版本代码存档于 Zenodo 平台,面向非商业科研用途开放使用。
三、图片内容
图 1 面向蛋白质工程的 ORI 计算框架

该图全景展示了 ORI 框架的整体架构与闭环工作逻辑。ORI 由蛋白设计智能体(PDA)、蛋白生成模型(PGM)、统一序列模型(USM)三大核心组件构成闭环系统:PDA 将用户定义的功能与理化性质需求转化为结构化本体提示,引导 PGM 完成蛋白序列生成;USM 对生成序列进行结构置信度、功能相关性等多维度评估,完成质控与候选蛋白筛选;最终湿实验结果通过强化学习反馈至模型,实现生成体系的迭代优化,形成计算设计与实验验证深度耦合的可扩展框架。
图 2 基于 ORI 的酶功能计算设计与实验验证

该图展示了 ORI 酶活设计的完整流程与核心验证结果,包含 8 个子图:
A:ORI 酶功能设计的核心工作流,包括本体条件生成、计算机模拟评估、湿实验验证三大核心环节
B:PGM 生成蛋白与天然同源蛋白的序列一致性分布,其中位值为 0.96
C:生成蛋白的序列一致性与结构相似性(TM-score)的相关性分析,二者仅呈极弱相关(皮尔逊相关系数 r=0.072)
D:与天然蛋白高结构相似性(TM-score>0.8)的生成蛋白,其序列一致性分布情况
E:与天然蛋白高序列一致性(>0.8)的生成蛋白,其结构相似性分布情况
F:USM 质控前后,生成蛋白中目标功能结构域的包含率对比,从 45.89% 提升至 98.91%
G:生成蛋白在 HEK293 细胞、大肠杆菌、无细胞表达系统中,表达量超 0.1mg/ml 的蛋白占比
H:筛选出的生成溶菌酶与天然鸡蛋清溶菌酶,在不同 pH 条件下的酶活性对比
图 3 基于实验反馈的蛋白质工程迭代优化

该图展示了 RLWF 湿实验反馈强化学习对模型的优化效果,包含 7 个子图:
A:RLWF 闭环工作流,展示了如何将湿实验测量结果通过强化学习整合进 ORI 框架,实现模型迭代优化
B:原始模型与 RLWF 优化后模型,生成蛋白的结构置信度(pLDDT)分布对比,优化后中位 pLDDT 从 75 提升至 85
C-E:SDS-PAGE 电泳结果,分别对比原始与优化模型生成的糖苷水解酶、转糖基酶、噬菌体溶菌酶在无细胞系统中的表达情况,优化后模型的蛋白表达量显著提升
F:原始与优化模型生成的三类酶的表达量定量对比,优化后均实现统计学显著提升
G:优化模型生成的溶菌酶变体,相较初始模型最优变体 TX-L6 的相对活性,13/20 个变体活性更高,最优变体活性提升 66 倍
图 4 基于 ORI 的高温耐受酶工程设计

该图展示了 ORI 在热稳定性蛋白设计中的应用流程与验证结果,包含 6 个子图:
A:热稳定性增强酶的设计与评估全工作流
B:USM 预测的蛋白熔解温度与实验实测值的相关性分析,皮尔逊相关系数达 0.818
C:无温度约束条件下,ORI 生成蛋白的熔解温度分布,其中位值为 48.3℃,与天然几丁质酶一致
D:不同目标温度提示下,ORI 生成蛋白的熔解温度分布,证实可通过本体提示精准调控蛋白热稳定性
E-F:ORI 生成的几丁质酶变体,在 60℃至 95℃不同时长热处理后的残余活性,其中 TX-SC2 在 85℃长时间孵育后仍保持全活性
图 5 基于 ORI 的多功能酶工程设计

该图展示了 ORI 在双功能酶设计中的应用与验证结果,包含 6 个子图:
A:兼具溶菌酶与几丁质酶活性的双功能蛋白设计工作流
B:筛选候选蛋白的溶菌酶、几丁质酶活性与表达量的散点图,高亮标注了具备双酶活性的蛋白
C:单功能生成蛋白与天然溶菌酶、几丁质酶的全序列与功能区序列一致性分布
D:双功能生成蛋白与天然双功能酶 Hevamine A 的全序列与功能区序列一致性分布
E:最优双功能变体 TX-ME 的预测蛋白结构,为两类酶共有的 TIM 桶状折叠
F:TX-ME 与天然单功能酶、天然双功能酶的溶菌酶、几丁质酶活性对比,TX-ME 的双功能活性均显著优于对照
四.核心主题总结
本研究的核心主题是:针对蛋白质工程领域长期存在的 “计算设计与实验功能转化脱节” 的核心瓶颈,创新性开发了 ORI 本体强化迭代通用框架。该框架通过结构化生物本体引导的可控蛋白生成、USM 高精度预实验质控、湿实验反馈强化学习的闭环迭代优化,系统性突破了现有方法对稀疏、非可微实验目标优化的局限,实现了蛋白生成的可控性、可解释性与实验转化效率的全面跃升。研究在酶活性百倍提升、极端高温耐受酶设计、多功能酶从头合成三大核心任务中完成了突破性实验验证,证实 ORI 是一套可适配多样化蛋白工程需求、在真实实验场景中高效落地的通用技术平台,为生物技术、创新药研发、工业生物催化等领域的功能蛋白定向设计提供了全新范式。
原文链接DOI: https://doi.org/10.1038/s41467-026-69855-6
苏州珀罗汀生物技术有限公司于2017年在苏州工业园区成立,是一家专业的无细胞蛋白表达生物技术公司。公司拥有国家高层次领军人才、海归博士等人才组成的专业技术团队,以自主研发独具特色的无细胞蛋白表达技术平台为依托,为广大生物医药、合成生物学等企业、研究机构提供无细胞蛋白表达产品、蛋白原料试剂及定制化服务。
电话:0512-67900128
官网:www.cellfreeprotein.cn
相关推荐
免费报名|PLD邀您参加第五届中国合成生物学及生物制造大会,我们杭州见!
2026-03-19
2026-03-19
CFPS 赋能代谢工程:从“慢速试错”到“快速原型”的研发范式转变
2026-03-18