Nature顶刊里程碑！腾讯 AI 发布 ORI 框架，破解蛋白工程计算与实验脱节核心难题

2026-03-25

一.摘要

计算建模与实验性能之间的脱节，始终是蛋白质工程领域亟待突破的核心挑战。本研究提出了 ORI（本体强化迭代，Ontology Reinforcement Iteration） —— 一套可扩展的通用型功能蛋白工程计算框架，该框架将本体条件解码与湿实验反馈强化学习（RLWF）深度融合，构建了完整的闭环迭代优化体系。ORI 以结构化生物本体作为语义提示，为蛋白生成施加多维度约束，实现了可控、可解释的蛋白质序列生成；其 “序列生成 - 实验检测 - 模型更新” 的闭环工作流，能够在真实实验目标下实现模型与功能表征的协同持续优化。研究通过酶活性优化、热稳定性增强、多功能蛋白工程等多样化任务，全面验证了 ORI 的实际应用价值；基于该框架设计的蛋白变体相较天然野生型实现了性能量级跃升，包括活性提升超 100 倍的溶菌酶、85℃高温下仍保持稳定的几丁质酶，以及同时具备溶菌酶与几丁质酶活性的双功能酶。上述结果证实，ORI 可作为一套稳健的技术平台，在真实实验场景中实现高效、多目标的蛋白质工程改造。

二.关键内容归纳

1. 研究背景与行业核心痛点

蛋白质是生命活动的核心功能分子，功能蛋白工程是分子生物学、生物技术、医药研发与工业生物催化领域的核心基础，但其发展长期受限于蛋白序列、结构与功能之间复杂的非线性关系，难以实现可靠的定向功能设计。

现有 AI 蛋白生成方法存在三大核心局限：一是高度依赖结构先验或设计模板，对细微序列差异导致的功能变化捕捉能力不足；二是无法有效优化酶活、热稳定性、蛋白表达量等稀疏、含噪声、非可微的实验表型目标；三是计算设计向实验功能的转化效率低，高度依赖资源密集型的试错实验，规模化应用受限。

现有基于实验反馈的强化学习方法，在高维蛋白序列空间中存在优化不稳定、样本效率低的问题，且大多局限于特定蛋白骨架或狭窄的设计目标，缺乏通用适配能力。

2. ORI 框架的三大核心组件

ORI 是一套闭环式功能蛋白工程计算框架，由三个紧密耦合的核心模块构成，形成 “生成 - 评估 - 验证 - 优化” 的完整工作流：

蛋白设计智能体（PDA）

基于 20 亿参数的 Gemma2-2B 大语言模型开发，通过监督微调（SFT）与近端策略优化（PPO）完成训练，可将用户的自然语言功能需求，精准转化为结构化的本体提示词，实现对下游蛋白生成、评估模型的自动化调用与全流程管控。

功能感知蛋白生成模型（PGM）

30 亿参数的自回归大语言模型，采用 LLaMA 系列的仅解码器架构，基于 1.66 亿条带多维度本体注释的蛋白序列（超 600 亿 token）训练完成，可在本体提示的引导下，生成符合功能、结构、理化性质约束的蛋白序列，学习序列 - 结构 - 功能之间的通用关联规律。

统一序列模型（USM）

专为生物序列设计的统一语言模型，创新融合列注意力、快速行注意力与 SwiGLU 激活函数，可同时处理单序列与多序列比对（MSA）数据；1 亿参数的 USM 训练算力效率达同参数 ESM2 模型的 100 倍以上，在蛋白特性预测任务上的性能可媲美 150 亿参数的 ESM2 模型，负责生成序列的结构置信度、功能相关性、理化性质的预实验评估，构成 ORI 的核心质控管线。

3. 核心技术创新

本体引导的可控蛋白生成

构建了整合物种、结构、功能、热稳定性、可溶性等信息的统一蛋白本体系统，通过结构化本体提示词为蛋白生成施加多层级语义约束，解决了传统生成模型可控性、可解释性不足的行业痛点。

湿实验反馈强化学习（RLWF）

受大语言模型 RLHF 技术启发，首创基于湿实验结果的自动化迭代优化框架，将实验功能数据直接转化为模型优化的偏好信号，系统性提升高功能活性蛋白的生成概率，打通了计算设计与实验验证的壁垒。

R-DPO 损失函数

在直接偏好优化（DPO）损失中加入长度正则项，解决了 RLHF 中常见的序列长度偏差问题，确保模型生成长度合理、具备实际应用价值的蛋白序列。

4. 关键实验验证结果

酶活性定向优化

初始模型生成的溶菌酶变体最高活性较天然鸡蛋清溶菌酶提升 2.7 倍；经 RLWF 一轮迭代优化后，最优变体 TX-RL15 活性较初始最优变体再提升 66 倍，相较天然野生型提升超 100 倍，性能超越经典的高活性 T4 溶菌酶。

蛋白热稳定性工程改造

ORI 可通过本体提示精准调控蛋白的热稳定性，生成的几丁质酶变体 TX-SC2 在 85℃长时间孵育后仍保持全部催化活性，甚至在 95℃下仍保留部分活性，而天然几丁质酶在同等高温条件下几乎完全失活。

多功能酶从头设计

ORI 成功实现了同时具备溶菌酶与几丁质酶活性的双功能酶设计，100 个随机筛选的候选蛋白中，65 个成功表达，25 个具备稳定的双酶活性；最优变体 TX-ME 的双功能活性，均显著优于天然单功能酶与天然双功能酶 Hevamine A。

蛋白表达效率系统性提升

经 RLWF 优化后，模型生成的糖苷水解酶、转糖基酶、噬菌体溶菌酶三大类酶，在无细胞表达系统中的中位表达量提升超 1.7 倍，大幅降低了计算设计蛋白的实验验证门槛。

质控管线性能验证

经 USM 质控管线筛选后，生成蛋白中目标功能结构域的包含率从原始的 45.89% 提升至 98.91%，大幅提升了功能蛋白的筛选效率。

5. 模型基准测试对比

与 ProteinSGM、ProGen3、Evo2 等主流蛋白生成模型相比，ORI 生成的蛋白在高结构置信度占比、目标功能结构域包含率上均实现显著领先。

在热稳定性优化任务中，ORI 相较 ProteinMPNN、Rosetta 等经典设计方法，在生成更高预测熔解温度蛋白的同时，计算成本大幅降低，实现了性能与效率的最优平衡。

6. 数据与开源情况

研究相关基准蛋白数据可通过 PDB 数据库获取，原始实验数据随论文同步发布。

ORI 模型的源代码已开源至 GitHub 平台，模型权重与论文对应版本代码存档于 Zenodo 平台，面向非商业科研用途开放使用。

三、图片内容

图 1 面向蛋白质工程的 ORI 计算框架

该图全景展示了 ORI 框架的整体架构与闭环工作逻辑。ORI 由蛋白设计智能体（PDA）、蛋白生成模型（PGM）、统一序列模型（USM）三大核心组件构成闭环系统：PDA 将用户定义的功能与理化性质需求转化为结构化本体提示，引导 PGM 完成蛋白序列生成；USM 对生成序列进行结构置信度、功能相关性等多维度评估，完成质控与候选蛋白筛选；最终湿实验结果通过强化学习反馈至模型，实现生成体系的迭代优化，形成计算设计与实验验证深度耦合的可扩展框架。

图 2 基于 ORI 的酶功能计算设计与实验验证

该图展示了 ORI 酶活设计的完整流程与核心验证结果，包含 8 个子图：

A：ORI 酶功能设计的核心工作流，包括本体条件生成、计算机模拟评估、湿实验验证三大核心环节

B：PGM 生成蛋白与天然同源蛋白的序列一致性分布，其中位值为 0.96

C：生成蛋白的序列一致性与结构相似性（TM-score）的相关性分析，二者仅呈极弱相关（皮尔逊相关系数 r=0.072）

D：与天然蛋白高结构相似性（TM-score>0.8）的生成蛋白，其序列一致性分布情况

E：与天然蛋白高序列一致性（>0.8）的生成蛋白，其结构相似性分布情况

F：USM 质控前后，生成蛋白中目标功能结构域的包含率对比，从 45.89% 提升至 98.91%

G：生成蛋白在 HEK293 细胞、大肠杆菌、无细胞表达系统中，表达量超 0.1mg/ml 的蛋白占比

H：筛选出的生成溶菌酶与天然鸡蛋清溶菌酶，在不同 pH 条件下的酶活性对比

图 3 基于实验反馈的蛋白质工程迭代优化

该图展示了 RLWF 湿实验反馈强化学习对模型的优化效果，包含 7 个子图：

A：RLWF 闭环工作流，展示了如何将湿实验测量结果通过强化学习整合进 ORI 框架，实现模型迭代优化

B：原始模型与 RLWF 优化后模型，生成蛋白的结构置信度（pLDDT）分布对比，优化后中位 pLDDT 从 75 提升至 85

C-E：SDS-PAGE 电泳结果，分别对比原始与优化模型生成的糖苷水解酶、转糖基酶、噬菌体溶菌酶在无细胞系统中的表达情况，优化后模型的蛋白表达量显著提升

F：原始与优化模型生成的三类酶的表达量定量对比，优化后均实现统计学显著提升

G：优化模型生成的溶菌酶变体，相较初始模型最优变体 TX-L6 的相对活性，13/20 个变体活性更高，最优变体活性提升 66 倍

图 4 基于 ORI 的高温耐受酶工程设计

该图展示了 ORI 在热稳定性蛋白设计中的应用流程与验证结果，包含 6 个子图：

A：热稳定性增强酶的设计与评估全工作流

B：USM 预测的蛋白熔解温度与实验实测值的相关性分析，皮尔逊相关系数达 0.818

C：无温度约束条件下，ORI 生成蛋白的熔解温度分布，其中位值为 48.3℃，与天然几丁质酶一致

D：不同目标温度提示下，ORI 生成蛋白的熔解温度分布，证实可通过本体提示精准调控蛋白热稳定性

E-F：ORI 生成的几丁质酶变体，在 60℃至 95℃不同时长热处理后的残余活性，其中 TX-SC2 在 85℃长时间孵育后仍保持全活性

图 5 基于 ORI 的多功能酶工程设计

该图展示了 ORI 在双功能酶设计中的应用与验证结果，包含 6 个子图：

A：兼具溶菌酶与几丁质酶活性的双功能蛋白设计工作流

B：筛选候选蛋白的溶菌酶、几丁质酶活性与表达量的散点图，高亮标注了具备双酶活性的蛋白

C：单功能生成蛋白与天然溶菌酶、几丁质酶的全序列与功能区序列一致性分布

D：双功能生成蛋白与天然双功能酶 Hevamine A 的全序列与功能区序列一致性分布

E：最优双功能变体 TX-ME 的预测蛋白结构，为两类酶共有的 TIM 桶状折叠

F：TX-ME 与天然单功能酶、天然双功能酶的溶菌酶、几丁质酶活性对比，TX-ME 的双功能活性均显著优于对照

四.核心主题总结

本研究的核心主题是：针对蛋白质工程领域长期存在的 “计算设计与实验功能转化脱节” 的核心瓶颈，创新性开发了 ORI 本体强化迭代通用框架。该框架通过结构化生物本体引导的可控蛋白生成、USM 高精度预实验质控、湿实验反馈强化学习的闭环迭代优化，系统性突破了现有方法对稀疏、非可微实验目标优化的局限，实现了蛋白生成的可控性、可解释性与实验转化效率的全面跃升。研究在酶活性百倍提升、极端高温耐受酶设计、多功能酶从头合成三大核心任务中完成了突破性实验验证，证实 ORI 是一套可适配多样化蛋白工程需求、在真实实验场景中高效落地的通用技术平台，为生物技术、创新药研发、工业生物催化等领域的功能蛋白定向设计提供了全新范式。

原文链接DOI： https://doi.org/10.1038/s41467-026-69855-6

苏州珀罗汀生物技术有限公司于2017年在苏州工业园区成立，是一家专业的无细胞蛋白表达生物技术公司。公司拥有国家高层次领军人才、海归博士等人才组成的专业技术团队，以自主研发独具特色的无细胞蛋白表达技术平台为依托，为广大生物医药、合成生物学等企业、研究机构提供无细胞蛋白表达产品、蛋白原料试剂及定制化服务。

电话：0512-67900128

官网：www.cellfreeprotein.cn

还在用细胞培养做筛选？这家实验室已用“无细胞”方案抢跑抗体研发

免费报名|PLD邀您参加第五届中国合成生物学及生物制造大会，我们杭州见！

还在用细胞培养做筛选？这家实验室已用“无细胞”方案抢跑抗体研发

免费报名|PLD邀您参加第五届中国合成生物学及生物制造大会，我们杭州见！

返回列表