约束偏好优化的多目标抗体设计
AbNovo框架通过受约束的偏好优化设计高亲和力抗体,增强可开发性和临床安全性。它在确保抗体特异性、稳定性和最小化自聚集方面表现出色,提升了亲和力和进化合理性。然而,AbNovo存在局限性:一是缺乏湿实验验证,这是未来工作的方向;二是设计未知结合位点抗体的流程复杂,可能导致误差累积,影响准确性;三是Rosetta能量等指标与湿实验结果的一致性需提高。AbNovo框架灵活,未来可纳入其他物理化学属性

今天介绍的是ICLR 2025上在审的一篇名为“Multi-Objective Antibody Design with Constrained Preference Optimization”的论文。抗体设计对于开发治疗癌症和病毒感染等疾病的疗法至关重要,近期深度生成模型在计算抗体设计方面取得了显著进展,特别是在提高与目标抗原的结合亲和力方面。但是除了结合亲和力外,抗体还应展现出其他有利的生物物理特性,如结合特异性和低自聚集性,这些特性对于抗体的可开发性和临床安全性非常重要。因此,文章提出了AbNovo框架,该框架利用受约束的偏好优化进行多目标抗体设计。在独立测试集上进行评估,AbNovo在结合亲和力的指标(如Rosetta结合能和进化合理性)以及其他生物物理特性的指标(如稳定性和特异性)方面均优于现有方法。
1.引言
抗体是重要的免疫蛋白,能结合抗原并触发免疫反应,在治疗多种疾病中至关重要,已有超百种抗体药物获得批准。抗体由保守框架区和高变CDRs组成,CDRs决定抗原结合。计算抗体设计旨在设计能结合目标抗原且具良好生化特性的CDRs。
近期深度生成模型在抗体设计中取得显著进展,尤其在提升抗原特异性结合亲和力方面。例如,DiffAb用去噪扩散概率模型联合设计抗体结构和序列;AbX利用基于分数的扩散模型,并结合几何、物理和进化约束来指导设计过程;ABDPO将物理能量作为直接偏好优化框架内结合亲和力的指导。
然而,抗体设计还需考虑除结合亲和力外的其他特性,例如高特异性和低自聚集性等生物物理特性,以确保临床安全性和可开发性。传统湿实验通过生成多样化候选抗体后筛选,在设计满足所有指定约束的抗体方面效率低且成功率不高。
为此,作者提出AbNovo框架,利用受约束的偏好优化进行多目标抗体设计。首先,预训练基于分数的扩散模型用于抗体结构和序列的联合设计;然后,使用结合亲和力作为奖励对模型进行微调,同时约束非特异性结合、自聚集和稳定性。训练中将物理结合能建模为连续奖励,采用原始-对偶方法进行受约束的优化,并引入结构感知蛋白质语言模型提升性能。
AbNovo贡献在于:
-
提出多目标抗体设计的深度生成模型AbNovo,含有生物物理特性约束。
-
将受约束的偏好优化框架从语言模型对齐扩展到基于扩散的生成模型,开发训练算法并提供理论支持。
-
训练了一个结构感知的蛋白质语言模型,以缓解由于抗体-抗原训练数据稀缺而导致的过拟合问题。
-
实验结果表明,AbNovo在结合亲和力和生物物理特性上达先进水平。
2.相关工作
2.1 计算抗体设计
抗体设计旨在优化抗体的结构和序列,特别是互补决定区(CDRs),以有效结合目标抗原,同时满足其他生物物理特性。传统方法依赖计算密集的蒙特卡洛模拟,效率较低。深度学习技术推动了抗体设计的发展,分为判别模型和生成模型。判别模型使用图神经网络预测抗体结构和序列,而生成模型如去噪扩散概率模型(DDPM)和基于分数的扩散模型,构建了一个抗原条件的抗体序列和结构生成过程,还有一种趋势是将指导信息纳入生成过程,如AbX通过引入进化、物理和几何约束来缩小可能的结构和序列采样空间。
与本文工作最相关的方法是AbDPO方法,它使用直接偏好优化(DPO)框架优化Rosetta能量。本文提出的方法采用受约束的偏好优化,同时考虑特异性和自聚集性约束,确保抗体具备良好生物物理特性。与AbDPO的成对偏好不同,本文方法使用连续奖励建模物理结合能,更精细地控制设计过程,提高准确性。
2.2 生成式模型的偏好优化
在自然语言处理中,大型语言模型(LLMs)在自然语言生成方面取得了显著进展。为了使这些模型更好地符合人类的价值观和偏好,研究者们开发了多种偏好优化框架,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)。RLHF通过预训练奖励模型并使用强化学习微调基础模型,而DPO直接利用偏好数据微调模型,不依赖显式奖励模型。DPO框架也被扩展到基于扩散的生成模型用于图像生成。
RLHF在实践中面临挑战,如过度优化和单一奖励的局限性,后者难以捕捉人类偏好的多个方面。为缓解这些问题,研究者们提出了受约束的RLHF和DPO框架,通过施加明确约束来微调LLMs。本文的方法将受约束DPO从LLMs对齐扩展到基于扩散的生成模型,并结合噪声对比估计,使用连续奖励建模物理结合能。本文使用现有模型评估采样抗体的奖励和约束值,以优化抗体的生物物理特性。
3.方法
AbNovo训练分两阶段,如下图所示:

**第一阶段:**训练一个基于扩散的抗原条件的生成模型,即基础模型,用于抗体结构和序列的协同设计。
**第二阶段:**通过受约束的偏好优化微调基础模型,优化后的网络称策略模型。策略模型依据生物物理特性优化,并用基础模型初始化的参考模型作正则化项防过度优化。
3.1 预备知识
抗体由两条重链和两条轻链组成,每条链的可变域含框架区和CDRs(重链H1、H2、H3,轻链L1、L2、L3)。结构上,采用SE(3)元素表示,捕捉主链局部框架。对于总长度为N的抗原-抗体复合物,每个残基可以表示为,其中是第个残基的碳的坐标,是旋转矩阵,是残基类型或掩码。待生成的CDRs共个残基,研究目标是给定抗体框架和抗原下,建模的分布,和的表示如下:
3.2 预训练结构感知语言模型
在预训练结构感知语言模型时,使用BERT模型对蛋白质序列进行10%的掩码,通过引入噪声帮助模型从部分信息恢复完整序列。具体掩码方法为:85%位置用标记,10%随机替换氨基酸,5%保持不变。对于长度超200残基的序列,采用5到13残基的连续段掩码。模型架构选用ESM2-3B,预训练权重初始化提升收敛速度和性能。
在预训练结构感知语言模型时,采用三种损失函数优化模型性能:掩码语言模型损失()训练模型预测被掩码的氨基酸,增强对序列上下文的理解;预测氨基酸对间距离,将2Å到22Å分为32个区间,模型预测距离所在区间;预测氨基酸对是否接触(距离<8Å),通过指示函数实现。损失函数如下式:
3.3 抗体结构和序列的协同设计
3.3.1 序列和结构的扩散过程
在抗体的序列和结构联合设计中,本研究采用了多模态扩散模型。具体而言,对于离散序列,运用了基于连续时间马尔可夫链(CTMC)的扩散模型;而对于结构,则采用了基于分数的SE(3)扩散模型。使用来表示时间时抗体的结构和序列。使用来表示扩散路径。其中,遵循均匀分布,并且在上对平移、旋转和序列应用不同的噪声计划。
对于的前向扩散过程如下:
在分数网络和先验分布方面,分别用、和表示平移、旋转和序列的得分网络。结构和序列的先验分布分别表示为:
对于、和的逆向扩散可以表示为:
3.3.2 网络体系结构

在设计抗体网络架构时,参考了先前研究,采用在蛋白质结构预测中有效的分数网络架构。该架构包括三个部分,如上图所示:首先,是一个结构感知语言模型,该模型在220万个结构上进行预训练,用于提取抗体框架和抗原的条件序列以及噪声CDRs序列的嵌入表示。结构信息通过抗体框架、抗原和噪声CDR的散点图进行编码,并通过线性投影进行处理。接着,是Evoformer主干,它负责进一步处理结构和序列表示。最后,是不变点注意力(IPA),与多层感知机(MLP)一起,输出去噪后的CDRs结构和序列。
3.3.3 训练损失
在设计训练基础模型的损失函数时,作者沿用先前的研究方法。具体来说,用于优化位置信息,用于优化旋转信息,而则用于优化序列信息。此外,损失用于避免原子碰撞并学习残基间键的几何形状,而作为辅助损失,用于监督设计的CDR的四个原子的距离。损失函数如下式所示:
3.4 约束偏好优化
训练目标是设计结合目标抗原并满足生物物理特性的抗体。目标函数(如下式)包括最大化奖励(如Rosetta结合能、进化合理性)和保持策略模型接近参考模型,同时施加生物物理特性约束。奖励和约束值离线计算,优化过程中需满足非特异性结合、自聚集和稳定性等约束。
其中和表示归一化奖励及其权重,和表示约束及其阈值。
通过拉格朗日函数关联目标函数与约束,形成最大-最小化问题(如下式),在原目标的基础上附加惩罚项表示约束违反程度,通过拉格朗日乘数调整。优化问题转化为求解拉格朗日函数的最大最小值。
采用原始-对偶方法,迭代更新策略模型和拉格朗日乘数。首先,根据更新,找到最大化拉格朗日函数的策略模型,即。其次,根据策略计算对偶函数的梯度更新。
3.4.1 更新策略
具有连续奖励的直接偏好优化
最近的研究将直接偏好优化(DPO)框架扩展到包含连续奖励值,用于大型语言模型的对齐。由于许多生物物理特性(例如物理能量)是连续值,本文进一步将NCA适应于基于扩散的生成模型,并将其整合到受约束的偏好优化框架中。最优策略的形式为:
其中是奖励和约束的加权和:
结合NCA,原始训练目标可以重新制定如下:
式中表示从参考模型中采样的抗体,是sigmoid函数。
由于上式中的目标在训练时效率低下且难以训练的,本文利用Jensen不等式,并用前向扩散近似逆向过程,简化后的目标是:
增加高奖励样本的似然
在直接偏好优化(DPO)方法中,先前的研究发现,这种方法会导致最优偏好样本的似然降低。为了解决这一问题,有研究证明了NCA训练目标能够确保最优奖励样本的似然不会降低。基于这一发现,本文保留了基础模型的训练目标,以进一步增加高奖励样本的似然。总损失可以表示为:
其中是NCA训练目标的损失;是权重参数,用于平衡NCA损失和基础模型损失;是一个选择项,当样本的奖励高于平均奖励时,该项为正,否则为零,从而只对高奖励样本增加似然;是基础模型对样本的监督损失。
3.4.2 更新
在更新拉格朗日乘数的过程中,本文的目标是通过评估当前策略下约束违反的程度来计算梯度。具体来说,梯度可以表示为:
其中和分别表示约束和其阈值。在这个方程中,梯度可以通过当前策略模型下采样的抗体的预期约束违反程度来计算。下的最优解可以表示为,具体的估计方法可以推导为闭式形式:
通过这种方式,可以在离线方式下估计的梯度。在训练过程中动态调整拉格朗日乘数,以确保约束条件得到满足,从而优化抗体设计的生物物理特性。
3.4.3 迭代优化

在训练过程中(算法如上图所示),采用最新训练好的策略模型来更新参考模型,并进行多轮约束偏好优化。具体来说,对于第轮,我们使用第轮训练好的策略模型来更新参考模型和当前轮次的策略模型,并离线收集采样抗体及其奖励和约束值。从参考模型中离线采样一组抗体样本,并计算这些样本的奖励和约束值。
在优化过程中,首先根据当前的对偶变量,标注样本;接着,更新策略模型;然后,更新对偶变量。重复上述优化步骤次,完成轮优化后,返回最终的策略模型。
4.结果
4.1 实验设置
AbNovo模型使用SAbDab数据库中的抗体-抗原复合物结构进行训练,并在RAbD测试集上评估性能。测试时生成所有六个CDRs,条件为抗原和抗体框架区域。通过在CDR-H3上应用40%序列相似性阈值消除训练集和测试集的重叠。
基线方法包括判别模型dyMEAN和GeoAb,以及生成模型DiffAb和AbX。由于dyMEAN不使用原生抗体框架结构作为输入,其设置与其他方法不同,可能在实验中被低估。AbDiffuser和AbDPO无法用于基准测试。
评估指标分两类:基于参考的指标(AAR和RMSD)评估设计抗体与原生抗体结构和序列的相似性;独立于参考的指标(Rosetta结合能、进化合理性和约束满足比例)评估抗体特性。每种方法针对每种抗原设计128个抗体,评估平均指标。
4.2 多目标抗体设计的评价

AbNovo在RAbD测试集上的评估显示,其在所有独立于参考的指标上超越基线方法,不仅设计出结合能高、进化合理的抗体,还在约束违反比例上最低,显著优于其他方法(如上表所示)。与基础模型相比,AbNovo在各指标上均有显著提升,凸显了受约束偏好优化的有效性。在基于参考的指标上,AbNovo也全面优于基线方法,无论是在独立指标还是与原生抗体的直接比较中均表现出色。具体到每个CDR的基于参考的度量评估,AbNovo持续展现卓越性能(如下表所示)。

4.3 消融研究

在消融研究中(结果如上表所示),本文首先比较了受约束偏好优化与监督微调(SFT),结果显示SFT虽提升基础模型性能,但不如偏好优化学习。其次,将受约束偏好优化与AbDPO中的偏好优化比较,发现将约束转为优化目标后,虽约束满足略有提升,但结合能和进化合理性性能显著下降,表明某些生物物理特性更适合作为约束。此外,评估了结构感知语言模型的贡献,排除其嵌入导致指标显著下降,凸显其重要性。用ESM-2的仅序列语言模型替换时,发现结构感知模型表现更佳。在长距离接触预测上,结构感知语言模型显著优于纯序列模型。最后,分析了迭代轮数K对性能的影响,发现增加迭代轮数可改善整体指标,使更多样本满足约束条件(如下表所示)。

4.4 案例研究

通过上图比较了dyMEAN、DiffAb和AbNovo针对PDB ID: 5NUZ抗原设计的抗体。图中橙色和蓝色分别标识设计抗体和天然抗体的CDR,False和True表示是否满足约束条件。AbNovo设计的抗体不仅结合亲和力高,还完全满足约束条件。dyMEAN生成的带电氨基酸可能导致自聚集风险。
下图展示了不同方法设计的抗体针对PDB: 4fqj,1a2y,5nuz抗原的指标分布。AbNovo设计的抗体满足约束条件的比例高,结合能和进化合理性超过天然抗体的比例也大。图中红色星号表示天然抗体特征,蓝色表示满足约束条件的抗体,红色表示违反约束条件的抗体,黄色区域突出超过天然抗体的指标区域,证实AbNovo的优越性能。

5.总结
AbNovo框架通过受约束的偏好优化设计高亲和力抗体,增强可开发性和临床安全性。它在确保抗体特异性、稳定性和最小化自聚集方面表现出色,提升了亲和力和进化合理性。然而,AbNovo存在局限性:一是缺乏湿实验验证,这是未来工作的方向;二是设计未知结合位点抗体的流程复杂,可能导致误差累积,影响准确性;三是Rosetta能量等指标与湿实验结果的一致性需提高。AbNovo框架灵活,未来可纳入其他物理化学属性以改善与湿实验结果的对齐。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。


👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)