大模型日报|6 篇必读的大模型论文
大模型日报|6 篇必读的大模型论文

大家好,今日必读的大模型论文来啦!
苹果团队提出「蒸馏」Scaling Laws
在这项工作中,来自苹果公司和牛津大学的研究团队提出了一种蒸馏 Scaling Laws,其可根据计算预算及其在学生和教师之间的分配来估算蒸馏模型的性能。这一发现降低了大规模使用蒸馏技术的相关风险;现在,教师和学生模型的计算分配都可以最大限度地提高学生的成绩。
他们提供了计算最优蒸馏方案,适用于:1)教师已经存在,或 2)教师需要训练的情况。如果有很多学生需要蒸馏,或者已经有了一名教师,那么在计算量达到一定水平之前,蒸馏的效果要优于监督式预训练,而计算量的增长是可以预测的。如果只有一名学生需要蒸馏,而教师也需要训练,则应改用监督学习。
论文链接:
https://arxiv.org/abs/2502.08606
OpenAI:使用大型推理模型进行竞争性编程
在这项工作中,OpenAI 团队发现,将强化学习应用于大语言模型(LLM)可以显著提高复杂编码和推理任务的性能。此外,他们还比较了两个通用推理模型——OpenAI o1 和 o3 的早期检查点——与一个特定领域系统 o1-ioi,后者使用精心设计的推理策略,旨在参加 2024 年国际信息学奥林匹克竞赛(IOI)。他们使用 o1-ioi 参加了 2024 IOI 的现场比赛,并在使用精心制作的测试时策略的情况下取得了第 49 名的好成绩。在宽松的比赛限制条件下,o1-ioi 获得了金牌。然而,在对后来的 o3 等模型进行评估时,他们发现 o3 在没有精心制作的特定领域策略或宽松限制的情况下也能获得金牌。
研究结果表明,尽管 o1-ioi 等专业管道取得了显著的改进,但扩大的通用 o3 模型在不依赖精心制作的推理启发式的情况下超越了这些结果。值得注意的是,o3 在 2024 IOI 上获得了金牌,并获得了与人类精英选手相当的 Codeforces 评级。总之,在竞技编程等推理领域,扩展通用强化学习而不是依赖特定领域的技术,为实现 SOTA AI 提供了一条鲁棒的道路。
论文链接:
https://arxiv.org/abs/2502.06807
港大、字节团队:通过强化学习让 LLM 学会批判
让大语言模型(LLM)对其输出结果进批判和改进,对于构建能够迭代提升的系统至关重要,但这从根本上受限于提供准确判断和可行建议的能力。
在这项工作中,来自香港大学和字节的研究团队探索了用于代码生成的 LLM 批判器,并提出了一种通过强化学习进行批判性训练的框架——CTRL,其通过训练批判器模型来生成反馈,从而在无需人工监督的情况下最大化固定生成器模型的修正性能。
研究结果表明,使用 CTRL 训练的批判器能够显著提高基础生成器模型和更强生成器模型的通过率并减少复合错误。此外,他们还展示了这些批判器模型可以作为精确的生成奖励模型,并通过迭代批评-修订实现测试时扩展,在具有挑战性的代码生成基准中实现了高达 106.1% 的相对改进。
论文链接:
https://arxiv.org/abs/2502.03492
ACD:将基础模型指定为科学家
基础模型已成为通用助手,通过在网络规模数据上的训练,在众多领域展现出不同的能力。要精确描述任何新模型的全部能力和潜在风险,哪怕是其中的一小部分,也仍然具有挑战性。现有评估方法往往需要耗费大量人力,而要为能力更强的模型设计难度更大的挑战,则需要付出越来越多的努力。
在这项工作中,英属哥伦比亚大学团队提出了一个将基础模型指定为科学家的框架——“自动能力发现”(ACD),用于系统地提出开放式任务,以探测模型(可能是模型本身)的能力。通过将前沿模型与开放性领域的理念相结合,ACD 可以自动、系统地发现模型中令人惊讶的能力和失误。
他们在一系列基础模型(包括 GPT、Claude 和 Llama 系列)上演示了 ACD,表明它能自动揭示数千种能力,而这些能力对于任何一个团队来说都是具有挑战性的。他们通过广泛的人工调查进一步验证了这一方法的自动评分,观察到模型生成的评估与人工评估之间的高度一致。
论文链接:
https://arxiv.org/abs/2502.07577
GitHub 地址:
https://github.com/conglu1997/ACD
Magic141:一分钟内,生成一分钟视频
在该技术报告中,来自 Hedra、北京大学和英伟达的研究团队提出了 Magic 1-For-1(Magic141),这是一种具有优化内存消耗和推理延迟的高效视频生成模型。其关键思路很简单:将文本到视频的生成任务分解为两个独立的、更易于扩散步骤蒸馏的任务,即文本到图像的生成和图像到视频的生成。
他们验证了使用相同的优化算法,图像到视频任务确实比文本到视频任务更容易收敛。我们还探索了一系列优化技巧,从三个方面降低图像到视频模型训练的计算成本:1)通过使用多模态先验条件注入加快模型收敛速度;2)通过应用对抗步骤蒸馏加快推理延迟;3)通过参数稀疏化优化推理内存成本。
利用这些技术,他们能在 3 秒内生成 5 秒钟的视频片段。通过使用测试时滑动窗口,他们能在一分钟内生成一分钟长的视频,视觉质量和运动动态都有显著提高,平均生成 1 秒视频片段的时间不到 1 秒。
论文链接:
https://arxiv.org/abs/2502.07701
项目地址:
https://magic-141.github.io/Magic-141/
微软推出自然语言模型 NatureLM
基础模型为自然语言处理和人工智能带来了革命性的变化,极大地增强了机器理解和生成人类语言的能力。受这些基础模型成功的启发,研究人员开发出了适用于各个科学领域的基础模型,包括小分子、材料、蛋白质、DNA 和 RNA。然而,这些模型通常是孤立训练的,缺乏跨不同科学领域整合的能力。
在这项工作中,微软团队认识到这些领域中的实体都可以用序列来表示,它们共同构成了“自然语言”,因此推出了自然语言模型(Nature Language Model,NatureLM),这是一种基于序列的科学基础模型,专为科学发现而设计。NatureLM 使用来自多个科学领域的数据进行预训练,提供了一个统一的通用模型,可用于各种应用,包括:(1)使用文本指令生成和优化小分子、蛋白质、RNA 和材料;(2)跨领域生成/设计,如蛋白质到分子和蛋白质到 RNA 的生成;(3)在 USPTO-50k 的 SMILES 到 IUPAC 翻译和逆合成等任务中实现 SOTA。NatureLM 为各种科学任务提供了一种前景广阔的通用方法,包括药物发现(命中生成/优化、ADMET 优化、合成)、新型材料设计以及治疗性蛋白质或核苷酸的开发。
论文链接:
https://arxiv.org/abs/2502.07527
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)