大家好,我是羊仔,专注AI编程、智能体、AI工具。

昨天,DeepSeek-V3.1-Terminus版本发布,终于迎来了它的「终极版」。 

图片

一、「极你太美」被干掉了

图片

如果你没经历过这个 bug,可能无法感受它的魔性:DeepSeek的返回里会莫名其妙的带有“极”字。

图片

这个“极”字能悄无声息地混进注释、变量名,甚至 JSON 输出里。  

后来社区里各种猜测都有,最靠谱的说法是:训练数据污染,模型把“极”字当成了某种特殊符号,结果输出时就乱入。  

好消息是,在 Terminus 版本里,这个 bug 已经被彻底解决

官方更新日志明确写了——“缓解中英文混杂、偶发异常字符等情况”,换句话说,现在可以放心让它写代码,不会再突然“极你太美”了。  

图片

二、Agent能力变强

它在「智能体」方面确实进步明显,数据如下:

  • BrowseComp(英文搜索)从 30% → 38.5%,提升挺大  

  • SimpleQA(简单问答)从 93.4% → 96.8%,已经非常稳定  

  • SWE-bench Verified 从 66.0% → 68.4%,编程任务更靠谱  

  • Terminal-bench 从 31.3% → 36.7%,命令行任务执行更准确  

不过也有取舍,比如中文搜索(BrowseComp-zh)从 49.2% 降到 45%,说明官方可能优先优化了英文任务的效果。

毕竟全球开发圈的技术资料还是以英文为主,这个策略也算合理。  

图片

三、Terminus的两层意思

羊仔特别喜欢这个名字——Terminus,它是拉丁语,意思是终点、界限

结合这次更新的背景,羊仔觉得它可能有两层含义:  

  1. V3系列的终极形态

    这是 V3 架构的最后一次重大更新,性能和稳定性都已经打磨到极致。  

  2. 新时代的前奏

    给 V4 或 R2 做铺垫,很多人猜测下一代会有更大的突破,比如多模态推理、更长思考链、更强逻辑一致性。  

羊仔觉得,这名字就是在暗示:R2很快就来了。  

四、对日常使用的影响

这次更新最大的价值,其实是稳定性提升。

对于编程、结构化输出这些对格式要求很高的任务,现在你可以放心交给 DeepSeek,不用担心它突然插播奇怪的字符。  

而在智能搜索、代码修复、命令行操作这些 Agent 场景下,Terminus 也更聪明、更靠谱。

羊仔自己跑了几个项目,明显感觉它理解任务的速度更快,输出也更精准。  

五、R2/V4还远吗?

接下来是V4还是R2,羊仔有一些和主流观点不太一样的看法。

很多人都在猜测V4会先发布,理由是Terminus命名表示V3已经结束了。

但羊仔觉得,R2可能会比大家想象的来得更早

为什么这么说?羊仔观察到几个有趣的迹象:

首先,推理模型的商业价值更明确

R1已经证明了推理模型在复杂问题解决上的巨大潜力,而这种能力意味着高商业价值。

比如科研、金融、法律咨询等领域,客户愿意为更强的推理能力付更高的价格。

其次,R系列的技术路径更清晰

相比V4需要在架构上做大幅创新,R2更多是在现有推理框架基础上的优化和扩展。

虽然涉及多模态和更长思考链,但技术方向已经明确。

第三,竞争压力的重点在推理能力

目前各家AI公司都在推理能力上发力,谁能在这个赛道上率先突破,谁就能占据更大的市场优势。

当然,这只是羊仔基于观察到的现象做出的推测。

AI领域的发展速度实在太快,说不定下个月就会有新的情况出现。

六、写在最后

总的来说,这次更新就是更省心了,没有花里胡哨的新功能,但稳定性和 Agent 能力的提升是实打实的。  

Terminus 也许是一个标志:V3时代结束,新的时代即将开始。

羊仔很期待接下来的大更新,到时候我们再一起拆解看看吧。  

欢迎在评论区聊聊你用DeepSeek遇到过的奇葩bug~

共勉!

欢迎关注羊仔,一起探索AI,成为超级个体!

如果你喜欢这篇文章,不妨赞,在看,转发。

你的每一次互动,对羊仔来说都是莫大的鼓励。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐