终于试用到了Qwen2.5Max +Thinking
在这里插入图片描述
同一道小学数学应用题,Qwen2.5Max不加“反思”选项,得到的是错误结果。增加了之后,会反复对比自己之前得到的错误结果,多次验算,最终还是肯定了自己重新得到的正确答案。

这样,起码可以肯定通义千问有条件使用的情况下推理能力过了我测试的一个门槛了。到目前为止,DeepSeek R1/DeepSeek V3(满血或者完整版), Grok 3 Beta, Qwen2.5Max +Thinking ,三个大模型的推理能力经过了小学数学应用题的简单测试。自我反省能力算及格了。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐