实测Kimi新模型K2做数据分析,结果有点惊喜!感觉国内这AI小助手(Agent)是不是真的有救了?
Kimi开源K2模型在数据分析任务中展现强大Agent能力。通过对比测试K2、DeepSeek-V3和豆包Seed-1.6对客户服务数据的分析表现,K2采用分步执行策略:先检查环境依赖、获取数据信息、分析数据并优化报告,最终生成包含6张图表的3700字报告。而其他模型则存在"一口吃个胖子"的问题,直接将分析结论写入代码。测试表明,具备工具使用意识的K2在数据分析任务中表现更接近
7月11日,Kimi 低调开源发布了 K2 模型,根据官方的描述,新的模型在推理、代码和 Agent 能力上有了巨大提升。

考虑到当前官网还没上线 MCP 功能,直接让它分析 Excel 中的数据会以上下文的形式「硬分析」,一是准确度不高(具体原因在 Part3),二是无法体现它的 Agent 能力。
接下来我们使用一个支持代码生成、执行的第三方客户端,来看看官方宣称的代码、推理和 Agent 能力是不是真的那么神。
第三方客户端:Cline-VS Code
同任务对比模型:DeepSeek-V3、doubao-Seed-1.6
(本来还想测一下 MiniMax M1,但是死活配置不到 Cline)
数据分析任务描述
示例数据是 1000 条客户服务满意度提升数据的 Excel 表格,包括服务渠道、问题类型、问题解决时长、满意度评分、问题是否被解决。

从数据包含的字段看,使用这组数据可以至少从以下几个维度进行分析并得出对业务有助益的洞察:
-
1. 分析各个服务渠道的服务质量和效率情况
-
2. 分析不同类型问题的处理复杂度
-
3. 分析不同类型问题的处理满意度
-
4. 分析不同类型问题的解决结果差异
-
5. 分析售后问题在时间上的分布(如每月的高峰问题时间)
为了考验各大模型的推理能力,在提出需求时我不会告知它们这些已知的分析方向,让模型根据字段自行选择分析的维度。
提示词如下:
当前路径下的`客户服务满意度提升数据.xlsx`excel表内是一组客户服务的数据,请提取其中的字段和部分数据,根据字段内容和数据类型选择可以帮助我了解当前客户服务质量的全貌的可视化数据分析报告(Markdown 格式即可),报告中要给出业务的优化建议。
优先使用可选工具撰写代码来完成数据读取、分析和可视化报告生成。
由于这几个大模型特别爱逞能直接使用上下文的形式读取表格直接贴脸分析,但是它们数学计算能力和超长上下文下的推理能力都是渣渣,所以提示词最后一句加了一个“能用工具优先用工具”。
关于客户端 Cline。
这原本是一个辅助编程工具,它能直接读取、编辑本地文件和终端,可以调用大模型完成规划、执行、反馈的 Agent 任务,还支持自定义大模型。
以及,因为它不靠卖会员赚钱,消耗的都是用户自己的 API 额度,所以它会以解决问题为第一目标,而不是节省 Token 糊弄事儿。
满足我们这次数据分析任务的全部条件。
K2 的分析
整个过程消耗了 125 K Token,生成了 1 份3700 字的 Markdown 格式的报告和 1 张包含 6 张可视化图表的图片。


K2 执行任务的步骤如下:
-
1. 先查看要提取和分析数据的 Python 依赖库有没有装好
-
2. 写 Python 代码获取原数据的基本信息(表格形状、列名、每列的数据类型)
-
3. 撰写 Python 代码分析数据(生成图表、简单报告框架以及输出分析数据)
-
4. 综合历史分析输出,优化分析报告
查看它最终给的分析报告,我们前面提到的 5 个描述性分析维度全覆盖了,K2 完整的分析报告可以在文末获取,我会把它开源到 Github。
DeepSeek V3 的分析
DeepSeek V3 消耗不到 70K tokens,生成了 1 份 1245 字的分析报告和 4 张可视化图表

DeepSeek V3 执行任务的步骤如下:
-
1. 编写 Python 脚本查看表格数据
-
2. 编写 Python 脚本分析数据(输出图表+报告文档)
-
3. 修复生成图表时的中文报错(没修复成功直接放弃)
我看了一下 DeepSeek 生成分析报告的 Python 代码,里面的结论是在生成代码时直接写死的
这意味着 DeepSeek 依然是“一口吃个胖子”的做事方式,没有分步执行、逐步迭代优化的意识。
(K2 是先写草稿,再综合终端里的历史输出分析结果重写分析报告)
豆包分析产出
豆包 Seed 1.6 模型消耗 ~70K Tokens,生成了 1 份分析报告和13 张图表。

执行任务的步骤如下:
-
1. 思考,然后编写代码分析数据+生成报告
-
2. 思考,然后安装依赖
-
3. 思考,输出“工作完成”
与 DeepSeek 一样,豆包 1.6 生成的数据分析Python代码里,是包含一并生成了分析报告的内容。其中分析结论也是写死在代码里的。
这就意味着,它的结论得出,不依赖于数据分析……
也是一口吃个胖子。
以上全部三个模型的分析结果见:https://github.com/comeonzhj/K2-DeepSeek-doubao-dataanalysis
更多数据分析“Agent”
除了使用模型API + Tools的方法让 AI 帮你分析数据以外,此刻豆包、扣子空间、智谱和混元都支持上传表格+分析任务,一键全自动完成数据分析任务了。
测试下来,只有扣子空间这种 Agent 级别的工具能输出完整的报告,并且完成度极高(报告里用的甚至是动态可视化图表)。
你可以通过这个链接回看扣子空间分析的全过程:https://space.coze.cn/s/cKS0lzlsuhc/

其次是豆包,整个分析过程它是分步完成的,每个分析维度生成一个 Python 代码、根据代码输出撰写当前维度的结论,并且显示图片。
你可以通过这个链接查看豆包分析的输出:https://www.doubao.com/thread/w77f89e2efa2da7a0

再其次是智谱的数据分析智能体,这个功能在 2023 年就有了,倒是最近一年几乎没啥迭代。它有更专业的数据分析方法论,但是因为模型的纠错、二次规划能力不够看,以至于大部分任务都是在数次报错-处理循环后,直接崩溃。

这个链接是顺利完成分析的一次:https://chatglm.cn/share/0FSTVbDV
元宝也可以直接完成数据分析任务,但是仅限于 Hunyuan 模型。
这是相同任务的完成情况:https://yuanbao.tencent.com/bot/app/share/chat/guqjRQspQfgH
什么叫胜任数据分析
你应该试过直接把一个 Excel 扔给 DeepSeek,让它帮你做数据分析。
结果大部分时候都是卡好久,然后给你一顿乱回复。
核心原因在于,把 Excel 作为附件直接扔给“没有工具”的 DeepSeek,它只能强行把 Excel 的全部内容读取成文本,作为上下文进行理解、分析。
这大概相当于,你用“心算”,计算这几千行数据的平均值、相关系数、分类统计每个渠道的销量,然后继续用“心算”根据这些数值,得出分析结论。
并且要在 5 秒内写成一份 1000 字的数据分析报。
像豆包、扣子空间、智谱它们,之所以能够胜任数据分析任务,是因为它们内置类代码执行工具,全流程都是写 Python-运行 Python-分析代码运行结果。
对比刚才你的“心算”过程,相当于,你对一列值使用函数公式计算出平均值,记下来A列平均值:198,然后算其他列。最终把你记下来的这些计算结果汇总,来写报告。
回到最前面我们使用 Cline 测试的三大模型+工具做数据分析任务的过程。
虽然 DeepSeek 和 Doubao 也用了工具,但是它们使用工具的原因大概率只是因为我在提示词里让他们用工具。
它们并不是真是在使用工具来弥补自己既想“一口吃个胖子”、能力又不允许的短板。
而从 K2 完成任务的过程看,它似乎有点理解了“工具”是什么了。K2 撰写的 Python 代码,不只为了生成图表图表,它把每一个分析维度的分析结果都使用print()打印输出到终端了。

在最后一步优化输出的初版分析报告时,会用所有 Python 代码运行时输出的信息作为参考,来填充分析报告。
一旦解决了“一口吃个胖子”的毛病,胜任 Agent 场景就指日可待了。
K2 有前途的(非广)。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)