数据总结token不够长的问题

大模型目前在数据分析方面还是限制比较多，所以主要依托的还是平台原有的能力，并且大模型的引入，还需要将原来的平台功能，与分析方法有机结合在一起，能够智能生成分析步骤，执行并获取的结果，然后才是利用大模型进行分析。

墨眉亦无锋

339人浏览 · 2025-12-10 17:04:01

墨眉亦无锋 · 2025-12-10 17:04:01 发布

前提是不接受抽样，抽样会导致数据缺失，总结内容会有对不齐

方案一、数据切片

根据维度，或者列信息，进行切片，每次给大模型一个切片数据进行总结，然后将多次总结再次作为提示词交给大模型进行总结。

方案二、数据向量化+RAG（检索增强生成）

核心是将需要总结的数据进行向量化存储，大模型通过检索动态生成上下文，而不是全量一次性读取全量数据。

1、将 BI 报表/数据表按行或块编码为向量（如使用 text-embedding-ada-002）；

2、但是如果数据量仍然超大，还是需要配合方案一来实现。

方案三、预计算 + 指标中心驱动（Pre-aggregation + Semantic Layer）

核心思想：

不是利用明细数据来调用大模型，而是利用BI数据平台的能力（指标定义+语义层），将过大的数据聚合到更高级别的指标，然后再将这些高度总结的数据推送到大模型。

案例：

阿里的Quickbi+通义千问的智能问数采用了此模式

Microsoft Fabric + Copilot 也强调“基于语义模型生成洞察”

但是，这里预计算，并不是单纯的聚合数据，因为聚合后数据仍然可能超过token上限。而是利用BI平台的能力，把能计算的值计算出来。然后将汇总值给到大模型。

举例：

假设你有一张 50 万行的汇总表：日-门店-品类-销售额

用户问：“请总结 2025 年 Q4 整体销售表现，并指出异常点。”

❌ 错误做法：

把 50 万行全导出成 JSON → 超过 1M tokens → 模型拒绝或截断。

✅ 正确做法（分层处理）：

第一层：全局指标（1 行

{"period": "2025-Q4", "total_sales": 1.2亿, "yoy": "+8.3%", "mom": "-2.1%"}

第二层：关键维度 Top/Bottom（各取 10 行）
- 销售额 Top 10 门店
- 同比下滑最严重的 10 个品类
- 日销波动最大的 7 天（标准差最大）
第三层：异常检测结果（由 BI 引擎预计算）
- 使用统计方法（如 Z-score、IQR）标记出 50 个异常点（如某天某店销量突降 90%）
- 只传这 50 条异常记录
合并输入给大模型：
- 总体趋势（1 行）
- 关键亮点/风险（Top/Bottom 各 10 行）
- 异常明细（50 行） → 总共约 70 行结构化数据，token 消耗 < 2000
大模型输出：

“Q4 整体同比增长 8.3%，但环比略有下滑……华东区 A 类门店表现突出，而饮料品类在 12 月第 2 周出现集中性下滑，可能与供应链中断有关…

技术方案说明：

大模型目前在数据分析方面还是限制比较多，所以主要依托的还是平台原有的能力，并且大模型的引入，还需要将原来的平台功能，与分析方法有机结合在一起，能够智能生成分析步骤，执行并获取的结果，然后才是利用大模型进行分析

整体的流程：

能力	说明	示例
意图识别	判断是“总结”、“对比”、“归因”还是“预警”	“为什么下降？” → 归因
实体抽取	识别时间、维度、指标、过滤条件	“华东区 Q4 利润率” → region=华东, period=Q4, metric=利润率
分析模式匹配	将问题映射到预设的分析范式	“表现如何？” → 趋势 + 极值 + 异常
查询规划	决定需要哪些聚合、是否需多步计算	归因需先算贡献度，再排序

BI平台为实现该能力，需要具备的内嵌的分析知识：

模式	适用问题	计算逻辑
趋势分析	“最近怎么样？”	移动平均、环比、同比、斜率
排名分析	“谁最好/最差？”	Top N / Bottom N + 占比
对比分析	“A 和 B 有什么不同？”	差异值、百分比变化、贡献度分解
归因分析	“为什么下降？”	指标拆解（如 GMV = UV × 转化率 × 客单价），Shapley 值，或维度贡献排序
异常检测	“有没有异常？”	Z-score > 3、同比偏离 > 50%、残差分析
预测推演	“接下来会怎样？”	简单线性外推、季节性调整（可选）

技术实现建议：

组件	推荐方案
语义层	自研元数据服务 / Looker / Power BI Semantic Model
NL2Query 引擎	Vanna.ai（开源）、LangChain SQL Agent、或自研规则+微调小模型
分析方法论引擎	用 Python/Java 实现“分析模式调度器”，支持插件化扩展
执行引擎	直连数据仓库（ClickHouse/Doris/BigQuery），避免导出
缓存优化	对高频查询结果缓存（如“昨日销售”），提升响应速度

行业实践参考：

厂商	能力	说明
ThoughtSpot Sage	内置 20+ 分析模式，支持自动归因、异常检测	用户问“why down?” 自动触发根因分析
Microsoft Copilot for Power BI	基于 semantic model 动态生成 DAX 查询	支持“show me by region”等自由切换
阿里 Quick BI 智能问数	结合指标中心 + 分析模板 + 通义千问	支持中文复杂问法，自动选择图表和计算
Tableau Ask Data	基础 NL2Viz，但分析深度有限	更适合简单查询，复杂归因需增强

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla