前提是不接受抽样,抽样会导致数据缺失,总结内容会有对不齐

方案一、数据切片

根据维度,或者列信息,进行切片,每次给大模型一个切片数据进行总结,然后将多次总结再次作为提示词交给大模型进行总结。

方案二、数据向量化+RAG(检索增强生成)

核心是将需要总结的数据进行向量化存储,大模型通过检索动态生成上下文,而不是全量一次性读取全量数据。

1、将 BI 报表/数据表按行或块编码为向量(如使用 text-embedding-ada-002);

2、但是如果数据量仍然超大,还是需要配合方案一来实现。

方案三、预计算 + 指标中心驱动(Pre-aggregation + Semantic Layer)

核心思想

不是利用明细数据来调用大模型,而是利用BI数据平台的能力(指标定义+语义层),将过大的数据聚合到更高级别的指标,然后再将这些高度总结的数据推送到大模型。

案例

阿里的Quickbi+通义千问的智能问数采用了此模式

Microsoft Fabric + Copilot 也强调“基于语义模型生成洞察”

但是,这里预计算,并不是单纯的聚合数据,因为聚合后数据仍然可能超过token上限。而是利用BI平台的能力,把能计算的值计算出来。然后将汇总值给到大模型。

举例:

假设你有一张 50 万行的汇总表:日-门店-品类-销售额

用户问:“请总结 2025 年 Q4 整体销售表现,并指出异常点。”

❌ 错误做法:

把 50 万行全导出成 JSON → 超过 1M tokens → 模型拒绝或截断。

✅ 正确做法(分层处理):
  1. 第一层:全局指标(1 行

  2. {"period": "2025-Q4", "total_sales": 1.2亿, "yoy": "+8.3%", "mom": "-2.1%"}
  3. 第二层:关键维度 Top/Bottom(各取 10 行)

    • 销售额 Top 10 门店
    • 同比下滑最严重的 10 个品类
    • 日销波动最大的 7 天(标准差最大)
  4. 第三层:异常检测结果(由 BI 引擎预计算)

    • 使用统计方法(如 Z-score、IQR)标记出 50 个异常点(如某天某店销量突降 90%)
    • 只传这 50 条异常记录
  5. 合并输入给大模型

    • 总体趋势(1 行)
    • 关键亮点/风险(Top/Bottom 各 10 行)
    • 异常明细(50 行) → 总共约 70 行结构化数据,token 消耗 < 2000
  6. 大模型输出

    “Q4 整体同比增长 8.3%,但环比略有下滑……华东区 A 类门店表现突出,而饮料品类在 12 月第 2 周出现集中性下滑,可能与供应链中断有关…

技术方案说明:

大模型目前在数据分析方面还是限制比较多,所以主要依托的还是平台原有的能力,并且大模型的引入,还需要将原来的平台功能,与分析方法有机结合在一起,能够智能生成分析步骤,执行并获取的结果,然后才是利用大模型进行分析

整体的流程:

能力 说明 示例
意图识别 判断是“总结”、“对比”、“归因”还是“预警” “为什么下降?” → 归因
实体抽取 识别时间、维度、指标、过滤条件 “华东区 Q4 利润率” → region=华东, period=Q4, metric=利润率
分析模式匹配 将问题映射到预设的分析范式 “表现如何?” → 趋势 + 极值 + 异常
查询规划 决定需要哪些聚合、是否需多步计算 归因需先算贡献度,再排序

BI平台为实现该能力,需要具备的内嵌的分析知识:

模式 适用问题 计算逻辑
趋势分析 “最近怎么样?” 移动平均、环比、同比、斜率
排名分析 “谁最好/最差?” Top N / Bottom N + 占比
对比分析 “A 和 B 有什么不同?” 差异值、百分比变化、贡献度分解
归因分析 “为什么下降?” 指标拆解(如 GMV = UV × 转化率 × 客单价),Shapley 值,或维度贡献排序
异常检测 “有没有异常?” Z-score > 3、同比偏离 > 50%、残差分析
预测推演 “接下来会怎样?” 简单线性外推、季节性调整(可选)

技术实现建议:

组件 推荐方案
语义层 自研元数据服务 / Looker / Power BI Semantic Model
NL2Query 引擎 Vanna.ai(开源)、LangChain SQL Agent、或自研规则+微调小模型
分析方法论引擎 用 Python/Java 实现“分析模式调度器”,支持插件化扩展
执行引擎 直连数据仓库(ClickHouse/Doris/BigQuery),避免导出
缓存优化 对高频查询结果缓存(如“昨日销售”),提升响应速度

行业实践参考:

厂商 能力 说明
ThoughtSpot Sage 内置 20+ 分析模式,支持自动归因、异常检测 用户问“why down?” 自动触发根因分析
Microsoft Copilot for Power BI 基于 semantic model 动态生成 DAX 查询 支持“show me by region”等自由切换
阿里 Quick BI 智能问数 结合指标中心 + 分析模板 + 通义千问 支持中文复杂问法,自动选择图表和计算
Tableau Ask Data 基础 NL2Viz,但分析深度有限 更适合简单查询,复杂归因需增强

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐