清华LimiX大模型：零训练实现表格数据智能处理，小白也能轻松掌握的结构化数据建模神器！

清华LimiX大模型创新性地将表格数据建模统一为"条件查询"范式，通过上下文条件预训练(CCAM)实现零训练适配新数据。基于层级结构因果模型生成预训练数据，采用双轴Transformer架构捕捉行列依赖。实验显示，在KDD数据集上，LightGBM得分为0.73，LimiX无微调达0.7，性能优异。模型支持分类、回归、缺失值补全等多种任务，为结构化数据建模提供了新思路。

猿类崛起@

3015人浏览 · 2025-09-16 15:33:26

猿类崛起@ · 2025-09-16 15:33:26 发布

简介

前段时间清华大学发布了首个针对结构化数据的大模型，可在无训练的情况下对新数据进行推理，任务范围涵盖分类，回归，缺失值补全等，还是挺有意思的，所以浅读了一下，笔者也去尝试了一下在公开的kdd数据集上lgb auc 0.73，LimiX在无微调且无检索的推理方式下可达0.7，感觉已经很不错了。

一、创新点

传统表格模型的痛点：要么是LightGBM、XGBoost这类需要“逐数据集重训”的树模型，要么是TabPFN等仅支持小数据分类的基础模型，没有“一个任务一套方案”的框架。LimiX核心创新：

统一任务范式：所有任务都是“条件查询”
不再为分类、回归单独设计网络，而是将表格数据视为“变量（特征+标签）与缺失值的联合分布”。无论是预测标签（分类/回归）、补全缺失值，还是生成新数据，本质都是“基于已知信息查询未知变量”——比如分类是“查询标签变量的离散分布”，补全是“查询缺失单元格的数值分布”，生成则是“查询全量变量的联合分布”，这一设计让模型无需任务专属架构即可覆盖多场景需求。
上下文条件预训练：零训练适配新数据
提出上下文条件掩码建模（CCMM） ，预训练时将每个数据集拆分为“上下文子集”和“查询子集”：用上下文子集学习数据集专属先验（如类别频率、特征尺度、跨特征关联），再让模型预测查询子集中的掩码单元格。这种设计让LimiX在推理时，仅需输入少量目标数据集的“上下文样本”，就能快速适配，无需任何梯度更新或微调。与BERT式掩码建模不同，CCMM将上下文视为“非参数记忆”，能更好处理稀有类别和分布偏移，契合表格数据的异质性特点。
因果感知的数据生成：覆盖真实场景多样性
预训练数据并非简单随机生成，而是基于层级结构因果模型（SCM） 构建：先生成描述变量因果关系的有向无环图（DAG），再通过“图感知采样”（遵循因果结构，避免破坏变量依赖）和“可解性感知采样”（按高/中/低可解性分类采样，匹配下游任务数据量差异）生成数据。这种方式确保模型学到的是变量间的稳定因果关系，而非表面关联，提升泛化能力。

二、结构

表格数据的“行（样本）”和“列（特征）”维度依赖同等重要，传统Transformer难以同时捕捉，LimiX的架构对此做了针对性优化：

表格嵌入层：保留多类型数据信息

对于输入的2D表格数据（为特征矩阵，为标签向量，上标R表示原始输入），首先将每个单元格（第i个样本第j个特征）通过两层带LayerNorm的MLP投影到高维嵌入空间，公式如下：

其中，LN为LayerNorm，σ为GELU激活函数，确保数值稳定性和表达能力。同时为特征（x）和标签（y）设计独立嵌入模块，避免类别信息与数值信息相互干扰——最终特征矩阵变为，d为特征个数，p为emb维度；标签向量变为，所有注意力操作均在该 latent 空间进行。

判别语义编码（DSE）：明确列身份

传统Transformer的注意力得分仅依赖单元格嵌入，无法区分“不同列的语义”（如将“年龄”和“收入”列混淆）。LimiX引入低秩列标识符DSE，核心是“高判别性+低参数”：

初始化低秩矩阵（s为DSE秩，默认，远小于嵌入维度p），每行对应第j列的低维编码，初始化时保证近似正交且归一化，确保列间区分度；
通过线性变换将低维编码映射到嵌入空间，得到列j的DSE：；
单元格嵌入与列DSE相加，得到最终嵌入：，类似“特征轴的绝对位置编码”，让模型明确列身份，同时不增加过多参数。

双轴Transformer块：捕捉行列依赖

如图1所示，LimiX由12个transformer块组成。每个块沿着特征轴执行两次轴向自注意力，沿着样本轴执行一次自注意力，每个注意力层后面都有一个位置前馈网络（FFN）。采用这种具有两个特征级通道和一个样本级通道的不对称设计，因为消融表明，使用相等的数量会低估特征的相互作用，而沿着特征轴加倍关注可以提高异构模式的建模能力。

三、预训练

预训练的核心目标是让模型“通过补全任意掩码，掌握变量的联合分布”，具体分三步：

（1）掩码模式设计：覆盖多场景缺失

为模拟真实表格数据的“孤立缺失”“整列缺失”“语义块缺失”，设计异质掩码策略，混合三种掩码类型：

单元格级掩码：随机掩码单个单元格，训练模型补全孤立值，提升局部条件预测精度；
列级掩码：掩码整列特征，强制模型从其他列推断该特征，模拟“特征完全缺失”场景；
块级掩码：掩码语义相关的特征组，训练模型捕捉高阶依赖。
掩码率按特征类型调整：类别特征掩码率较低（避免稀有类别样本过少），数值特征掩码率较高（抵抗高方差干扰），整体控制在 [0.1, 0.4] 区间，同时排除“掩码过多导致上下文无效”的退化模式。

（2）掩码嵌入：对齐预训练与真实缺失

为让模型明确“哪些位置需要预测”，并对齐合成掩码与真实缺失值的分布，引入可学习掩码嵌入：

对每个掩码单元格，用“可学习掩码向量+列DSE”替换其原始嵌入，让编码器同时感知“缺失位置”和“缺失列的语义”；
引入“掩码密度特征”：计算数据集中的掩码比例（ scalar 值），通过小MLP编码为“统计token”，与数据token一起参与注意力。这一设计能让模型适应不同掩码率的数据集，减少“预训练用高掩码率、推理用低掩码率”的分布差异。

（3）上下文条件训练：episode式学习

每个预训练 episode 按以下流程进行：

对单个数据集，随机拆分为“上下文子集”（）和“查询子集”（）；
模型编码上下文子集，学习数据集专属先验（如类别分布、特征均值）；
对查询子集施加掩码，让模型基于“上下文信息+查询子集的未掩码部分”，预测掩码单元格的值；
损失函数为“掩码单元格的负对数似然”，强制模型从上下文推断查询子集的分布。

这种训练方式让模型学会“用少量上下文适配新数据”，为推理时的“零训练适配”奠定基础。

四、预训练数据生成

预训练数据质量直接影响模型泛化能力，LimiX通过“DAG生成→数据采样→任务适配”三步生成多样化数据：

（1）基于层级SCM的DAG生成

以结构因果模型（SCM）为理论基础，先生成描述变量因果关系的DAG，流程如下：

初始构建单个“局部因果结构（LCS）”：每个LCS包含多个节点（变量），节点间的因果关系由“边函数”定义；
逐步合并LCS：新加入的LCS可连接到已有LCS的父节点，形成更复杂的DAG，最终所有入度为0的节点作为“根节点”；
边函数与聚合函数：边函数支持MLP（引入非线性依赖）、卷积层（样本维度局部混合）、决策树（引入规则依赖）三种类型；子节点数据通过聚合函数（简单平均/加权平均/MLP聚合）从父节点计算得到，公式为（为边函数，为父节点集合，为观测噪声）。

（2）数据采样：图感知与可解性感知

图感知采样：不同于随机采样，采样时确保“子节点样本依赖父节点样本”，遵循DAG的因果结构，避免破坏变量间的真实依赖；
可解性感知采样：将采样问题分为“高可解性”（特征与标签关联强）、“中可解性”（关联中等）、“低可解性”（关联弱）三类，按高斯分布采样各类比例，确保模型能处理不同难度的下游任务。

（3）任务适配：分类与回归数据处理

分类任务：将原始连续标签y离散化为类别变量；
回归任务：若y为离散变量则丢弃，若y为连续但聚类明显，则做“有序变换”使其分布更均匀，适配回归任务需求。

五、推理：注意力引导的检索与集成

为进一步提升精度，LimiX在推理时加入“轻量集成”和“样本-特征检索”，无需额外训练：

（1）多pipeline集成

对分类任务运行4个推理pipeline，回归任务运行8个，每个pipeline做以下增强：

随机打乱特征列顺序，重排类别特征/标签的编码；
对数值特征做 schema 保持变换（分位数归一化、对数正态变换等）；
最终通过“投票（分类）”或“平均（回归）”聚合各pipeline结果。

（2）注意力检索

分两次前向传播，利用模型自身注意力得分筛选“关键样本”和“关键特征”：

第一次传播（检索阶段）：

计算“特征级注意力得分”：衡量标签与“特征+标签”（）的关联度，筛选对预测重要的特征；
计算“样本级交叉注意力得分”：衡量测试样本（）与上下文样本（）的相似度，筛选相似样本；
计算加权得分：按特征重要性加权样本相似度，选择得分最高的上下文样本作为“定制化上下文”；

第二次传播（预测阶段）：用“定制化上下文+测试样本”做最终预测，减少噪声干扰。

六、实验结果

1. 分类任务

2. 回归任务

七、AI大模型学习路线

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla