简介

清华LimiX大模型创新性地将表格数据建模统一为"条件查询"范式,通过上下文条件预训练(CCAM)实现零训练适配新数据。基于层级结构因果模型生成预训练数据,采用双轴Transformer架构捕捉行列依赖。实验显示,在KDD数据集上,LightGBM得分为0.73,LimiX无微调达0.7,性能优异。模型支持分类、回归、缺失值补全等多种任务,为结构化数据建模提供了新思路。


前段时间清华大学发布了首个针对结构化数据的大模型,可在无训练的情况下对新数据进行推理,任务范围涵盖分类,回归,缺失值补全等,还是挺有意思的,所以浅读了一下,笔者也去尝试了一下在公开的kdd数据集上lgb auc 0.73,LimiX在无微调且无检索的推理方式下可达0.7,感觉已经很不错了。

一、创新点

传统表格模型的痛点:要么是LightGBM、XGBoost这类需要“逐数据集重训”的树模型,要么是TabPFN等仅支持小数据分类的基础模型,没有“一个任务一套方案”的框架。LimiX核心创新:

  1. 统一任务范式:所有任务都是“条件查询”
    不再为分类、回归单独设计网络,而是将表格数据视为“变量(特征+标签)与缺失值的联合分布”。无论是预测标签(分类/回归)、补全缺失值,还是生成新数据,本质都是“基于已知信息查询未知变量”——比如分类是“查询标签变量的离散分布”,补全是“查询缺失单元格的数值分布”,生成则是“查询全量变量的联合分布”,这一设计让模型无需任务专属架构即可覆盖多场景需求。
  2. 上下文条件预训练:零训练适配新数据
    提出上下文条件掩码建模(CCMM) ,预训练时将每个数据集拆分为“上下文子集”和“查询子集”:用上下文子集学习数据集专属先验(如类别频率、特征尺度、跨特征关联),再让模型预测查询子集中的掩码单元格。这种设计让LimiX在推理时,仅需输入少量目标数据集的“上下文样本”,就能快速适配,无需任何梯度更新或微调。与BERT式掩码建模不同,CCMM将上下文视为“非参数记忆”,能更好处理稀有类别和分布偏移,契合表格数据的异质性特点。
  3. 因果感知的数据生成:覆盖真实场景多样性
    预训练数据并非简单随机生成,而是基于层级结构因果模型(SCM) 构建:先生成描述变量因果关系的有向无环图(DAG),再通过“图感知采样”(遵循因果结构,避免破坏变量依赖)和“可解性感知采样”(按高/中/低可解性分类采样,匹配下游任务数据量差异)生成数据。这种方式确保模型学到的是变量间的稳定因果关系,而非表面关联,提升泛化能力。

二、结构

表格数据的“行(样本)”和“列(特征)”维度依赖同等重要,传统Transformer难以同时捕捉,LimiX的架构对此做了针对性优化:

表格嵌入层:保留多类型数据信息

对于输入的2D表格数据 ( 为特征矩阵, 为标签向量,上标R表示原始输入),首先将每个单元格 (第i个样本第j个特征)通过两层带LayerNorm的MLP投影到高维嵌入空间 ,公式如下:

其中,LN为LayerNorm,σ为GELU激活函数,确保数值稳定性和表达能力。同时为特征(x)和标签(y)设计独立嵌入模块,避免类别信息与数值信息相互干扰——最终特征矩阵变为 ,d为特征个数,p为emb维度;标签向量变为 ,所有注意力操作均在该 latent 空间进行。

判别语义编码(DSE):明确列身份

传统Transformer的注意力得分仅依赖单元格嵌入,无法区分“不同列的语义”(如将“年龄”和“收入”列混淆)。LimiX引入低秩列标识符DSE,核心是“高判别性+低参数”:

  • 初始化低秩矩阵 (s为DSE秩,默认 ,远小于嵌入维度p),每行 对应第j列的低维编码,初始化时保证近似正交且归一化,确保列间区分度;
  • 通过线性变换 将低维编码映射到嵌入空间,得到列j的DSE:;
  • 单元格嵌入与列DSE相加,得到最终嵌入:,类似“特征轴的绝对位置编码”,让模型明确列身份,同时不增加过多参数

双轴Transformer块:捕捉行列依赖

如图1所示,LimiX由12个transformer块组成。每个块沿着特征轴执行两次轴向自注意力,沿着样本轴执行一次自注意力,每个注意力层后面都有一个位置前馈网络(FFN)。采用这种具有两个特征级通道和一个样本级通道的不对称设计,因为消融表明,使用相等的数量会低估特征的相互作用,而沿着特征轴加倍关注可以提高异构模式的建模能力。

三、 预训练

预训练的核心目标是让模型“通过补全任意掩码,掌握变量的联合分布”,具体分三步:

(1)掩码模式设计:覆盖多场景缺失

为模拟真实表格数据的“孤立缺失”“整列缺失”“语义块缺失”,设计异质掩码策略,混合三种掩码类型:

  • 单元格级掩码:随机掩码单个单元格,训练模型补全孤立值,提升局部条件预测精度;
  • 列级掩码:掩码整列特征,强制模型从其他列推断该特征,模拟“特征完全缺失”场景;
  • 块级掩码:掩码语义相关的特征组,训练模型捕捉高阶依赖。
    掩码率按特征类型调整:类别特征掩码率较低(避免稀有类别样本过少),数值特征掩码率较高(抵抗高方差干扰),整体控制在 [0.1, 0.4] 区间,同时排除“掩码过多导致上下文无效”的退化模式。
(2)掩码嵌入:对齐预训练与真实缺失

为让模型明确“哪些位置需要预测”,并对齐合成掩码与真实缺失值的分布,引入可学习掩码嵌入

  • 对每个掩码单元格,用“可学习掩码向量+列DSE”替换其原始嵌入,让编码器同时感知“缺失位置”和“缺失列的语义”;
  • 引入“掩码密度特征”:计算数据集中的掩码比例( scalar 值),通过小MLP编码为“统计token”,与数据token一起参与注意力。这一设计能让模型适应不同掩码率的数据集,减少“预训练用高掩码率、推理用低掩码率”的分布差异。
(3)上下文条件训练:episode式学习

每个预训练 episode 按以下流程进行:

  1. 对单个数据集,随机拆分为“上下文子集”()和“查询子集”();
  2. 模型编码上下文子集,学习数据集专属先验(如类别分布、特征均值);
  3. 对查询子集施加掩码,让模型基于“上下文信息+查询子集的未掩码部分”,预测掩码单元格的值;
  4. 损失函数为“掩码单元格的负对数似然”,强制模型从上下文推断查询子集的分布。

这种训练方式让模型学会“用少量上下文适配新数据”,为推理时的“零训练适配”奠定基础。

四、 预训练数据生成

预训练数据质量直接影响模型泛化能力,LimiX通过“DAG生成→数据采样→任务适配”三步生成多样化数据:

(1)基于层级SCM的DAG生成

以结构因果模型(SCM)为理论基础,先生成描述变量因果关系的DAG,流程如下:

  • 初始构建单个“局部因果结构(LCS)”:每个LCS包含多个节点(变量),节点间的因果关系由“边函数”定义;
  • 逐步合并LCS:新加入的LCS可连接到已有LCS的父节点,形成更复杂的DAG,最终所有入度为0的节点作为“根节点”;
  • 边函数与聚合函数:边函数支持MLP(引入非线性依赖)、卷积层(样本维度局部混合)、决策树(引入规则依赖)三种类型;子节点数据通过聚合函数(简单平均/加权平均/MLP聚合)从父节点计算得到,公式为 ( 为边函数, 为父节点集合, 为观测噪声)。
(2)数据采样:图感知与可解性感知
  • 图感知采样:不同于随机采样,采样时确保“子节点样本依赖父节点样本”,遵循DAG的因果结构,避免破坏变量间的真实依赖;
  • 可解性感知采样:将采样问题分为“高可解性”(特征与标签关联强)、“中可解性”(关联中等)、“低可解性”(关联弱)三类,按高斯分布采样各类比例,确保模型能处理不同难度的下游任务。
(3)任务适配:分类与回归数据处理
  • 分类任务:将原始连续标签y离散化为类别变量;
  • 回归任务:若y为离散变量则丢弃,若y为连续但聚类明显,则做“有序变换”使其分布更均匀,适配回归任务需求。

五、 推理:注意力引导的检索与集成

为进一步提升精度,LimiX在推理时加入“轻量集成”和“样本-特征检索”,无需额外训练:

(1)多pipeline集成

对分类任务运行4个推理pipeline,回归任务运行8个,每个pipeline做以下增强:

  • 随机打乱特征列顺序,重排类别特征/标签的编码;
  • 对数值特征做 schema 保持变换(分位数归一化、对数正态变换等);
  • 最终通过“投票(分类)”或“平均(回归)”聚合各pipeline结果。
(2)注意力检索

分两次前向传播,利用模型自身注意力得分筛选“关键样本”和“关键特征”:

  1. 第一次传播(检索阶段)
  • 计算“特征级注意力得分”:衡量标签 与“特征+标签”()的关联度,筛选对预测重要的特征;
  • 计算“样本级交叉注意力得分”:衡量测试样本()与上下文样本()的相似度,筛选相似样本;
  • 计算加权得分 :按特征重要性加权样本相似度,选择得分最高的上下文样本作为“定制化上下文”;
  1. 第二次传播(预测阶段):用“定制化上下文+测试样本”做最终预测,减少噪声干扰。

六、实验结果

1. 分类任务

2. 回归任务

七、AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐