在有了LLM之后,特征工程的工具、技术、工作方式,会发生哪些质的改变?

已深度思考(用时 14 秒)

好的,用户问的是有了LLM之后特征工程会发生什么质的改变。首先得想,用户可能是在做机器学习或者数据科学相关的工作,可能是工程师或者研究员。他们可能已经注意到LLM在自动化方面的能力,想知道自己的工作流程会被怎么影响,担心会不会被替代,或者想提前适应新的工具。

嗯,深层需求可能不只是了解变化,而是想如何调整自己的技能,保持竞争力。比如,他们可能想知道该学什么新工具,或者怎么把LLM整合到现有的工作里。

接下来得拆解特征工程的各个环节:特征生成、编码、选择、构建流程。然后对比传统方法和LLM带来的改变。比如以前要手动做分箱、编码,现在用自然语言描述就能生成特征,这简直是革命性的。

还要考虑用户可能没明说的点,比如特征工程的门槛降低了,但需要更多批判性思维和业务理解。毕竟工具强大了,人的重心会转移到更高层的设计上。

另外得提到工具链的变化,比如Prompt作为新工具,以及人机协作的新模式。可能用户需要学习怎么有效跟LLM交互,而不是写代码。

最后总结本质变化:从手动到自动,从代码到自然语言,从局部优化到整体语义理解。同时强调人的角色转变,从工匠到导演,这样用户能明确自己需要提升哪些能力。

说得好!这是一个非常深刻且重要的问题。大语言模型(LLM)的出现,确实正在引发特征工程领域一场“质”的革命。

传统的特征工程,可以比作一个 “工匠”或“考古学家” 的工作:我们需要从原始数据中,凭借经验、直觉和大量手动劳动,去“挖掘”和“雕刻”出对模型有用的特征。这个过程高度依赖专家的领域知识,且繁琐、耗时。

而LLM时代的特征工程,则更像是一个 “指挥官”或“催化剂” 的工作:我们通过自然语言向LLM发出指令,由它这个强大的、内化了海量世界知识的“超级大脑”来“生成”、“理解”和“推荐”特征。

以下是具体的质的改变:

1. 工作重心的转移:从“手动构建”到“语义引导”

2. 特征来源的扩展:从“结构化数据”到“非结构化数据融合”

这是最显著的质变之一。

3. 特征创造能力的跃升:从“数学组合”到“语义推理”

4. 工具与工作流的智能化

5. 对人力的要求变化:从“数据工匠”到“AI通才”

总结:质的改变

维度

传统特征工程

LLM时代的特征工程

核心活动

挖掘、雕刻、组合

引导、生成、解释

数据范围

主要为结构化数据

结构化 + 非结构化数据的深度融合

技术基础

统计学、数据库、领域知识

统计学、领域知识 + 提示工程、语义理解

产出特征

显式的、数学化的

显式 + 隐式的、语义化的(Embedding

人力角色

数据工匠

AI指挥官、语义架构师

自动化程度

低至中(依赖脚本和工具)

高(由LLM驱动智能自动化)

结论:

LLM并没有让特征工程变得过时,而是将其提升到了一个更高的抽象层级。它解放了数据科学家,让他们从繁琐、重复的手工劳动中解脱出来,专注于更高价值的任务:定义问题、设计语义框架、评估结果和解决复杂的业务问题。

特征工程的未来,将是人类智能与LLM的生成能力的深度协作。

来自 <https://chat.deepseek.com/a/chat/s/ce711097-33a9-4f8d-9664-690b6278df7a>

  • 传统数据科学家需要精通SQL、Pandas、Sklearn,对数据分布和业务有深刻理解。
  • LLM时代的数据科学家依然需要这些核心技能,但增加了新的要求:
  • 提示工程:能够与LLM高效、准确地沟通。
  • 语义理解:更侧重于从业务和语义层面定义问题,而不是陷入编码实现的细节。
  • 评估与批判性思维:LLM生成的特征并非总是完美或正确的。数据科学家需要有能力评估这些特征的合理性、有效性,并防范其可能带来的偏见或幻觉。
  • 系统集成:懂得如何将LLM作为管道中的一个组件,与现有的MLOps工作流集成。
  • 自动化特征工程:传统的自动化工具(如FeatureTools)基于预定义的聚合函数。而新一代的AI驱动工具将集成LLM,能够理解数据语义,自动推荐和生成更相关的特征。
  • 智能数据标注与增强:对于小样本学习,LLM可以生成高质量的合成数据或特征,通过数据增强来提升模型性能。
  • 特征文档化与管理:LLM可以自动为生成的特征编写文档,描述其来源、计算逻辑和业务含义,极大改善了特征仓库(Feature Store)的可维护性和可解释性。
  • 传统方式:特征创造依赖于特征的数学组合(如加减乘除)或统计聚合,缺乏深层次的语义联系。
  • LLM时代:LLM可以进行常识推理和逻辑判断,创造出人类可能想不到的、具有深层语义关联的特征。
  • 例子:在金融风控中,传统方法可能会计算“交易金额与历史平均值的比率”。而LLM可以结合交易描述、商户类型和用户画像,生成诸如“此交易与用户常规消费模式的一致性分数”或“交易描述中存在欺诈风险的语义线索”等更抽象、更强大的特征。
  • 传统方式:特征工程主要围绕结构化的表格数据(数值、类别)进行。对于文本、图像、音频等非结构化数据,需要复杂的预处理(如TF-IDF、Word2Vec、图像特征提取),这个过程会损失大量语义信息。
  • LLM时代:LLM本身就是理解和生成自然语言的专家。现在,你可以轻松地将任何非结构化数据转化为高质量的特征:
  • 文本数据:产品评论、客服对话、新闻稿、简历等,可以直接通过LLM提取情感、主题、意图、实体、摘要等,并直接作为特征向量(Embedding)输入下游模型。
  • 跨模态理解:你可以让LLM分析一张图片的描述,然后基于描述生成特征(如“图片中有户外运动装备,可能代表用户热爱运动”)。虽然LLM本身不看像素,但它能理解与之关联的文本,实现语义层面的特征桥接。
  • 传统方式:精力花在数据清洗、分箱、交叉、多项式展开、计数统计等具体操作上。例如,从“用户注册日期”手动计算“用户龄期”,从“购买记录”手动统计“最近30天购买次数”。
  • LLM时代:精力花在如何用精确的提示词(Prompt) 向LLM描述业务问题、数据背景和期望的特征。例如,你可以对LLM说:“请根据这份用户交易记录和商品描述,生成10个能够预测用户流失率的特征,并解释每个特征的业务含义。” LLM不仅能生成特征,还能提供解释。
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐