叶梓,上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、数据治理、人工智能等方面都有着丰富的经验。


《高质量数据集与大模型应用技术》

一、高质量数据集与数字化转型

  1. 高质量数据集
    • 政策解读、定义与评估标准(准确、完整、一致、时效、可追溯)
    • 可用性与合规性(个人信息保护影响、数据出境安全、伦理)
    • 采集、整合与标注(授权链哈希+区块链时间戳;双盲+AI预标)
    • 公平性与偏见审计(Demographic Parity、Equal Opportunity)
    • 前沿趋势说明(合成、多模态、隐私保护等)
  2. 数字化转型案例分析
    • 为达成共识的第一个案例
    • 华为数字化转型历程与经验教训
      • 面临的挑战(多方服务对象、全球化运营难题等)
      • 转型路径:“3+3+5+6+7+2”模式
  3. 数字化转型的实施路径
    • 企业数字化转型的难点与应对策略
    • 业务变革趋势与背景
    • 行业数字化转型的实践(医疗领域的控费与流程优化)
    • 实践案例:某集团的数字化转型(“1+3+4+N”系统架构等)
    • 实现路径总结(摸清家底、整体规划、局部先行、渐进推广)
  4. 数据治理与管理
    • 数据治理的定义与重要性
    • 数据管理体系(DAMA、DCMM、信通院体系等)的对比与应用
    • 数据管理与数据资产的关系
    • 数据资产管理体系的构建思路
  5. AI赋能数据治理
    • 标准化对齐(消除口径差异、标准化映射、主数据匹配、数据质控)
    • 效率提升(数据清洗、数据提取、血缘发现、ETL脚本、辅助测试)
    • 智能发现与洞察(异常发现与溯源、智能去重、分级分类、自动化标注)
    • 智能交互式赋能(智能问数、可视化)

二、大模型技术与应用

  1. 大模型发展现状与技术概览
    • 国内外大模型厂商、产品及动态
    • 硬件厂商的发展(国内GPU厂商、公有云服务商等)
    • 关键技术点(适应低配条件的技术、处理复杂任务的技术)
    • 提示词工程与思维链(Chain-of-Thought)方法
    • 技术路线选择:微调、RAG、agent、MCP?
  2. 微调实践(可选)
    • Llama-factory支持的模型
    • 数据准备:Alpaca和ShareGPT格式的数据集。
    • SFT微调步骤(加载数据集、设置参数、保存模型等)。
    • 强化学习的微调步骤(PPO、DPO特定数据集、RM等)
    • 微调参数详解
  3. 基于大模型的知识库建设步骤
    • 需求分析:明确知识库的目标和应用场景。
    • 数据收集与整理:从企业文档、FAQ中提取知识。
    • 知识表示:表格知识、向量表示、树状结构、知识图谱等。
    • 知识库如何增强大模型性能。
    • 实时知识更新与模型同步。
    • 案例分析:知识库在客服场景中的应用。
  4. RAG技术概述
    • RAG(Retrieval-Augmented Generation)的定义与优势
    • 词嵌入技术基础
      • 词嵌入与语义空间
      • 向量数据库
      • 混合检索与多路召回
    • RAG技术实践
      • 基模选择(qwen、DS、GLM、书生等)
      • 数据准备技巧(OCR、理解表格、半结构化)
      • chunk技巧(摘要、重叠、长度选择、构造问题)
      • 查询扩展与改写(指代消解、HyDE)
      • 提示词优化技巧:(RTGO、Costar、CRISPE、BROKE等)
      • 多轮问答技巧(任务框架、信息提取、追问策略、可信度)
  5. 零/低代码Agent工具
    • Dify:低代码ai开发平台
    • N8n:更灵活的选择
    • Coze:大量的agent可供选择
    • MCP的介绍和演示
  6. 大模型(知识库)应用案例
    • 大模型应用落地场景(舆情分析、政策问答、辅助立法、酒店客服等)
    • 基于大模型的卫生应用(临床辅助决策、智能流调系统、中医图谱等)
    • 基于语义和空间的聚类(市民热线多诉合并)
    • 多模态大模型的发展(图像生成、视频生成等)
    • Agent技术的应用与最新发展(MCP接口等)
  7. 智能应用产品的落地
    • 核心价值(真实场景与业务闭环、有所不为才能有所为)
    • 对标与门槛(资源/行业/技术/生态/标准/成本)
    • 持续改进的动力(体验、黏性、个性化、第三方)

三、讨论(不限于以下主题)

  1. 数字化转型与大模型技术的融合趋势与发展方向
  2. 企业如何在数字化转型中应用大模型技术,提升竞争力
  3. 智能应用产品化的实现要素
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐