过去两年,AI 大模型的发展速度超乎所有人想象。国外有 ChatGPT 能写方案、写代码;Midjourney 能画海报、画概念车;Gemini 能看图说话;Sora 能把一句文字变成一段视频。

国内大模型 DeepSeek 的爆发,让很多人第一次意识到:

“原来国产模型也能做到这么强。”

它不仅能写代码、分析数据,还能对复杂问题进行推理,甚至被许多工程师用来辅助科研、写脚本、调算法。

通用大模型发展得热火朝天,但工程软件领域却显得格外安静,我们不仅会问:

既然 AI 能理解文字、图像、视频、代码,
CAD 3D 模型 能不能也被 AI 理解?

01. 图像是“像素”,但 3D 模型是“结构”

图像是什么?本质是一块“2D 像素矩阵”。一张 1080p 图片,就是 1920×1080 的像素点,每个点的颜色可以用四个数字(ARGB)进行表示。AI 看图,就是在分析这些点的模式。

但 CAD 模型呢?

一个小小的机械零件,可能包含:

  • 数百个面

  • 数千条边

  • 上万个顶点

  • 多层嵌套特征

  • 参数化特征树(圆角、倒角、孔、壳化、扫掠、拉伸…)

  • 精确的 NURBS 曲面

  • BREP 拓扑关系(Vertex–Edge–Face–Shell–Solid)

这不是点阵结构,这是一个 数学+拓扑+语义 组成的“多维对象”。

如果把图像比作一本涂色书,那么 CAD 模型就是一本工程教材:

图像是“看着像什么”,
CAD 是“结构是什么、关系是什么、尺寸是什么、约束是什么”。

02. 图像是模糊的,而 CAD 是严谨的

图像允许误差 —— 一只猫是圆一点还是长一点,AI 还能认。
但 CAD 模型不行。

小到 0.1mm 的尺寸差,就可能是完全不同的零件。

例如一个 10mm 孔和一个 12mm 孔:
在图像里几乎一样,在 CAD 里是两个完全不同的对象。

图像识别追求“差不多”;
工程制造追求“绝对精确”。

03. 图像有标准格式,但 3D 模型格式是混乱的

图像:JPEG、PNG、BMP —— 全世界都一样。

CAD 模型呢?

  • SolidWorks → SLDPRT

  • CATIA → CATPart

  • NX → PRT

  • Creo → PRT

  • Inventor → IPT

  • 还有 STEP、Parasolid、IGES、JT、USD、FBX…

每家 CAD 软件的 BREP、特征结构、拓扑表达方式都不一样。
这让 AI 处理难度成倍提升,你必须先统一成一种“可读结构”,才能进一步训练。

04. 图像只有“外形”,但 CAD 有“设计意图”

图像是结果,而 CAD 是过程。

工程师建模时留下了大量“设计意图”:

  • 为什么这里倒角 2mm?

  • 为什么这个加强筋要选 3°拔模?

  • 为什么这个孔选择沉头而不是沉孔?

  • 这个圆角是因为力学要求还是可制造性要求?

这些信息藏在:

  • 特征树

  • 约束关系

  • 拓扑逻辑

  • 参数化规则

  • 工艺意图

  • 加工约束

05. 图像是连续的,但 CAD 是离散的、层级化的

图像信息连续,有“局部一致性”。
CNN、Transformer 都非常擅长从连续空间提取模式。

但 CAD 是离散的:

  • 点之间没有连续关系

  • 面之间可能完全不相邻

  • 模型结构像一棵树,而不是一块平面

  • 特征可能跨越多个面

  • 一个倒角会改变整个拓扑结构

这意味着:

图像任务适合深度学习,
CAD 任务更像是“图结构 + 数学表达式 + 拓扑推理”。

06. 图像数据巨大而统一,CAD 数据稀缺且高度专业

AI 革命是建立在海量图像数据上:

  • ImageNet 1400 万张

  • COCO 数据集几十万

  • 各种爬虫抓图几千万

但 CAD 模型呢?

  • 没公开大数据集

  • 企业的内部模型不能外传

  • 不同行业的模型差别巨大

  • 零件分类严重依赖专业知识

  • 标签极其昂贵(你得找工程师标)

这导致大模型即使想训练,也 没数据可用

所以,总结一下:为什么图像 AI 很容易,而 CAD AI 很困难?

  • 图像是像素,CAD 是结构(拓扑+数学);

  • 图像允许误差,CAD 必须精确;

  • 图像格式统一,CAD 格式混乱复杂;

  • 图像无语义,CAD 有设计意图;

  • 图像连续,CAD 离散且层次化;

  • 图像有大数据,CAD 没数据。

那么:有没有办法让 AI 真正读懂 CAD?

  • 用CAD文件格式解析器统一解析结构;

  • 用图神经网络(GNN)处理拓扑关系;

  • 用 BREP 特征做编码;

  • 用向量化做模型相似度检索;

  • 用小模型替代大模型,针对行业场景训练;

  • 用参数化语义约束进行微调。

工程领域的数字对象,与大模型当前擅长的“自然数据”完全不同。

CAD 不是像素,不是音频波形,也不是语言序列。
它是几何约束、拓扑图、参数语义和数学表达式的组合体。

这意味着,如果 AI 想理解 CAD,它必须走一条完全不同的路线:
结构化、图网络、几何编码、参数语义化。

这条路线还在早期,但已经能看到成果:
一些团队正在用更贴近工程语义的方式,让 AI 不再只是“看图”,而是真正“理解结构”。

而 CAD AI 的未来,到底会走向哪里?下一篇再聊。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐