人工智能(Artificial intelligence, AI)和深度学习(Deep learning, DL)在机械设备状态监测、强弱电设备管理、化工过程控制等研究领域中都取得了突破,并逐渐赋能融入到工业应用中。虽然 AI算法在各种模型设计等方面研究迅速,但由于算法缺乏可解释性,智能诊断模型在风险敏感工业领域中的实际应用常受到研究人员与运维人员的质疑。因此,AI 模型的弱解释性已经成为制约智能诊断模型工业应用的瓶颈之一。可解释性对智能诊断模型的使用和设计都具有重要意义。可解释 AI(XAI)研究是当前 AI领域的重要议题。

问题的背景

当前 AI 模型难解释的原因之一是在于人很难理解非线性高维空间中的映射关系。一些低维空间中的朴素直觉难以适用于高维空间,因此归因解释XAI 技术的主要任务在于将这种非线性高维关系简并为线性低维关系。对于工业智能诊断而言,非线性高维问题更加突出,监测数据具有多尺度、跨尺度特性,对同台设备可能同时存在高频快变与低频缓变两种响应频率差异跨度大的监测信号。

另一个影响归因解释XAI技术在工业智能诊断中应用的因素是复杂机械系统的知识表征精度低。专家知识大多只能定性地判断机械系统的状态。由于工业智能诊断大多面向的是运行中无法进行拆解检查的复杂设备,间接测量已经成为当前的主流测量技术,这导致数据驱动的智能模型难以描述机械设备内部的健康状态;而基于物理建模、信号分析等的知识模型虽然能捕捉复杂系统的主要演化规律,但在定量分析上存在短板。由于 XAI 技术依赖外部知识源评估 AI 模型的可解释性,这促使了归因解释技术倾向于利用简单的、抽象的知识源来反馈可解释性。

方法的概述

(一)基于注意力机制的归因解释

人类视觉系统在观察外界信息时,会自动聚焦于感兴趣区域并抑制不相关的信息。基于深度学习的注意力机制类似于人类视觉系统,可以从输入信息中筛选出利于模型预测的特征并赋予其更高的权重。基于注意力机制的事后可解释方法通过可视化注意力权重解释信号特征对模型决策的贡献。具体来讲,在深度网络中融入注意力机制,在训练过程中通过反向传播算法优化网络,注意力权重会自适应为输入信号的特征分配权重。注意力权重越高,图 2 展示了一种通用的注意力架构,其中键矩阵 K 是网络提取的信号特征表示,查询向量 q 是与模型任务相关的向量或矩阵。

在这里插入图片描述

值矩阵 V 是信号特征的另一种表示,其元素与键矩阵一一对应。得分函数 是计算注意力得分 S 的关键方式,决定了注意力的优化方向。注意力权重 A 可以通过分布函数获得,即A = h(S),其中最常用的分布函数是 SoftMax 函数。将注意力权重与值矩阵进行相乘并求和即可获得加权后的特征表示。

基于注意力机制的事后可解释方法是简单易懂的,只需将学习到的注意力权重映射到信号生成热图即可为决策者提供可解释性。除此之外,注意力机制增强关键特征并抑制冗余特征的特性使其可以在不增加网络参数的情况下显著提升模型的预测表现。同时需要指出的是,注意力权重是否可解释仍然存在争论,高权重是否就代表模型对相应特征关注度高需要结合具体对象和问题进行讨论,这仍然需要进一步研究。

(二)基于显著性分析的归因解释

显著性映射又称为显著性区域检测,是近年来计算机视觉与图像处理领域中的研究热点之一,其主要目的是让计算机如同人眼一样迅速判断图像中的显著性区域。显著性映射类方法是智能诊断领域中应用的最多的一种事后可解释方法。在智能诊断领域中,检测智能网络输入信号中的显著性区域意味着观察定位出作为判断故障是否存在的故障特征区,故也可称为故障区域定位。故障区域定位的事后可解释方法依赖于输入信号是否已经存在较为明显的故障特征区,如时域冲击、频域特征谱线与时频图特征区域等。因此,其输入往往是时域冲击信号、频谱图与短时傅里叶变换(STFT)图。这类方法中最为常用的为类激活映射(CAM)方法与逐层相关传播(LRP)方法

CAM 可以完美的结合到 CNN 中,因此其是智能诊断领域中常用的一种事后可解释方法。如图 3所示

在这里插入图片描述

CAM 可以通过卷积层激活映射的线性加权组合,给单个输入提供热力图可视化的解释。其可以表示为:在这里插入图片描述

激活图权重可以表示为:在这里插入图片描述

虽然 CAM 方法有以上的应用,但 CAM 对卷积体系结构是非常敏感的,需要一个全局池化层来跟随感兴趣的卷积层。Grad-CAM 及其变体则可以完美解决这个问题,其用类置信度关于激活图的梯度作为激活图权重:在这里插入图片描述

LRP 从模型输出开始反向传播到模型输入,用于探讨初始像素级输入特征对最终预测结果的影响,由初始像素级输入特征与预测结果的相关性来表征。一个神经网络可以表示为:
在这里插入图片描述

如图 4 右侧部分所示,对于 LRP 来说,第一层是输出,最后一层是输入。
在这里插入图片描述

因此,每一层各个维度(某个维度就是某个神经元)的相关性之和守恒,可以表示为:在这里插入图片描述

LRP 传播机制如图5所示:在这里插入图片描述

图中两个式子定义为:在这里插入图片描述

CAM 与 LRP 目标均为获取网络所关注的显著性区域并可视化出来,供人类专家理解与解释网络决策过程。这类方法思路简单,易于扩展到现有神经网络模型中,结果直观也容易理解,实现事后可解释,并在某些输入图像中可以直接实现故障定位。

(三)基于规则提取的归因解释

数据驱动的智能模型(如深度神经网络)在工业故障诊断中能够取得高精度和良好性能,然而,其复杂的内部结构难以解释。为了使工业系统使用者理解和信任“黑箱”模型,基于规则提取的模型可解释方法旨在以符号化语言揭示模型中的隐含知识,并解释智能网络模型做出决策的具体过程。具体而言,它以已训练的复杂模型为基础,生成可解释的符号描述或具有可解释结构的简单模型(如决策树),使其具有与原始模型相近的决策性能,同时易于使用者理解。

决策树规则:在机器学习和数据挖掘中,树结构被广泛运用于分类和回归问题。决策树采用“白盒”系统,其结构自然具备可解释性。因此,可利用决策树规则提取模型中的隐含知识。一个简单的决策树规则示例如图 6 所示

在这里插入图片描述

其表示基于方均根值(Root mean square,RMS)和频谱特征将转子状态划分为三类的决策过程。利用符号化规则解释智能模型的关键在于从已训练的网络中提取规则。目前,运用于工业智能故障诊断系统的规则提取方法尚未取得广泛研究。根据所提取规则是否涉及到具体神经元,可将规则提取方法划分为结构性规则提取和功能性规则提取。

结构性规则提取关注训练后神经网络的具体结构,将整个神经网络分解为若干神经层,并提取各层神经元和其后一层神经元映射间的符号化规则描述。最后,对各层间所提取的规则进行整合,用于表示整个神经网络的综合运算逻辑。结构性规则提取的整体流程如图 7 所示。

在这里插入图片描述

其中,深色的神经元和权重连接表示其处于激活状态。输入层到隐藏层以及隐藏层到输出层的规则集合可从激活的神经元和权重连接中提取,融合两个规则集合表示整体网络。

(四)基于代理模型的归因解释

为了将深度 AI 模型中的非线性高维特征空间简并到线性低维空间中进行理解,代理模型提出了一种逼近的观点。神经网络得益于其万能近似能力,理论上能以任意精度逼近两个空间上的函数或算子,代理模型则利用白箱模型(如线性模型、决策树浅层模型)再次逼近神经网络的函数关系,实现对原函数关系的近似的全局近似或局部近似,逻辑关系如图 8 所示。

在这里插入图片描述

基于这种“代理模型近似黑箱模型,黑箱模型近似真实函数”的逼近观点,代理模型可以充分利用现有的可解释机器学习模型,实现对黑箱模型中特征的归因分析。代理模型的优势是能充分利用现有浅层模型的可解释性,但在处理高维输入或高维特征量方面存在显著短板。对于 LIME 方法,其局部解释能力需要构建单个样本的邻域分布,但构建这种“伪样本”对于高维数据来说是困难的。

实验验证

本文通过一个基于注意力可视化的案例展示深度模型的决策逻辑。案例使用的试验数据来源于凯斯西储大学轴承数据中心。试验台采集的振动信号数据包括四种状态,分别是健康状态、内圈故障、滚动体故障、外圈故障。本案例选择驱动端振动传感器采集的数据,采样频率为 12 000 Hz,轴承信号为 SKF6205。为简化试验,案例仅使用电动机负荷为 0 的振动信号,转速为 1 797 r/min。

为便于对注意力的分布进行解释,案例应用包络谱作为模型的输入。对于四种状态的轴承数据,使用滑窗选取 55段信号,每段信号包含 12 000 个点,也就是 1 秒的数据。随后计算段信号的包络谱,并把 0 到 2 000 Hz的频率幅值作为样本输入到模型中进行训练,即输入维度为 1×2 000。80%的样本被用作训练集,其余样本为测试集。本案例使用的模型是 Transformer网络,前述的研究表明其内部的自注意力机制对振动信号具备良好的可解释。

如下图10为文献中对凯斯西储大学轴承数据集外圈故障时域信号使用 ResNet 模型与 Grad-CAM方法进行显著性分析的归因解释所得的热力图。由于外圈故障信号存在明显的时域冲击信号,也即时间序列信号中存在明显的与故障相关的显著性特征,因此,此种类型的信号尤其适用于显著性方法的归因解释

在这里插入图片描述

从图中可以看出,神经网络对外圈故障信号样本的激活程度权重颜色更热的部分集中在时域信号的冲击附近,说明网络的关注点在信号的冲击成分,网络也通过此冲击成分分类出外圈故障,这与人类专家关于轴承外圈故障特征的认知相符合,进一步阐述了显著性分析方法对模型分析可以得到正确的归因解释。

本文进一步分析了如何应用功能性规则提取方法,以期从已训练的神经网络中发掘可解释的故障诊断知识。数据和模型仍然选用凯斯西储大学轴承数据和上述 Transformer 网络。经模型训练后,在测试阶段可获取该模型对于 49 个正常样本、25 个内圈故障样本、25 个滚动体故障样本和 25 个外圈故障样本的诊断预测结果。经过频谱分析和归一化处理后,可获得 5 类特征属性。不考虑其余属性对故障诊

断的影响。因此,所提取的规则集如表 2 所示。

在这里插入图片描述

从表 2 可以看出,规则在一定程度上反映了外圈故障、滚动体故障和内圈故障的特征。

将 SHAP 方法应用于凯斯西储大学轴承故障诊断中,并对高维数据问题进行了两处改进。① 将时域信号转换到频域或时频域,在特征相对稀疏的频域或时频域计算 Shapely 值,并且完全可逆的变换保证了信息的完整性;② 相比于计算谱图的每条谱线的 Shapely 值,该方法将谱图进行了划分,例如将频谱图划分为等距频带或自适应频带,将该频带作为计算 Shapely 值的特征。

在这里插入图片描述

图 11 上图为神经网络输入信号,左下图是完整频域及对应 SHAP 值图,右下图是感兴趣频带及SHAP 值图。

总结与思考

本期推文以工业智能诊断中的可解释性问题为中心,从全局-局部解释、主动-被动解释出发,分析了归因解释技术在工业智能诊断中的应用前景,并对现有工作进行总结。首先讨论了工业智能诊断中XAI 技术面临的问题,概述了归因解释技术的主要观点;然后,从注意力机制、显著性分析、规则提取、代理模型四个方面分析了当前工作的主要贡献,概述了实现归因解释技术的不同方法视角,总结每个分类的优势与不足。当前工业智能诊断中的归因解释技术处于基础阶段,依然存在很多值得研究的方向,本文探讨分析了可解释性的量化评估标准、可解释性自动化反馈模型设计、模型复杂度与可解释性的平衡、工业诊断中的高维问题四个方向,是值得重视的研究领域。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐