谈谈对AI的了解
AI技术正经历从机器学习到深度学习的范式转变,其核心是数据驱动的自主学习能力。Transformer架构和大模型的出现推动了AI进入"通用智能"阶段,通过海量数据预训练获得复杂任务处理能力。AIGC和智能体成为主要应用方向,前者实现内容生成,后者具备自主决策能力。当前AI已应用于客服、金融、医疗等领域,但面临计算成本高、数据安全等挑战。未来AI将向多模态、轻量化发展,并成为人机
当前AI发展的核心引擎是深度学习,它通过构建多层神经网络来模拟人脑的神经元连接,从而能够从海量数据中自动学习复杂的特征和模式,摆脱了传统机器学习对人工特征工程的依赖。而近年来,以大模型为代表的基础模型的出现,标志着AI进入了一个新的范式:通过在海量无标注数据上进行预训练,获得强大的通用任务处理能力,再通过提示工程或微调等轻量级方式,快速适配到下游具体任务,实现了从“手工作坊”到“工业化流水线”的飞跃。
我对AI的理解是,它本质上是一套通过数据驱动来自主学习和解决复杂任务的技术体系。
一、AI 的技术根基:从机器学习到深度学习
AI 的底层技术发展经历了从 “规则驱动” 到 “数据驱动” 的转变。
机器学习是 AI 的核心实现手段,它让机器从数据中学习规律,而非依赖人工编写的固定规则。按学习方式可分为监督学习(如分类、回归)、无监督学习(如聚类、降维)、强化学习(如游戏 AI 通过试错优化策略)。传统机器学习在结构化数据(如表格数据)上表现出色,但处理图像、文本等非结构化数据时能力有限。
深度学习是机器学习的重要分支,基于深层神经网络,依赖神经网络的多层结构自动提取数据的高维特征,解决了传统ML在图像、语音等非结构化数据上的瓶颈。例如,CNN(卷积神经网络)通过卷积核捕捉图像的局部特征(如边缘、纹理),彻底改变了计算机视觉;RNN(循环神经网络)则通过时序依赖处理文本、语音等序列数据。
二、关键技术突破:从 Transformer 到大模型
近年来 AI 的爆发,很大程度上依赖于Transformer架构和大模型的出现。
Transformer(2017 年由 Google 提出)是革命性的序列建模架构,核心是 “自注意力机制”—— 能让模型在处理数据时动态关注输入序列中不同位置的关联(比如理解句子中 “它” 指代前文的哪个词)。相比 RNN,它能更好地捕捉长距离依赖,且支持并行计算,为大规模训练奠定了基础。如今几乎所有主流大模型(如 GPT、BERT、LLaMA)都基于 Transformer 构建。
大模型(Foundation Model)是 AI 进入 “通用智能” 阶段的标志:通过在海量多模态数据(文本、图像、视频等)上预训练,得到一个参数规模巨大(从亿级到万亿级)的基础模型,再通过微调适配具体任务。它的核心能力是 “涌现性”—— 当参数和数据达到一定规模后,会自发具备推理、逻辑、创造等复杂能力(如 GPT-4 能写代码、做数学题、生成多模态内容)。
向量(Embedding) 是大模型理解世界的 “语言”:文本、图像、音频等不同模态的数据,会被转化为高维向量(如 768 维、1024 维),向量的距离(如余弦相似度)代表语义的相似性。例如,“猫” 和 “狗” 的向量距离比 “猫” 和 “汽车” 更近,这是大模型实现语义检索、跨模态理解的基础。
向量数据库是专门用于高效存储和检索这些向量的数据库,它是实现RAG等技术的基础设施,能快速从海量数据中找到与问题最相关的信息。
RAG技术是指通过从外部知识库中检索相关信息,并将其作为提示输入给大型语言模型,以增强模型处理知识密集型任务的能力。
三、AI 的核心应用:从 AIGC 到智能体
技术的进步推动了 AI 应用的爆发,其中AIGC和Agent(智能体) 是当前最受关注的方向。
AIGC(生成式 AI) 是指利用AI生成数字内容,如文本、图像、代码、音频等。打破了 “AI 只能分析不能创造” 的边界。按模态可分为文本生成(如 ChatGPT 写文案)、图像生成(如 Midjourney 画插画)、视频生成(如 Runway 合成视频)、代码生成(如 GitHub Copilot 辅助编程)等。其核心是通过大模型的 “生成能力”(如 GPT 的自回归生成、扩散模型的逐步去噪)实现从 “输入指令” 到 “输出内容” 的映射。
Agent(智能体) 是 AI 向 “自主决策” 进化的关键:它能基于目标,自主规划步骤、调用工具(如搜索、计算、API)、持续与环境交互,完成复杂任务。例如,AutoGPT 可以根据 “写一篇行业报告” 的目标,自动拆分任务(确定主题→搜索数据→分析趋势→生成报告),并自主修正过程中的错误。
Agent(智能体)=LLM(大模型)+ Planning(规划)+Memory(记忆)+ Tools(工具)
记忆(Memory)
短期记忆:执行任务过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空。
长期记忆:长时间保留的信息,一般是指外部知识库。规划(Planning)
智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。
简单来说,就是我们上面提到的写作流程,收集、写大纲,写章节等等,俗称工作流。工具(Tools)
为智能体配备工具 API,比如:计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具 API,智能体就可以和物理世界交互,解决实际的问题。
Prompt(提示词) 是人与大模型交互的核心接口:通过精准设计 Prompt(如 “用武侠风格总结这篇文章”),可以引导大模型输出符合需求的结果。Prompt 工程的本质是 “用自然语言给模型设定任务边界”,甚至能让大模型在零样本 / 少样本情况下完成复杂任务(如 “先分析问题,再分步骤解答”)。
四、AI的应用场景与未来挑战
当前落地场景:
-
智能客服:结合RAG和Agent,实现精准问答和业务办理。
-
内容创作:AIGC用于辅助写作、设计、营销文案生成。
-
金融风控:大模型分析多维度数据,预测信贷风险或市场波动。
-
教育医疗:提供个性化学习路径、辅助医疗影像分析。
趋势与挑战:
未来趋势:模型继续向多模态(文本、图像、视频统一理解)发展;AI Agent 将成为下一代人机交互入口;轻量化和成本优化是技术普及的关键。
核心挑战:包括计算资源昂贵、数据隐私与安全、模型的可解释性差(“黑盒”问题)以及技术伦理(如消除歧视)。
总而言之,我的理解是,AI正从一个纯粹的模式识别工具,演进为能够与环境交互并解决实际问题的通用性平台。作为一名开发者,我们不仅要理解其底层原理(如神经网络、大模型),更要掌握如何将它们工程化、产品化(通过Agent、RAG等架构),最终创造出能真正理解用户意图、提供智能服务的应用,这才是AI技术的最大价值所在。
以下内容摘选自b站漫士沉思录:90分钟!清华博士带你一口气搞懂人工智能和神经网络
内容笔记出自评论区:人工智能科普.mp4_笔记
人工智能的起源与发展历程
1956年的一场达特茅斯会议,由数学系教授麦卡锡、哈佛大学研究员明斯基等科学界大佬参与,开启了人工智能的研究。这场会议虽然规模不大,却深刻改变了未来世界的样貌,孕育了如阿尔法狗、GPT等前沿技术。人工智能领域在2018年获得图灵奖后,又在近期荣获诺贝尔物理奖和化学奖,标志着其在科学界的巨大成就。
人工智能的本质:智能的定义与实现
智能本质上就是通过收集信息,对于不同的情景做出针对性的反应。
智能说白了就是看情况做事,那么所谓人工智能同样就是搭建起一个根据不同的环境信息给出针对性的输出和回应的系统。这个输出可以是动作语言,也可以是一种判断和预测。比如说人脸识别,可以根据不同的人脸针对性的反馈出不同人的身份信息。阿尔法go可以对于各种不同的复杂棋局的情况给出最佳的下法,争取胜利。GPT可以根据上文不同的问题和任务的要求,针对性的跟你说话并解决问题。因此它们都是智能。
函数描述世界的本质与图灵测试的智能定义
函数在描述世界中的重要性,一切现象都可视为函数的表现,从声音、光线到AI的响应。图灵测试的原理,即AI若能实现与人无异的输入输出关系,即可视为具备人类智能。

符号主义在人工智能中的应用与局限
符号主义主张智能可以通过符号的逻辑推理来模拟,例如通过制定逻辑规则预测天气变化。这一思路在专家系统中取得了成功,特别是在疾病诊断和金融咨询领域。然而,随着实践的深入,符号主义的局限逐渐显现,包括现实世界缺乏清晰规则、系统能力上限受制于专家水平、以及系统难以像人类一样随时间提升能力。

机器学习的原理与过程
从上世纪70年代开始,机器学习作为一种人工智能流派逐渐发展,它不追求一开始就拥有一个完美的黑箱,而是允许黑箱通过不断的引导和学习逐渐改进,以在特定任务上表现得更好。这种学习过程类似于训练动物,通过奖励或惩罚的方式调整机器的行为。机器学习的强大之处在于它不需要专家知识来搭建黑箱内部结构,仅需一个具有学习能力的模型和大量数据。通过展示图片并根据预测结果给予奖励或惩罚,机器能自我调整并逐渐学会识别图片中的数字或其他任务。这种自我调整和学习的过程涉及模型结构、损失函数和训练过程三个关键概念。

连接主义与感知机:实现人工智能的模式识别
连接主义流派通过模拟人类大脑神经元及其连接方式来实现智慧。从输入数据中识别不同物体特征的模式,理解概念的过程就叫做模式识别。
强大的黑盒:能够学会+表示任何关系,用“仿生”方式模拟单个神经元复杂功能 和 神经元之间复杂连接,和“逻辑推理”同源。
对于一个概念的理解是依赖于其他概念组合而来,尺寸、颜色、味道不一样->不同水果,计算机:0表示不符合,1表示符合。

给每个特征乘上一个系数
符合苹果特征的,乘上正的
-
不符合的,乘上负的
-
最终得分越高,越像苹果🍎
-
设置一个“阈值”,判断激不激活

调整连接的系数,可以判断各种水果

连接主义与符号主义的起源与联系
神经网络和专家系统在判断条件上有相似之处,感知机作为早期神经网络,其实很大程度上借鉴了逻辑推理,设计思路与符号逻辑类似。通过数值计算模拟逻辑,神经网络在更广泛的领域展现了强大的潜力。这种设计与神经科学不谋而合,反映出连接主义和符号主义在起源上的同源性。
计算机视觉的起源与感知机的革命
1957年,康奈尔大学的科学家发明了第一台有实际应用价值的感知机,这标志着计算机视觉领域的诞生。感知机能通过学习和调整参数,识别图片中的内容,如判断图片中的人物性别或箭头方向。这一成就在当时极为震撼,尽管在现代看来可能显得平常。人类视觉和大脑的复杂性使得理解图片内容对计算机来说十分困难,而感知机的出现打破了这一局限。发明者罗森布拉特的成果引起了广泛的关注和乐观的预测,甚至被媒体称为电子大脑的雏形,预示着能行走、有视觉、自我复制和有自我意识的电子计算机的未来。然而,这些愿景直到最近几年才逐渐实现,反映出人类对未知技术的浪漫想象和过分乐观的态度。
连接主义的兴起与寒冬
连接主义通过模型和参数调整实现智能,感知机是其早期成功案例。然而,由于感知机无法解决异或问题(无法划分二维以上的问题),马文明斯基在1969年的著作中对其进行了严厉批评,导致连接主义遭受严重打击,神经网络研究陷入寒冬。尽管如此,仍有一批研究者坚持探索,最终成为深度学习的奠基人并获得图灵奖。
神经网络的进化与深度学习的突破
辛顿坚持神经网络研究,最终通过多层感知机(MLP)等创新,成功挽救并发展了神经网络技术。通过将感知机层层嵌套,神经网络得以识别和处理更复杂的概念和输入,从而实现了强大的功能。随着技术的进步,出现了卷积神经网络(CNN)、残差网络(ResNet)和Transformer等模型,这些创新不断优化神经网络的性能和学习效率。辛顿的坚持和神经网络的持续发展展现了深度学习领域中神经网络结构设计的重要性。
一个好的结构可以让黑盒学的更快,需要的数据更少。而这就是深度学习曾经一个非常重要的领域,神经网络结构设计。
神经网络的训练方法:梯度下降与反向传播
神经网络通过数据训练实现智能,其核心训练方法是梯度下降算法。此算法通过调整网络参数,最小化损失函数,从而找到最佳的参数组合。损失函数用于衡量模型预测结果与实际结果之间的偏差。(注意与拟合函数的区别,拟合函数是用来拟合数据点的函数。)在复杂的非线性模型中,损失函数同样计算预测值与实际值的误差平方和。神经网络训练的目标是调节参数(旋钮),降低损失函数,以实现更贴合数据的模型。然而,随着网络参数数量的增加,这一任务变得极为复杂,这在数学上被称为非凸优化求解。直到1970年代提出的梯度下降算法以及1986年的反向传播算
法,才真正解决了大规模神经网络的参数优化问题,推动了神经网络研究的发展。
神经网络优化中的梯度下降方法
在神经网络优化中,通过梯度下降方法寻找损失函数的最小值是一个关键步骤。首先,以一个旋钮K1为例,尽管我们只能获得一系列离散的点,但可以通过计算损失函数在特定点的导数来判断其增减趋势。然后,通过小步迭代地调整旋钮,使损失函数逐渐减小,直到参数稳定在底部。在更复杂的情况下,例如需要同时调整多个旋钮时,可以使用偏导数和梯度的概念,以求得多维损失曲面中下降最快的方向,从而愉快地调节多个参数,实现对数据底层规律的有效拟合。
神经网络中的反向传播算法
在神经网络优化中,通过梯度下降方法寻找损失函数的最小值是一个关键步骤。首先,以一个旋钮K1为例,尽管我们只能获得一系列离散的点,但可以通过计算损失函数在特定点的导数来判断其增减趋势。然后,通过小步迭代地调整旋钮,使损失函数逐渐减小,直到参数稳定在底部。在更复杂的情况下,例如需要同时调整多个旋钮时,可以使用偏导数和梯度的概念,以求得多维损失曲面中下降最快的方向,从而愉快地调节多个参数,实现对数据底层规律的有效拟合。
神经网络中的反向传播算法
反向传播算法是计算复杂神经网络梯度的关键方法,通过它能够确定损失函数较低的参数。该算法基于基础运算的组合和复合,利用求导的基础法则,如加法、乘法和链式法则,层层传递每个参数的梯度信息。链式法则特别重要,它允许从后向前计算每个参数对损失函数的导数。最终,通过梯度下降法,神经网络能够不断优化参数,理解和掌握数据中的规律,实现智能。
有了链式法则,我们就可以从后往前一步步拆解,得到每一个参数的导数。这是因为任何一个参数从它到损失函数,一定是经过了一系列函数的复合。到最后一层输出就是模型预测本身了。我们可以直接计算损失函数以及它的导数。接着我们就可以用刚才的链式法则一层一层从后往前的把每一层嵌套这个传导的导函数一步一步的乘在一起。当我们回到最开始K一的位置的时候,就得到了K一相较于整个输出损失函数的梯度。而这个算法就叫做反向传播back propagation。
神经网络的泛化能力与智能的区别
神经网络通过训练在已知数据中找到输入与输出之间的趋势和关联性,从而具备了强大的泛化能力,能够对未见过的数据做出合理预测。这种能力类似人类的学习过程,即通过理解底层规律在新情境下活学活用。然而,尽管神经网络在很多领域表现出色,它与真正的人类智能仍有很大区别,不应被视作万能的解决方案。
神经网络的局限性与对抗样本的挑战
机器学习算法在区分相似概念时有局限性,特别是神经网络在处理对抗样本时的弱点。由于模型基于训练数据的特征和标签来理解图像,当面对训练集外的相似对象时,如柴犬和面包,容易产生错误判断。这种局限性源于模型未能区分概念之间的相关性和因果关系,模型会错误的把数据集里的共同出现当成必然联系。更严重的是,神经网络的复杂性和不透明性使得我们难以理解其内部运作,尤其是对抗样本如何触发神经网络底层的特定反应,这仍然是研究的热点。
揭秘语言大模型:从原理到局限
语言大模型,如ChatGPT,展现出接近人类的AI能力,引发对通用人工智能(AGI)的探讨。尽管其生成的文本看似自然,但与人类思维过程不同,大模型采取逐字预测的方式生成语言。这种生成方式虽然不同于人类语言的内在组织结构,却能生成逼真语言,关键在于理解每个词汇(token)在现实世界中的含义及其出现的内在规律。计算语言学的核心问题在于,能否像计算数学一样,预测一个句子后应接续的词汇,从而洞悉人类语言的规律。
语言模型的发展与GPT的工作原理
语言模型是理解语法和造句的基础,早期尝试通过语法树方式让AI造句并未成功,因为语法不足以描述语言的本质(colorless green ideas sleep furiously)。统计语言模型,如n-gram模型,通过预测下一个词来实现语言理解,这一方法虽曾被质疑,但最终带来了GPT等强大模型的诞生。GPT通过预训练过程学习语言规律,利用Transformer模型生成语言,实现从输入到输出的规律学习,如识别图片内容或预测下一个词。
大模型的语言理解能力:从Next Token Prediction谈起
大模型通过预测下一个词汇(Next Token Prediction)的方法,能够学习并理解语言的深层规律,包括语法结构、词语含义及其在现实世界中的应用。这种看似简单的接龙游戏实际上蕴含了对词语含义、句子语法以及文化现实的深刻理解。通过阅读大量人类文本,大模型能够理解词语之间的关联,从而生成有意义的句子。这种自回归生成的方式让大模型能够根据前面的内容不断往后接词,实现类似人类的对话和问题解答,展现了通用人工智能(AGI)的潜力。
大模型语言理解与训练过程的深入探讨
这段对话深入探讨了大模型在语言理解方面的进展以及其训练过程。通过无需人为标注的接话尾训练方式,大模型能够自我学习大量人类语言数据,如书籍、新闻和网站等,从而找到语言规律。讨论还涉及了大模型的运算量和训练成本,以及其在理解和创造新内容方面的能力。尽管大模型在知识的广度上超越了人类,但它们在处理复杂逻辑、数学因果以及辨别信息真假方面仍存在局限(本质是联想)。此外,对话还提到了大模型在特定领域的再训练过程,进一步增强其在特定知识领域的应用能力。
通过RLHF提升大模型的友善和有用性
讨论了通过人类反馈(RLHF)来优化大模型的方法,旨在让模型的回话更接近对人类有帮助和友善的状态。具体做法是,当模型表现良好时,通过奖励调整其参数以更接近理想状态;反之,则给予惩罚。通过不断的训练,大模型能够逐渐提升其有用性和友善度。
揭秘AI生成逼真图片和视频的扩散模型原理
AI生成栩栩如生的图片和视频的技术原理,从扩散过程(diffusion process)的初中物理学概念出发,逐步解释其如何应用于AI模型。通过布朗运动和高斯分布等经典理论,视频揭示了扩散生成模型(Diffusion Generation Model)如何利用时光倒流的概念,创造性地将随机物理过程转变为生成图像和视频的算法。视频还探讨了如何通过反向过程恢复初始状态,从而生成逼真的视觉内容。
比如在一维情况下,如果每次粒子都随机向左或者向右移动一个单位,那么经过足够不久之后,这些粒子在不同位置的可能性就满足这个钟型的曲线,而它正是大名鼎鼎的高斯分布。
扩散过程的时空逆转及其在图像生成中的应用
对话讨论了通过追踪粒子路径,观察到扩散过程在时间和空间上的正向和反向差异。正向扩散是无序的热力学过程,而反向过程则有序且具有方向性,从混乱中重建结构,体现了熵增和熵减的区别。通过计算每个时刻的评分函数(score function),可以引导粒子从高斯分布返回至初始结构,从而实现时光倒流。最终,这种过程在生成逼真图片方面具有重要作用,因为生成一张真实的图片,本质上就是让像素点排成特定的结构和队形,满足一定的数学条件。
无论我们初始结构是一个点、一条线段或是一个笑脸,我们都可以用数学来严格计算出这个评分函数,它会从空间各个地方指引着栗子如何一步步组成最一开始的队形结构。也就是说,评分函数的箭头以一种非常微妙却又深刻的方式蕴含了你最一开始扩散的时候源头的形状。
图像生成与深度学习的原理
在计算机科学中,图像可以被理解为一串数字或向量,这些数字对应着像素空间中的坐标。绝大多数的向量对应的是无意义的噪声,只有极少数满足特定结构和约束条件的向量能够转换成有意义的图像。这种特定的形状或结构被称为流形假设(manifold hypothesis),它认为真实和有意义的图像在像素空间中遵循特定的流形结构。深度学习技术,尤其是人工神经网络,是实现这一过程的核心技术。通过训练神经网络,可以学习输入与输出之间的关系,预测图像在像素空间中的位置,从而逐步去除噪声,生成栩栩如生的图像。
如果把输入定义成某个时刻粒子的位置,把输出规定为上一个时刻它的位置。训练神经网络其实本质上就是学习这个评分函数了当这个神经网络训练好之后,我们就可以预测扩散的前一个时刻,这个图片应该在像素空间的什么位置。这个前一个时刻的位置噪声会稍微小一点,图像的内容会更加清楚一些。所以这就是为什么这个图片叫做去噪模型。顾名思义,沿着评分函数在像素空间移动,一点一点的去除原本的噪声。于是在像素空间中就会越来越接近于真实图片流行的那条矿脉,最终我们就可以把一团乱麻变成丰富多样的、栩栩如生的图片了。
Sora动态视频生成技术及其对AI未来的影响
Sora通过在图像基础上加入时间维度,生成连贯且真实的动态视频,突破了静态图片的限制,展现了出色的连贯性和理解力。尽管在处理某些复杂变化时仍存在不足,但其技术进步正逐步解决这些问题。AI,尤其是深度学习和神经网络,正改变许多职业,如文秘、插画、摄影等,通过自动化重复性工作,提高效率。然而,AI在创意、情感深度和现实世界交互方面仍难以超越人类,预示着未来工作将更多地依赖人机协同,而非被AI完全取代。适应这种变化并提升自身技能,将是应对AI影响的关键。
更多推荐
所有评论(0)