谷歌对齐大模型与人脑信号!语言理解生成机制高度一致,成果登Nature子刊
谷歌最新发现,大模型竟意外对应人脑语言处理机制?!他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行了比较,结果两者之间呈现线性相关关系。比如语言理解顺序,首先是语音,然后是词义;又或者生成顺序:先计划,再发音,然后听到自己的声音。还有像在上下文预测单词,也表现出了惊人的一致性。其论文发表在了Nature子刊。网友表示:这个问题比大多数人意识到的要重要得多。
谷歌最新发现,大模型竟意外对应人脑语言处理机制?!
他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行了比较,结果两者之间呈现线性相关关系。
比如语言理解顺序,首先是语音,然后是词义;又或者生成顺序:先计划,再发音,然后听到自己的声音。还有像在上下文预测单词,也表现出了惊人的一致性。
其论文发表在了Nature子刊。

网友表示:这个问题比大多数人意识到的要重要得多。

谷歌对齐大模型与人脑信号
他们引入了一个统一的计算框架,将声学、语音和单词级语言结构联系起来,以研究人脑中日常对话的神经基础。
他们一边使用皮层电图记录了参与者在进行开放式真实对话时语音生成和理解过程中的神经信号,累计100小时。另一边,Whisper中提取了低级声学、中级语音和上下文单词嵌入。
然后开发编码模型,将这些嵌入词线性映射到语音生成和理解过程中的大脑活动上,这一模型能准确预测未用于训练模型的数小时新对话中语言处理层次结构各层次的神经活动。

结果他们就有了一些有意思的发现。
对于听到的(语音理解过程中)或说出的(语音生成过程中)每个单词,都会从语音到文本模型中提取两种类型的嵌入:
来自模型语音编码器的语音嵌入和来自模型解码器的基于单词的语言嵌入。
通过估计线性变换,可以根据语音到文本的嵌入来预测每次对话中每个单词的大脑神经信号。
比如听到「How are you doing?」,大脑对语言理解的神经反应序列be like:

当每个单词发音时,语音嵌入能够预测沿颞上回(STG)的语音区域的皮层活动。
几百毫秒后,当听者开始解码单词的含义时,语言嵌入会预测布罗卡区(位于额下回;IFG)的皮层活动。
不过对于回答者,则是完全相反的神经反应序列。
在准备发音「Feeling Fantastic」之前,在发音前约 500 毫秒(受试者准备发音下一个单词时),语言嵌入(蓝色)预测布罗卡区的皮层活动。
几百毫秒后(仍在单词发音之前),当说话者计划发音时,语音嵌入(红色)预测运动皮层(MC)的神经活动。

最后,在说话者发音后,当听者聆听自己的声音时,语音嵌入会预测 STG 听觉区域的神经活动。

这种动态变化反映了神经处理的顺序——
首先是在语言区计划说什么,然后是在运动区如何发音,最后是在感知语音区监测说了什么。
全脑分析的定量结果显示,对于每个单词,根据其语音嵌入(红色)和语言嵌入(蓝色),团队预测了每个电极在单词出现前 -2 秒到出现后 +2 秒(图中 x 轴值为 0)的时滞范围内的神经反应。这是在语音生成(左图)和语音理解(右图)时进行的。相关图表说明了他们对所有单词的神经活动(相关性)的预测准确度与不同脑区电极滞后的函数关系。

在语音生成过程中,IFG 中的语言嵌入(蓝色)明显先于感觉运动区的语音嵌入(红色)达到峰值,随后 STG 中的语音编码达到峰值。相反,在语音理解过程中,编码峰值转移到了单词开始之后,STG 中的语音嵌入(红色)峰值明显早于 IFG 中的语言编码(蓝色)峰值。
总之研究结果表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架。
令人惊讶的是,虽然 Whisper 完全是为语音识别而开发的,并没有考虑大脑是如何处理语言的,但他们发现它的内部表征与自然对话过程中的神经活动是一致的。
尽管大模型在并行层中处理单词,但人类大脑以串行方式处理它们,但反映了类似的统计规律。
大模型与人类大脑之间的吻合揭示了神经处理中的 「软层次 」这一概念,大脑中较低级别的声学处理和较高级别的语义处理部分重叠。
大模型与人脑之间的异同
日常生活中,人类大脑如何处理自然语言?从理论上讲,大语言模型和人类的符号心理语言学模型是两种完全不同的计算框架。
但受到大模型成功的启发,谷歌研究院与普林斯顿大学、纽约大学等合作,试图探索人脑和大模型处理字眼语言的异同。
经过过去五年一系列研究,他们探索了特定特定深度学习模型的内部表征(嵌入)与自然自由对话过程中人脑神经活动之间的相似性,证明了深度语言模型的嵌入,可以作为「理解人脑如何处理语言」的框架。
在此之前,他们就完成了多项研究。
比如2022年发表在Nature Neuroscience上论文显示,他们发现与大模型相似,听者大脑的语言区域也会尝试在下一个单词说出之前对其进行预测;而在单词发音前对预测的信心会改变他们在单词发音后的惊讶程度(预测误差)。
这些发现证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。

还有发表在Nature Communications另一篇论文中还发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。

不过即便计算原理类似,但他们底层神经回路架构却明显不同。
在一项后续研究中,他们调查了与人脑相比,基于Transformer的大模型是如何跨层处理信息的。
结果发现,虽然跨层非线性变换在 LLMs 和人脑语言区中相似,但实现方式却大相径庭。Transformer架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言的。

基于这些积累的研究成果,他们的目标是创建创新的、受生物启发的人工神经网络,提高其在现实世界中处理信息和发挥作用的能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)