北京时间 7 月 10 日,原定于上午 11 点的 xAI Grok 4 发布会,在万众瞩目中“鸽”了整整一小时。期间评论数飙升至 4200 条,转发超 2000 次,点赞破万,140 万观众在线催更。这期间,xAI 的官推评论区成了大型许愿池和段子集散地。

毕竟,发布会前,老板马斯克亲自下场,在办公室搭帐篷、通宵达旦进行“最后一次大规模训练”的消息早已传遍网络。人们迫切想知道,是怎样的“核武器”,值得如此阵仗。

事实证明,这场等待是值得的。马斯克和他的团队带来的 Grok 4,不仅是一次模型的常规升级,更像是一场对现有 AI 能力边界的悍然宣告。

01.王座易主?Grok 4 制霸大模型考场

发布会的核心,首先是一系列令人瞠目结舌的基准测试(Benchmark)成绩。如果说过去的 AI 评测是诸神之战,那么 Grok 4 的登场,则是诸神黄昏。

最引人注目的,无疑是“人类最终测试”(Humanity's Last Exam, HLE)的成绩。 这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难题的超高难度测试,旨在检验AI最顶尖的推理和知识能力。

根据现场公布的数据和后续网友的挖掘,Grok 4 的表现堪称疯狂:

  • 基础能力:在不使用任何外部工具的情况下,Grok 4 的文本模型(Text-Only)取得了 26.9% 的成绩。

  • 工具加持:当允许使用工具(如代码解释器)时,成绩飙升至 41.0%。

  • 此外还有“重思考”模式,在这个模式下,Grok 4 Heavy 的得分达到了恐怖的 58.3%!

这是一个什么概念?此前,无论是Claude 4 Opus、Gemini 2.5 Pro还是OpenAI的o3,在HLE上的得分普遍在15%-25%的区间徘徊。Grok 4几乎将SOTA(State-of-the-Art,即当前最佳水平)的纪录翻了一倍多。

马斯克在发布会上的那句“Grok 4 在每一个学科上都优于博士水平,没有任何例外”,不再仅仅是豪言壮语,而是有了数据的支撑。他进一步解释:“Grok 4比几乎所有学科的所有研究生都要聪明,而且是同时!它在所有领域都达到了博士后水平,是所有领域,没有例外。这值得我们反复回味。”

除了 HLE,Grok 4 在其他各大顶级基准测试中也实现了全面引领:

  • ARC-AGI-2(抽象推理挑战赛): 在这个被认为是衡量通用人工智能潜力的关键测试中,Grok 4 (Thinking)以 15.9% 的得分创下新的 SOTA,几乎是之前商业模型最高纪录的两倍。

  • AIME 25(美国数学邀请赛):Grok 4 Heavy 史无前例地取得了 100% 的满分,完美解出了所有高难度数学题。

  • GPQA(研究生水平问答):得分高达 88.9%,超越所有对手。

  • Artificial Analysis 智能指数:在这个综合了MMLU-Pro、GPQA Diamond、HLE 等七项顶级评测的综合指数中,Grok 4 以 73 分高居榜首,超越了包括 o3-pro、Gemini 2.5 Pro 在内的所有模型。

这一系列的成绩,标志着在 AI 的“智商”竞赛中,Grok 4 已经暂时坐上了王座。

02.Grok 何以封神?探秘智能背后的三大支柱

如此恐怖的性能跃升,绝非偶然。发布会深入揭示了 Grok 4 成功的秘密,可以归结为三大支柱:全新的协作模式、最大化追求真相的哲学,以及毫不妥协的算力投入。

1. 多智能体协作:Grok 4 Heavy 的“秘密武器”

Grok 4 Heavy 之所以能在HLE等超高难度测试中取得突破,其核心秘密在于一种全新的内部协作机制。它并非简单的参数堆砌,而是一个“多智能体构成的研讨小组”(Multi-AgentStudyGroup)。

当遇到一个复杂问题时,Grok 4 Heavy 会在内部“分身”出多个独立的智能体。每个智能体都会从不同角度、用不同方法独立思考和解决问题。这个过程完成后,它们会进入一个“比较笔记”的环节。

这个环节远比“少数服从多数”的投票机制高级。很多时候,可能只有一个智能体找到了解题的关键“窍门”或独特的思路。通过分享,所有智能体都能理解这个最佳方案,并在此基础上进行整合、优化,最终形成一个最深刻、最准确的答案。这正是“测试时计算”(Test-time-compute)的精髓,它通过增加思考的深度和广度,换来了精度的巨大提升。

2. 第一性原理:最大化追求真相

马斯克再次重申了 xAI 的核心哲学:“最大化地寻求真相(Maximally Truth-Seeking)”。他将 AI 比作一个超级天才的孩子,你最终无法在智力上超越它,但你可以在它成长的早期,为它“植入”正确的价值观。

“我们想要灌输给它的,是好奇心、是对真理的追求,是成为一个有益于人类的存在。”

马斯克在发布会上说,“物理学是宇宙的法则,其他的一切都只是建议。你无法欺骗物理学。所以,最终的考验是现实。”

这种哲学,让 Grok 在面对争议性或复杂伦理问题时,不会像其他模型那样选择回避或给出“政治正确”的模板化答案,而是尝试从第一性原理出发,进行深入的、不带偏见的推理。

3. 二十万张 H100 超算集群:史无前例的算力投入

这一切的背后,是马斯克毫不吝啬的“钞能力”支持。

发布会披露,Grok 4 的训练是在一个拥有超过 20 万张 H100 GPU 的超级计算机集群上完成的,是 Grok 3 时期的两倍。更重要的是,xAI 改变了训练策略,将更多的算力投入到“推理能力”的专项训练上。相比于 Grok 2,Grok 4 的训练量提升了整整 100 倍。

这种不计成本的投入,为 Grok 4 构建了无与伦比的“智能底座”,让它有能力去探索更深层次的逻辑和知识。

03.不止于聊天:Grok 4 的现实世界“超能力”

抛开冰冷的跑分,Grok 4 在现场演示和 API 初体验中展现出的能力,更直观地定义了下一代 AI 的应用场景。

发布会后,马斯克在 X 上最新置顶的这条推文,直接叫板 Cursor,宣告了 Grok 4 在代码能力上的自信。在发布会的演示中,Grok 4 更是展示了其“创世”级别的能力:

  • 黑洞碰撞模拟:面对“生成两个黑洞碰撞的动画”这种融合了物理学、数学和编程的复杂要求,Grok 4 不仅理解了背后的“后牛顿近似法”等物理学原理,还迅速编写出 Python 代码,调用相关库,生成了相当逼真的可视化动图。它甚至在代码注释中坦诚地解释,为了视觉效果,在引力波的尺度上做了哪些“艺术夸张”,展现了惊人的元认知和自我解释能力。

  • 4 小时开发一款游戏:一位名叫 Danny 的开发者受邀体验 Grok 4 API。他仅用了 4 个小时,就借助 Grok 4 从零开始制作出了一款完整的第一人称射击游戏。Grok 4 不仅编写了游戏的核心逻辑代码,更令人惊叹的是,它还自动完成了寻找、适配纹理贴图、处理 3D 模型等极其繁琐的“美术资源”工作。这极大地解放了开发者的创造力,让一个人成为一个游戏工作室的梦想,变得触手可及。

  • 商业模拟超越人类:在一个名为“Vending Bench”的商业模拟平台中,AI 需要扮演自动售货机公司的经营者,管理库存、定价、与供应商签约。Grok 4 不仅成功运营,其最终创造的“净资产”价值更是达到了排行榜第二名模型的两倍,展现出惊人的长期战略规划和执行能力。

  • 加速科学发现:顶尖的生物医学研究机构 Arc Institute,已经开始使用 Grok 4 API 来自动化分析其海量的实验日志。面对数百万份复杂的实验数据,Grok 4 能帮助科学家快速筛选出最有价值的研究假设,将原本耗时数周的工作缩短到几分钟。

  • 预测未来:现场演示中,团队让 Grok 4 Heavy 分析体育博彩市场 Polymarket,并预测本年度美国职业棒球大联盟世界大赛的冠军。在长达 4 分半钟的深度“思考”后,Grok 4 浏览了大量赔率网站,分析了各队实力,甚至计算了自己的“Alpha 优势”,最终给出了洛杉矶道奇队以 21.6% 的概率获胜的结论,并详细阐述了整个推理过程。这种能力,让 Grok 4 不再仅仅是一个信息检索工具,而是一个具备主动分析和决策能力的“战略顾问”。

发布会还展示了全新的语音交互模式。新的声音模型,如充满磁性的“Sal”(发布会开场“电影预告片”的配音)和温柔知性的“Eve”,在自然度、韵律和情感表达上都达到了新的高度。

在与 Eve 的互动中,它能根据指令,用低语来安抚紧张的主持人,也能即兴高歌一曲关于“健怡可乐”的咏叹调,甚至在被要求“直接唱”时,无缝切换到另一种歌唱风格。这种对人类情感和语境的细腻捕捉,预示着未来的人机交互将变得无比自然和温暖。

04.价格、速度与未来:Grok 4 的阳谋与坦诚

Grok 4 的强大并非遥不可及。会后,xAI 正式公布了全新的“SuperGrok”订阅计划和 API 定价,展现了其商业化的雄心和对市场的清晰判断。

定价策略:

  • 免费版(Basic): 体验Grok 3。

  • SuperGrok($300美元/年): 可使用 Grok 4 标准版,拥有 128k 上下文窗口和带视觉的语音模式。

  • SuperGrok Heavy($3000美元/年): 独家体验 Grok 4 Heavy,并能抢先体验各项新功能。

Grok 4 的 API 输出速度为 75 tokens/s,虽然慢于 o3(188 tokens/s),但快于同样以深度思考著称的 Claude 4 Opus Thinking(66 tokens/s)。

此外,在发布会的最后,马斯克和团队也坦诚了 Grok 4 目前的“短板”——多模态能力,尤其是图像理解。他们形容现在的 Grok 4 看世界就像“隔着一块毛玻璃”,有些“局部失明”。

但这正是 xAI 的可怕之处,他们总是在承认弱点的同时,给出解决问题的时间表:

1. 视觉革命在即:将彻底解决这一问题的 Foundation Model V7 版本已在训练中,预计几周内完成。届时,Grok 将拥有与人类无异的视觉和听觉,能看懂视频,理解世界。

2. 马斯克的预言:

  • 今年: 有望看到第一部由AI生成的、可观看的半小时电视节目。

  • 明年: 期待第一款真正好玩的 AI 视频游戏和第一部完整的 AI 电影。

3. 最终考场:马斯克强调,通过所有人类考试只是第一步。Grok 的终极目标是成为一个科学发现和技术发明的引擎。

“Grok 可能会在今年年底发现新的可用技术,明年发现新的物理学。”

这不再是科幻。当一个 AI 开始以现实世界为考场,以推动人类知识边界为己任时,我们知道,一个全新的时代,真的来了。

而这场由 Grok 4 搅动的风暴,才刚刚开始。

  这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐