查看: 271|回复: 8
|
Grok3: 拿20万块GPU狙击DeepSeek,马斯克上演“AI复仇记”
[复制链接]
|
|
拿20万块GPU狙击DeepSeek,马斯克上演“AI复仇记”
硅基研究室
本文作者:kiki
北京时间2月18日中午,马斯克和xAI发布了其最新旗舰模型Grok-3系列和最新聊天机器人Grok,凭借着马斯克的强大光环,尽管xAI作为这场AI竞赛中的后发者,但其一举一动都备受关注。
在不到一个小时、百万人围观的发布会中,xAI展现了Grok-3令人印象深刻的模型能力——从马斯克的最强数据集群到直接的评测数据对比,似乎在回应他此前对Grok-3的评价——“地表最强AI”。
但据前OpenAI联合创始人Anderj Karpathy的评价,“Grok-3+Thinking”感觉与OpenAl最强模型o1-pro相差无几,但取得同等能力需要加上一个前提:Grok-2和Grok-3之间,才过去了六个月而已。“达到最先进领域的时间表是前所未有的”。Anderj Karpathy说。
Grok-3的发布符合马斯克的竞争观——他总是习惯用最快的时间表、推动团队完成创新,这也是他擅长讲述的故事——用巨大的算力(20万张GPU,Grok-3使用了超出DeepSeek-V3百倍的算力)、规模小的团队(xAI最初成立时只有12人),做不下牌桌的人。
一、“地表最强AI”Grok 3表现如何?
直播中xAI团队将Grok-2形容为“玩具”,这当然是为了突出Grok-3的强大。
xAI发布的Grok-3是一个模型系列,包括了推理模型和mini模型。
在模型能力上,Grok-3在推理、数学、代码、数学等多方面,都取得了新的突破,Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分,在GPQA上取得了85分,跑赢了o3 mini、DeepSeek-R1等。
在AIME 2025最新的数学基准测试中,Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。
在大模型竞技场LMSYS上,Grok-3早期版本(巧克力)在总榜上位列排名第一,也是首个评分突破1400分的模型,尤其在“编码”类别中,Grok-3超越了o1和Gemini-thinking等顶级推理模型。
xAI现场演示了Grok-3的推理和创意编程能力,例如让Grok-3生成一段从地球发射、着陆火星再到返回地球的3D动画代码,还有涉及推理能力的升级版俄罗斯方块小游戏。
这些模型核心能力升级也被马斯克融进了新的Grok应用中,以Agent形式集成了DeepSearch、Think和Big Brain三种模式,针对用户搜索场景,提供编程、数学等高阶能力。DeepSearch可以联网和扫描X来分析信息、提供查询和摘要,Big Brain则可以进行更多、更仔细的分布推理编程。
除此以外,马斯克还透露后续语音交互、多模态交互等新功能将上线,xAI还将成立一个AI游戏社区,马斯克此刻曾透露将开设AI游戏工作室。
Grok-3不会马上向所有用户开放,针对X的Premium+订阅用户就首先获得解锁,在Grok独立的APP端也会推出会员服务“SuperGrok”——价格为每月30美元或每年300美元。
今天早些时候获得Grok-3的早期使用权的前OpenAI联合创始人Anderj Karpathy表示Grok-3是拥有最先进的思考模型之一,性能与o1-pro相当,“我们需要实际的、真实的评估来观察。”他举了一个例子,他通过Grok-3 Think模式上传了GPT-2论文,在问了一堆简单的查找问题,要求其估计训练GPT-2所需的训练flops数量,这考验模型将查找、数学和知识相结合,根据他的测试结果,GPT-4o未能完成这项任务,o1 pro也失败了,但Grok-3 with Thinking 很好地解决了这个问题。
过去,Grok还给人留下的印象是,更幽默的,有意思的AI,直播中xAI也强调了这一点,但据Anderj Karpathy测试,模型的幽默感似乎没有明显改善,对“复杂的伦理问题”也过于敏感。
客观来看,作为后发者,xAI用不到一年时间推出Grok-3,再度印证了马斯克“大力出奇迹”的优势,但评估模型实际能力和落地依旧要看后续的产品功能情况。
二、马斯克的AI筹码
在全球大模型的竞逐中,马斯克寄希望于xAI走一条典型的“后发先至”路线。
在发布Grok-3前,xAI在过去两年之间内对Grok系列的旗舰模型进行了三次大迭代,在模型能力上,Grok系列在推理、阅读理解、数学、科学、写代码等方面都呈现出不错的表现。而在模型轻量化、多模态方向上,xAI也曾发布首个多模态模型Grok-1.5V和Grok-2mini,不断丰富其模型家族。
在产品交互形式和商业模式上,马斯克也一直针对Grok进行优化,在产品交互形式上,一方面更新界面、功能和产品组件。如将X的实时洞察和网络搜索结合,推出新的引文功能,提升回答的准确性。今年1月,不同于内嵌于X内部,xAI还宣布上线独立的iOS应用程序,并围绕体育、金融等场景推出新内容组件,提升用户内容体验。
而在商业模式上,通过免费和开放API,降低模型使用门槛,去年年底,xAI宣布 Grok-2模型对X平台用户免费开放(当然也有使用限制),同步推出了企业API公开测试版。“硅基研究室”查询发现,目前xAI提供Grok-2-1212和Grok-2-vision-1212两种模型调用,以Grok-2-1212为例,其API定价为2.00美元/百万输入、10美元/百万输出,同时xAI还推出了数据共享计划,为参与团队提供每月获得150美元的免费API积分。
直播中,xAI称Grok-3模型将与DeepSearch功能一起出现在xAI的企业API 中,对于人们关注的开源问题,当Grok-3成熟稳定时,可能在几个月内会开源Grok -2。
在大模型竞争、估值水涨船高的今天,坚信Grok和马斯克能突围的人,相信的是Grok自身的独特优势,即数据、卡、钱和“反OpenAI故事”。
首先,是数据。Grok与X高度绑定,是一个闭环的内容生态,高质量的数据和稳定的场景,这本身就是先天优势。马斯克多次强调,Grok通过合成数据,绕过了困扰其他AI模型的数据隐私和知识产权相关的法律挑战,同时确保用户的数据隐私安全。
其次,是卡,即算力。特斯拉和xAI储备了大量的英伟达H100系列芯片,马斯克此前曾质疑机构将“Meta列为囤积全球最多的H100 GPU”的排行榜,指出“如果计算正确,特斯拉应该是第二名,xAI将是第三名”,他还用122天将一个家电厂房改造为集合10万张H100芯片的超级算力集群,就连英伟达创始人黄仁勋也忍不住感叹:“在如此短的时间里内完成,这简直是超人的成就”。
直播演示中,马斯克在Grok-3发布前,也率先展示他的最强数据集群,团队表示,他们在今年2月遇到很多问题,如冷却和能耗等,也浪费了很多算力,但最终还是以Grok-2的10倍算力资源,用六个月时间推出了Grok-3。
xAI也似乎不缺钱,据彭博社报道,xAI正以750亿美元的估值筹集100亿美元,红杉资本、Andreessen Horowitz和Valor Equity Partners等现有投资者,均参与了此次谈判。
再者,还有“人”,xAI的团队核心成员曾在Google DeepMind、特斯拉、OpenAI和微软等公司工作。
最后,马斯克“反OpenAI”的故事也得到了不少人的拥趸。一直以来,马斯克的人工智能观就是反OpenAI而行,他频繁以政治中立、安全来强调xAI的不同。
三、Grok 野心能成吗?
不过,马斯克野心勃勃的计划背后,Grok也面临“内忧外患”。
首先,就Grok自身而言,一方面,就B端,企业API调用上,Grok目前还没有完备的服务企业的能力,而我们看到在服务企业上,用编码等能力吸引企业级客户,OpenAI和Anthropic均有更快的进展。据The information此前报道,Anthropic从使用其模型进行软件开发和代码生成的客户那里获得的年化收入增长了10倍。另一方面在C端,目前Grok和X的集成度还不够多,特别是尚未上线的语音、视频等功能。
有业内人士产生的困惑是,在OpenAI已集成了语音、视频等功能下,包括豆包在内的中国公司也做得不错,Grok还能在这方面和X联合做出哪些新的创意?“如果只是一个TTS(文本转语音技术),那不会有改变”。(虽然直播中,xAI说不会是TTS)。
其次,在外部,在DeepSeek等中国模型公司的冲击下,更激烈的竞争已经开启,OpenAI已发布GPT-4.5和GPT-5路线图,Anthropic也宣布将推出Claude 4 系列。
某种程度上,在AI上的探索和尝试反映出的是马斯克从一而终的“竞争观”——用令人惊讶的时间表,推着团队不顾一切的前进,从而逼近自己的预期目标,这在特斯拉、SpaceX身上都有过验证。
在社交媒体上,人们大多对马斯克的尝试表示兴奋,这也发生在DeepSeek所掀起的浪潮中——一位人工智能创业者这样写道:“新的LLM比赛已经火爆起来了,一周后谁会赢?”
|
|
|
|
|
|
|
|

楼主 |
发表于 18-2-2025 06:34 PM
|
显示全部楼层
本帖最后由 tuaceng 于 18-2-2025 06:36 PM 编辑
20万块英伟达芯片练出Grok 3:测试得分均高于竞争对手,运算能力是上代10倍
转自:澎湃新闻
预热许久的“地表最聪明AI”Grok 3正式亮相。
2月18日,特斯拉创始人埃隆·马斯克旗下xAI推出最新大模型Grok 3,并在直播中进行了现场演示。马斯克称,非常高兴能够推出 Grok3,它的能力将在短时间内比Grok2强大了十倍。“xAI和Grok的目的是理解宇宙的本质。”
功能完整的Grok 3将在一周后正式上线,不过用户依旧需要“钞能力”才能体验到最新版本的Grok。
直播介绍,Grok 3测试版现已面向马斯克旗下X平台的X Premium订阅用户开放,“我们今天将推出Grok3,首先从X上的Premium Plus订阅者开始,他们将是第一批获得访问权限的人。请确保更新您的X应用程序以探索所有高级功能,因为我们刚刚发布了更新。如果您有兴趣尽早使用Grok 3,请注册Premium Plus。”
xAI还针对Grok 3开发了新的订阅功能。“此外,我们还将为想要获得最先进功能和尽早使用新功能的忠实粉丝推出一项名为Super Grok的单独订阅。这项服务适用于Grok应用程序和新网站grok.com。”据报道,
马斯克表示,预计一周之后Grok 3的所有功能将正式上线。他说,“如果你想要一个更完善的版本,可能值得等待一周,但每天都会有所改进。我们还在开发语音交互功能,以便你可以拥有对话体验。我今天早些时候试过了,效果很好,尽管它仍然需要一些完善。我们的目标是让你可以像和人交谈一样和它交谈。我认为这将是Grok3最好的体验之一,但这应该还要一周左右的时间。”
马斯克说,计划在每次发布新版本时,对上一版本进行开源,也就是说,几个月后Grok 2即将开源。
xAI工程师介绍,虽然Grok起步较晚,但在MMLU(大规模多任务语言理解基准测试)得分上以超快地速度追上了ChatGPT,Grok 3和轻量化的Grok 3 mini在多方面性能上都超过或媲美Gemini、DeepSeek和GPT-4o等对手。
据介绍,Grok 3在数学推理、科学逻辑推理和代码写作等项目的Benchmark测试(基准测试)中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 Pro更优的效果。Grok 3分别得分为52、75和57。Grok 3 mini分别得分为40、65和41。这两个模型的得分都高于Gemini、DeepSeek、Claude和GPT。
工程师说,“大约五天前,AIME2025竞赛结束了,高中生们在一个特定的基准上竞争。然后我们让两个模型在同一场考试中在同一基准上竞争。有趣的是,更大的Grok3推理模型在这场考试中表现更好。这表明,与较小的模型相比,较大的模型具有更强的泛化能力。然而,在去年的考试中,较小的模型表现更好,因为它更有效地学习了以前的考试。”
在加州大学伯克利分校推出的Chatbot Arena (LMSYS)盲测中,早期版本的Grok 3化名“巧克力”打榜,一举夺魁并成为唯一一个得分超1400的模型,其在代码、指令响应等各个方面排名均为第一。
据马斯克此前介绍,Grok 3是在大量的合成数据上训练的。它会反复检查数据,试图达到逻辑一致性。如果有错误的数据,它会反思并删除错误数据。
值得一提的是,有工程师还透露了xAI旗下超算中心算力已经翻倍,英伟达GPU数量已达到20万块。
据介绍,去年4月,马斯克认为xAI若想成功打造出最佳AI,唯一途径是自建数据中心。由于想尽快推出Grok 3,时间紧迫,于是决定在四个月内建成数据中心。最终,团队耗时122天让第一批10万个GPU启动并运行。
不过要构建理想中的AI需将集群规模翻倍。发布会上透露,这也是团队首次公开谈论此事,团队仅用92天就已经实现了超算集群的算力翻倍,也就是GPU数量已达20万块。如今,xAI正利用这些强大的计算能力持续改进产品。
团队还透露,xAI已经开始研究下一个集群,为了能够带动更为强大的AI,其功率将提高约五倍,达到大约1.2千兆瓦。
现场,马斯克和工程师们演示了Grok 3的多种能力。在演示中,Grok 3为太空发射生成动画3D,以及开发了一款将俄罗斯方块和宝石迷阵结合的游戏。
此外,xAI的游戏工作室也正式得到官宣。马斯克表示,“我们将在xAI推出一个人工智能游戏工作室。如果你有兴趣加入我们并开发人工智能驱动的游戏,请加入我们。” |
|
|
|
|
|
|
|

楼主 |
发表于 18-2-2025 06:37 PM
|
显示全部楼层
马斯克用20万张H100训练出1400分大模型
2025-02-18 17:26:46 来源: 半导体产业纵横 北京 举报
xAI发布最新一代大模型Grok 3。
马斯克旗下人工智能公司xAI发布了其最新一代大模型 Grok 3,目前Grok已经推出了专属的 Grok.com 网页,供用户体验Grok系列模型。
马斯克称,Grok 3能力较前代产品Grok 2提升了“一个数量级”,并且是一款“追求极致真实”的 AI。
20万张H100训练出1400分大模型
Grok 3早期化名“巧克力”打榜LMSYS,一举夺魁并成为唯一一个得分超1400的模型。竞技场(lmarena.ai)官方评价Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。
去年马斯克剧透,Grok 3在10万张H100上进行训练,是首个达到如此训练集群规模的模型。这比Grok 2多了数倍不止,要知道Grok 2训练大约使用了2万个H100。但是令人震惊的是,实际上Grok3训练过程中集群规模再次扩展到了20万卡。
Grok 3比Grok 2快十倍,在Grok3中大规模安装更多计算能力使其能够在更短的时间内运行大数据集,同时提供更高的准确性。
此次推出的Grok 3有满血和mini两个版本。在数学推理、科学逻辑推理和代码写作等能力表现方面,Grok-3在多项Benchmark测试中均取得了比DeepSeek-v3、GPT-4o、Gemini-2 pro更优的效果。
在AIME'24数学能力测试中,Grok-3取得了52分,明显高于DeepSeek-V3的39分。在GPQA科学知识评估中,Grok-3以75分的优异成绩领先DeepSeek-V3的65分。此外,在LCB Oct-Feb编程能力测试中,Grok-3也以57分的成绩超越了DeepSeek-V3的36分。
除此之外,在Grok 3和mini的基础之上,xAI团队还打造了两款推理模型。
马斯克团队指出,大约一个月前,Grok 3的预训练已经完成,从那时起其一直在努力将推理能力融入Grok 3模型中。目前基于mini的推理模型(Grok 3 mini Reasoning)已经比较成熟,而基于满血版的推理模型(Grok 3 Reasoning Beta)还处在Beta阶段。
值得注意的是,xAI团队不仅在硬件上进行了升级,还在软件层面进行了优化。Grok 3 通过改进训练流程,引入合成数据集、自我纠错以及强化学习等技术,进一步提升了模型的性能。这些技术的综合应用,使得 Grok 3 在处理复杂任务时表现得更为出色。
然而,原计划在此次发布中推出的语音模式并未如期上线。马斯克在 X 平台上解释称:“语音模式目前还存在一些问题,预计将在大约一周后推出,但它非常出色。”并计划在几周后将Grok 3模型和DeepSearch功能整合到 xAI 的企业 API 中。
此外,xAI计划在最新版本完全成熟后立即开源其Grok 模型的先前版本,马斯克预计Grok-3的过渡将在几个月内完成。
目前,X 平台的 Premium + 订阅用户将率先体验到 Grok 3,而其他功能则被整合到 xAI 推出的名为 SuperGrok 的订阅服务中。SuperGrok 的订阅价格为每月 30 美元或每年 300 美元,用户可获得额外的推理和 DeepSearch 查询权限,以及无限量的图像生成功能。
三个月将数据中心容量翻倍
据报道,xAI计划与戴尔达成50亿美元协议,为Grok 3提供AI服务器支持。xAI即将与戴尔科技达成协议收购价值超过50亿美元的配备英伟达GB200芯片的AI优化服务器,此次收购旨在满足Grok 3和其他AI应用程序日益增长的计算需求。
在发布会上,马斯克团队透露xAI在短短三个月将数据中心容量翻倍,使用了20万个英伟达H100 GPU打造出Grok 3。
马斯克团队表示,去年4月马斯克决定xAI要想取得成功并打造出最佳 AI,唯一的办法就是创建自己的数据中心。我们花了122天的时间才让第一批10万个GPU启动并运行。我们很快意识到要构建我们设想的 AI,需要将集群规模扩大一倍。因此,我们在短短92天内就将容量翻了一番。
值得注意的是,目前xAI正在田纳西州孟菲斯建设的超级计算机Colossus项目中。Colossus用于支持xAI的AI大模型Grok,xAI计划扩展到至少100万块GPU,并已采用戴尔与超微电脑的服务器设备。去年12月戴尔曾披露,已在该项目部署数万个GPU,并致力于在剩余工程中获取"大部分份额"。
戴尔去年11月末公布,在截至2024年11月1日的第三财季,交付AI服务器29亿美元,推动包括AI系统在内的服务器和网络业务当季收入增长58%至74亿美元。分析师预计,在截至2025年1月的2025财年,戴尔的AI服务器出货量价值将超过100亿美元,并预计,AI服务器2026财年将为戴尔创收140亿美元,一年收入增长约40%。 |
|
|
|
|
|
|
|

楼主 |
发表于 18-2-2025 06:43 PM
|
显示全部楼层
说到最后,还是靠实打实的芯片,才可以制造出世界尖端AI。
当然,5毛小粉红等下又说,不用紧,我们会拿grok 3来蒸馏,训练出另一个AI。何必花那么多钱买芯片。
同时,马斯克指出,Grok 3将部分推理过程模糊化,以防止被蒸馏。蒸馏指的是AI模型开发人员从另一个模型中提取知识。 这个让5毛小粉红@dalap失望了。
@garrod @lcw9988 @开卷有益
|
|
|
|
|
|
|
|
发表于 18-2-2025 07:16 PM
|
显示全部楼层
马上到各大平台看看大家怎么说。.gif) |
|
|
|
|
|
|
|
发表于 18-2-2025 07:49 PM
来自手机
|
显示全部楼层
tuaceng 发表于 18-2-2025 06:43 PM
说到最后,还是靠实打实的芯片,才可以制造出世界尖端AI。
這個要看deepshit 的抗壓能力了,正所謂屎扶不上壁。 |
|
|
|
|
|
|
|
发表于 18-2-2025 07:58 PM
|
显示全部楼层
各国的AI即使有竞争,也应当是良性竞争、良性互动。以良性竞争推动实现资源配置效率最优化和效益最大化 |
|
|
|
|
|
|
|
发表于 18-2-2025 08:05 PM
|
显示全部楼层
刚刚到某个平台看了很多有趣的留言。
- 两个是华裔,还是我们亚洲人比较强。
- 浪费资源,谁来为环境污染埋单!
- 美国想要保持竞争力,必须大量重用华人,毕竟脑容量比白黑都高
- 十万张卡,还只敢跟deepseek的v3比较
- 蚌,成本比deepseek高两百多倍,跑分提升了3%
- 烧钱还是有用的,算法和理论没突破就只能堆算力炼丹了,力大飞砖,能炼出AGI就算赢
- 简单来说就是没有算法和架构上的创新,纯粹就是力大砖飞,并且这个力只要有钱就行。
- 确实,堆了地球上最多的硬件,但没有什么大提升。
- 看来老马越来越爱吹牛逼了
- 给它送上火星吧,当几年地表最强是有护城河的
- 10w张卡只有这点提升,不达预期
- 马斯克不就是吹牛大王嘛。各种牛逼,就是不知道牛逼在嘛
- 华人与华人的竞争
- 哈哈😂,3个技术员俩东方亚裔
- 马斯克的营销能力远超小米华为,堪称地表最强
- 我只关心会不会开源
- 中间两个都是中国人吗?
- 贻笑大方了,用了这么多显卡这么多数据去计算才达到这个水平
- 怕什么,谁强咱们蒸馏谁就行了呗
- 硅谷精英们好好竞争,最好把美国的电力全用来搞ai
- 这边应该也有底牌,而且可能是一手好牌还没开始打。
- 马斯克不是之前还呼吁停止开发ai吗?结果自己还是暗戳戳的开搞了啊
- grok3开源吗?性价比高吗?远超同类产品50%吗?
- 散吧22$一个月
|
|
|
|
|
|
|
|
发表于 18-2-2025 09:32 PM
|
显示全部楼层
|
|
|
|
|
|
| |
本周最热论坛帖子
|