
2 月 16 号,马斯克在 X 上发布了一条自家 Grok 3 模子的发布预报。
并配文"地球上最聪惠的 AI "要来了。
北京技艺 2025 年 2 月 18 日中午,马斯克如约携带着 xAI 的工程师和盘考团队开启了 Grok 3 的首发直播。
此次发布会主要分为三个部分,先容了 Grok 3 在磨砺上比 Grok 2 多干涉了 10 倍的谋略资源,解锁了更强盛的谋略才调,展示了基于 Grok 3 的 AI Agent,展现了 xAI 团队在自主智能体规模的最新进展。

各项才调一骑绝尘
"咱们绝顶欢畅大约推出 Grok3,咱们合计,在很短的技艺内,它的功能比 Grok2 强盛一个数目级。这要归功于一支不成念念议的团队的冗忙责任,我很红运能与这么一支优秀的团队配合。"马斯克在发布会上说说念。
马斯克还炫耀,Grok 3 由 Colossus 超等谋略机磨砺完成,这台谋略机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了高出 2 亿 GPU 小时的谋略资源——是 Grok 2 的 10 倍。
据 xAI 团队先容,xAI 最初始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。权贵的算力提高让 Grok 3 大约更高效地处理高大数据集,缩小磨砺技艺。就地他们便晒出了一组和 ChatGPT 的数据对比图,并示意固然 Grok 起步较晚,但在 MMLU 得分上以超快地速率追上了 ChatGPT。

何况 Grok3 在 LMSYS(大模子竞技场)中的排行亦然一骑绝尘。

其中 Grok-3 和 Grok-3 mini 在多方面性能上齐高出或比好意思 Gemini、DeepSeek 和 ChatGPT 等敌手。
发布会列出的数据炫耀,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,弘扬卓越了通盘主流模子,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro 等。
而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版块,则凭借强盛的推理才调,卓越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模子。

此外,xAI 团队还现场演示了一个任务,条目 Grok-3 在现场生成一段对于天外辐射的 3D 动画代码。在苟简两分钟的念念考后,Grok 3 生成了可径直运行的 Python 代码,得胜展示了不错运行的 3D 动画。
除此除外团队还条目 Gork-3 制作一款一样于俄罗斯方块和坚持迷阵的游戏。在 Grok-3 念念考了数分钟后,给出了谜底。
终末,xAI 团队演示了一个全新的居品,基于 Grok 3 的搜索引擎 —— DeepSearch 。
它不仅大约搜索网页并查找现存尊府,还能"推测用户的真确意图"并进行念念考。通过交叉对比多个信息源,它大约确保"复返最准确的谜底"。
Grok 3 搅拌 AI 大模子格式
直播限度后,不少网友纷繁发声。
AI 大牛卡帕西追想了一下我方的"先行版"使用体验:
当先 Grok 3 的"念念考"功能绝顶先进,大约出色地处治复杂问题,如创建《卡坦岛》立场的棋盘游戏网页。比较之下,其他顶级模子(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能处治换取问题。除此除外,Grok 3 也能尝试处治如黎曼假定等烦懑。
其次 Grok 3 还具备一样"深度盘考"的搜索功能,大约提供高质料的盘考问题谜底。举例,它大约回复 Apple 新品发布、Palantir 股价高涨等问题。但在某些情况下,它会格外地产生幻觉(如格外的 URL 或不准确的事实)。
终末在测试一些肤浅的"陷坑"问题时,Grok 3 弘扬精熟,大约正确回复一些逻辑谜题。但在幽默和说念德问题方面,它仍然存在一些问题,如生成重迭见笑和对复杂伦理问题过于明锐等。
但总的来说 Grok 3 举座弘扬接近 OpenAI 的 o1-pro 模子,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

Imarena.ai 官方更是在进程测试后发文称:
Grok-3 是首个冲破 1400 分的模子,在通盘类别中排行第一,这是一个越来越难以罢了的里程碑。

更有网友直呼:Grok 3 可能是本质天下中在物理层面处理得最佳的基础大言语模子了!天然也有网友在测试之后,合计 Grok 3 在编程方面并不是很擅长。
值得一提的是,Grok 3 第一批赢得拜谒权限的东说念主将当先从 X 上的 Premium+ 订阅者初始,而世俗用户何时能用上,他们也并不明晰。
但基于网友们对 Grok 3 批驳不一的评价,雷峰网不禁估计,这被 "钞才调" 扯旗放炮砸出来的的 " no.1 " 在权限全面放开之后会不会口碑南北极回转,亦或是依旧好评如潮,稳坐 AI 大模子王座?
技艺还早,让枪弹再飞一会。
参考贯穿:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09kaiyun官方网站
