6. 地表最强AI:马斯克Grok 3, 美国最后一张大模型船票
2025年2月18日,特斯拉创始人埃隆·马斯克旗下的人工智能公司xAI,正式发布了其最新一代大模型——Grok 3。马斯克在发布会上称,Grok 3的能力较前代产品Grok 2提升了“一个数量级”,并将其誉为“地球上最聪明的人工智能”。这一消息迅速在科技界和社会各界引发了广泛关注和热烈讨论。
1. 马斯克拿到了参与下一轮大模型竞争的船票
a. Grok 3系列模型还不是满血版。基础模型Grok-3仍处于Beta阶段,官方宣称数学(AIME基准)、科学问答(GPQA基准)、编码(LCB基准)能力超越了GPT-4o、Gemini-2 Pro与DeepSeek-V3;
b. 精简版Grok-3 mini能更快地回答问题,但准确性会有所降低。
c. 推理模型Grok-3 Reasoning也处于Beta阶段,官方宣称水平超过了o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking;
d. 精简版的训练时间更长,有时表现略好于beta版的推理模型。相比普通的“Think”模式,如果用更多算力在“Big Brain”模式下推理,它们会更聪明一点。
2. X的高级订阅用户将可以率先尝试Grok 3
a. 推理或深度查询这些服务会藏在即将推出的SuperGrok订阅服务中,收费30美元/月或300美元/年(暂不清楚是否会在X的Premium Plus之上额外收费,后者目前每月为40美元);
b. 最快一周,Grok 3将上线“语音模式”;几周后,Grok 3将向机构客户开放API,DeepSearch也会在几周后上线;几个月后,Grok 3才能最终成熟稳定。
c. 这有点类似马斯克在特斯拉FSD上的玩法,先让付费用户测试,最终迭代成熟。
3. Grok 3的推理能力领先于 DeepSeek-R1
a. 在OpenAI与特斯拉担任过AI开发重任的大神卡帕西(Karpathy),这次拿到了先行体验资格。
b. 在他看来,Grok 3的推理能力,大概处于 o1-pro 的水平,领先于 DeepSeek-R1;而DeepSearch功能大致相当于Perplexity的,但要低于OpenAI的。他还发现Grok 3并不能很好地搜索X上的信息。
c. Grok-3是唯一一个在Chatbot Arena上拿到了1400分以上的大模型,这也相当于它的“实战”水平。它的竞争对手包括Gemini-2、ChatGPT-4o、DeepSeek-r1与o3-mini等。
4. xAI的竞争压力仍然很大
a. OpenAI已经公开了下一代基础模型的存在,即相当于o3+GPT-4.5的GPT-5,其中,o3已经于去年12月公布,GPT-4.5将于几周内发布,而GPT-5会在几个月内发布。如果卡帕西的评价合理,那么,在几个月后才能完全成熟的Grok 3,大概率很难打赢GPT-5。OpenAI也在建造星际之门,为下一代模型GPT-5.5增加100倍的算力。
b. 而DeepSeek恰好也在今天介绍了更高效的NSA机制,它可以优化现代硬件设计,在加速推理同时降低预训练成本,并且不牺牲性能。或许更高性价比的V4已经在路上了。
短评:
大模型厂商正在往价值链的上下游扩展,寻求降低成本,或增加收入。美国巨头的大模型拥有更丰富的变现渠道。比如,谷歌闭源的Gemini,Meta开源的Llama,都能赋能自己的互联网服务。
马斯克的特斯拉,可以向人类司机提供专业的“代驾”服务;人形机器人擎天柱也是可选项。马斯克的SpaceX拥有发射与卫星互联网业务,已经拥有了政府与军方的订单;马斯克还称再过两年把Grok装到火箭上。马斯克的Neuralink或许也能从中受益。在直播中,马斯克还半开玩笑地宣称,将在xAI内部成立一个自动化的游戏工作室。这些是马斯克继续参与大模型竞争的最大底牌。