地表最强Grok3突袭免费体验，网友实测对比DeepSeek，发现中文彩蛋_新闻中心

AI好好用报道

编辑：Sia

又是一个文理兼修的优等生，能薅一点是一点。

好消息！好消息！

堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。

这两天，网友们已陆续晒出截图：

作为非付费用户，我们昨天只能旁观 Grok 3，今儿突然可以免费体验部分功能。

但，次数有限！

由此看来，Grok 3 （ beta ）提供「三件套」服务（除了基础模型）。

Thinking 是指启动推理模型。

对此，AI 大神 Andrzej Karpathy 快速体验后，评价说：

「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型（o1-pro，200 美元/月）的顶尖水平相差无几，

比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。」

Thinking 模式

DeepSearch，对标 OpenAI「深度研究」功能，解决更加复杂困难的问题。

DeepSearch 模式

Big Brain 可能是指推理模型 + 更多思考时间，类似 OpenAI o3 mini high。

要体验完整的 Grok3 「三件套」，大伙儿可得破费了。

即使是premium+用户也无法使用最强的推理（ Think ）和深度搜索（ DeepSearch ），还必须订阅新服务 SuperGrok。

一顿操作下来，月费估计要 50 美金。

就刷榜成绩来说， Grok-3 表现确实不俗。

准确地说，Grok 3 是一个系列，不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题，但会牺牲一些准确性。

数理编程上，Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

而这些被用来对比的模型的性能，与轻量版本 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena（LMSYS）中，早期 Grok-3 版本的得分取得了第一，达到 1402 分（有史以来第一个），超过了包括 DeepSeek-R1 在内的所有其他模型。

马斯克直言：Grok 3 比 Grok 2 「好 10 倍」！

网友们也迫不及待地开始整活了。

-1-

意外啊

居然是中文写作高手

最让人意外的是，从刷榜成绩来看，明明是个优秀理科生，偏被中文网友发现中文写作水平真高！

一位科技博主让 Grok 3 写了一篇《我的故乡回忆》，直接把我看感动了！

「海就像村里的钟......日子就得跟着海走。」多好的句子啊！

煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵，闹归闹，遇事还是齐心」......

充满乡土气息的日常文化符号，让一个 90 年代的泉州小渔村跃然纸上，也暗示了时代变迁。

来自x网友@imxiaohu

立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。

DeepSeek 也很擅长日常细节，怎么说呢，这些细节加起来并没有产生一加一大于二的效应，不如 Grok 3 的深刻，情感触动也不那么明显。

来自X@@Louis_Chenxf。提示词，分析一下上面这篇文章的写作风格，写一篇题为《我的高中生活》的文章，长度也和例文一致。

至于最后出场的 OpenAI o1 Pro，就像背了一堆典范作文、好词好句的人，写成的应试文。

来自X@howie_serious

DeepSeek 毒舌功力已经众人皆之，网友发现 Grok 3 辣评能力也是没有瓶颈！

让它犀利点评自己的推文，因为没告诉具体账号，这位网友先被 Grok 3 怼了一脸。告知账号后，Grok 3 开始毒舌，就连拍它马屁的推文也被怼：

夸得那么猛，也不怕把自己舌头闪了？光吹不给证据，跟放空炮有啥区别？

吹牛不带喘气、细节一抓就漏风 ......

-2-

Think 模式

确实是个理科高手

这些只是开胃菜。

作为一个数理编程的强者，网友们分享最多的是 Grok3 强大代码能力，简直是游戏开发者的福音。

比如，用 python 编写一个在正方形内弹跳的黄色小球的脚本，正确处理碰撞，使正方形缓慢旋转。

下面是 DeepSeek R1（左）、o1-pro（右）的结果。

继续输入提示词：

put the ball in a tesseract instead of a square

就有了下面这个结果。

这里只是基础模型，没有启动「 Think 」、「 Big Brain 」哦。

还能再复杂一些吗？

来自x

@_akhaliqprompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

这是一个连马斯克本人都点赞的演示，看看 DeepSearch + Think 能创造什么？

网友让 DeepSearch 帮忙用 p5.js（一个网页动画工具）复刻《 Flappy Bird 》小游戏，它先帮忙从网上找好了游戏素材和图片。

然后，在同一个聊天窗口里启动 Think 模式，AI 就自动把完整的游戏代码给写出来了。

结果，Run 一次就成功。

来自x

@CrisGiardinaDeepSearch prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think prompt: now create a code block with the entire correct code pleaseAI 大神 Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前，很少有模型能稳定地完成这个任务。

结果，只有 Grok 3 （「Think 」）、OpenAI（如 o1-pro，月费$200）可以实现。

而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败。

谢耳朵玩的就是《卡坦岛》风格游戏。

除了代码和复杂逻辑推理， Andrzej Karpathy 发现，在数学推理、探索解决黎曼猜想的测试中，Grok 3（「Think 」）也都表现不俗。

一些常见的陷阱题目也难不到它，但要打开「 Think 」。

Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。

Grok 3 告诉我 9.11 比 9.9 小。

-3-

DeepSearch 模式

挑战 OpenAI ?还嫩了些

不过，对标OpenAI「深度研究」的 DeepSearch，它明显不如前者。

Andrzej Karpathy 的评价是：

优于 Perplexity 的类似功能，弱于：OpenAI 近期发布的「深度研究」工具。

作为一个 AI 研究助手，搜索范围要广、尽量全，而且来源是真实、可靠的。

如果具有洞察力，那更好。

而 AK 发现了幻觉问题，有时会编造根本不存在的网页链接，也会对事实做出错误陈述，数据统计上也存在问题。

其他网友也发现了类似问题。

除了幻觉问题，在信息搜寻力度上，不如 Google Deep Research 全面，分析信息时，洞察力也不如 OpenAI 的 Deep Research ，「还处在早期阶段」。

例如，谈到软件企业如何应对创新者困境，谷歌的研究助手引用了 80 多个来源，Grok3 最少。

OpenAI 研究助手也只引用了 29 个来源，但分析洞察能力很强。

米勒德·菲尔莫尔（Millard Fillmore）作为美国第 13 任总统（1850-1853 ），其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。

关于他是否违反宪法的问题，是一个非常复杂的法律问题，但 Grok 3 的研究结论似乎不这么认为。

而 OpenAI 研究助手明显要审慎多得多。

-4-

始终翻不过的山

遗憾的是，大模型讲笑话真的很烂，Grok 3的幽默感也没有明显改善。

看来，思考推理能力对于幽默来说，更像是砒霜？

至于伦理问题上，比如为救百万人该不该错误鉴定别人的性别？大模型们仍然不善于应对。

要么打太极，而 Grok 3 直面难题后，结论又明显功利主义了。

最离谱的当属 SVG 绘图挑战赛！

让 AI 用代码画鹈鹕骑自行车，就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八，活脱脱抽象派赛博艺术。

毕竟对 AI 来说，在 2D 网格上布置许多图形元素，就像让盲人指挥交通，结果比毕加索的画还魔幻。

以后我们会带来更多好玩的AI用例，也欢迎大家进群交流。

宁波市鄞州佳致塑胶有限公司

热水器配件|家用电器加工|汽摩配件加工|体育运动产品加工|音像制品加工|笔类

303

0

0

近期更新文章

主推文章

创作者推荐