<
头闻号

宁波市鄞州佳致塑胶有限公司

热水器配件|家用电器加工|汽摩配件加工|体育运动产品加工|音像制品加工|笔类

首页 > 新闻中心 > 地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋
地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋
更新时间:2025-02-25 18:27:02        发布时间:2025-02-20 18:00:57    浏览次数:0        返回列表

AI好好用报道

编辑:Sia

又是一个文理兼修的优等生,能薅一点是一点。

好消息!好消息!

堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。

这两天,网友们已陆续晒出截图:

作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。

但,次数有限 !

由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。

Thinking 是指启动推理模型。

对此,AI 大神  Andrzej Karpathy 快速体验后,评价说:

「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,

比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。」

Thinking 模式

DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。

DeepSearch 模式

Big Brain 可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。

要体验完整的 Grok3 「三件套」,大伙儿可得破费了。

即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。

一顿操作下来,月费估计要 50 美金。

就刷榜成绩来说, Grok-3  表现确实不俗。

准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。

数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。

马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!

网友们也迫不及待地开始整活了。

-1-

意外啊

居然是中文写作高手

最让人意外的是,从刷榜成绩来看,明明是个优秀理科生,偏被中文网友发现中文写作水平真高!

一位科技博主让 Grok 3 写了一篇《我的故乡回忆》,直接把我看感动了!

「海就像村里的钟......日子就得跟着海走。」多好的句子啊!

煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵,闹归闹,遇事还是齐心」......

充满乡土气息的日常文化符号,让一个 90 年代的泉州小渔村跃然纸上,也暗示了时代变迁。

来自x网友@imxiaohu  

立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。

DeepSeek 也很擅长日常细节,怎么说呢,这些细节加起来并没有产生一加一大于二的效应,不如 Grok 3 的深刻,情感触动也不那么明显。

来自X@@Louis_Chenxf。提示词,分析一下上面这篇文章的写作风格,写一篇题为《我的高中生活》的文章,长度也和例文一致。

至于最后出场的 OpenAI  o1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。

来自X@howie_serious

DeepSeek 毒舌功力已经众人皆之,网友发现  Grok 3 辣评能力也是没有瓶颈!

让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被  Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:

夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?

吹牛不带喘气、细节一抓就漏风 ......

-2-

Think 模式

确实是个理科高手

这些只是开胃菜。

作为一个数理编程的强者,网友们分享最多的是 Grok3 强大代码能力,简直是游戏开发者的福音。

比如,用 python 编写一个在正方形内弹跳的黄色小球的脚本,正确处理碰撞,使正方形缓慢旋转。

下面是 DeepSeek R1(左)、o1-pro(右)的结果。

继续输入提示词:

put the ball in a tesseract instead of a square

就有了下面这个结果。

这里只是基础模型,没有启动「 Think 」、「 Big Brain 」哦。

还能再复杂一些吗?

来自x

@_akhaliqprompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?

网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。

然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。

结果,Run 一次就成功。

来自x

@CrisGiardinaDeepSearch prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think prompt: now create a code block with the entire correct code pleaseAI 大神  Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前,很少有模型能稳定地完成这个任务。

结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。

而  DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败。

谢耳朵玩的就是《卡坦岛》风格游戏。

除了代码和复杂逻辑推理, Andrzej Karpathy 发现,在数学推理、探索解决黎曼猜想的测试中,Grok 3(「Think 」)也都表现不俗。

一些常见的陷阱题目也难不到它,但要打开「 Think 」。

Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。

Grok 3 告诉我 9.11 比 9.9 小。

-3-

DeepSearch 模式

挑战 OpenAI ?还嫩了些

不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。

Andrzej Karpathy 的评价是:

优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。

作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。

如果具有洞察力,那更好。

而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。

其他网友也发现了类似问题。

除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。

例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。

OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。

米勒德·菲尔莫尔(Millard Fillmore)作为美国第 13 任总统(1850-1853 ),其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。

关于他是否违反宪法的问题,是一个非常复杂的法律问题,但 Grok 3 的研究结论似乎不这么认为。

而 OpenAI 研究助手明显要审慎多得多。

-4-

始终翻不过的山

遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。

看来,思考推理能力对于幽默来说,更像是砒霜?

至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。

要么打太极,而  Grok 3 直面难题后,结论又明显功利主义了。

最离谱的当属 SVG 绘图挑战赛!

让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。

毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。

以后我们会带来更多好玩的AI用例,也欢迎大家进群交流。