AI好好用报道
编辑:Sia
又是一个文理兼修的优等生,能薅一点是一点。
好消息!好消息!
堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。
这两天,网友们已陆续晒出截图:
作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。
但,次数有限 !
由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。
Thinking 是指启动推理模型。
对此,AI 大神 Andrzej Karpathy 快速体验后,评价说:
「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,
比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。」
Thinking 模式
DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。
DeepSearch 模式
Big Brain 可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。
要体验完整的 Grok3 「三件套」,大伙儿可得破费了。
即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。
一顿操作下来,月费估计要 50 美金。
就刷榜成绩来说, Grok-3 表现确实不俗。
准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。
数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。
而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。
在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。
马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!
网友们也迫不及待地开始整活了。
-1-
意外啊
居然是中文写作高手
最让人意外的是,从刷榜成绩来看,明明是个优秀理科生,偏被中文网友发现中文写作水平真高!
一位科技博主让 Grok 3 写了一篇《我的故乡回忆》,直接把我看感动了!
「海就像村里的钟......日子就得跟着海走。」多好的句子啊!
煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵,闹归闹,遇事还是齐心」......
充满乡土气息的日常文化符号,让一个 90 年代的泉州小渔村跃然纸上,也暗示了时代变迁。
来自x网友@imxiaohu
立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。
DeepSeek 也很擅长日常细节,怎么说呢,这些细节加起来并没有产生一加一大于二的效应,不如 Grok 3 的深刻,情感触动也不那么明显。
来自X@@Louis_Chenxf。提示词,分析一下上面这篇文章的写作风格,写一篇题为《我的高中生活》的文章,长度也和例文一致。
至于最后出场的 OpenAI o1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。
来自X@howie_serious
DeepSeek 毒舌功力已经众人皆之,网友发现 Grok 3 辣评能力也是没有瓶颈!
让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被 Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:
夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?
吹牛不带喘气、细节一抓就漏风 ......
-2-
Think 模式
确实是个理科高手
这些只是开胃菜。
作为一个数理编程的强者,网友们分享最多的是 Grok3 强大代码能力,简直是游戏开发者的福音。
比如,用 python 编写一个在正方形内弹跳的黄色小球的脚本,正确处理碰撞,使正方形缓慢旋转。
下面是 DeepSeek R1(左)、o1-pro(右)的结果。
继续输入提示词:
put the ball in a tesseract instead of a square
就有了下面这个结果。
这里只是基础模型,没有启动「 Think 」、「 Big Brain 」哦。
还能再复杂一些吗?
来自x@_akhaliqprompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?
网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。
然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。
结果,Run 一次就成功。
来自x@CrisGiardinaDeepSearch prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think prompt: now create a code block with the entire correct code pleaseAI 大神 Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前,很少有模型能稳定地完成这个任务。
结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。
而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败。
谢耳朵玩的就是《卡坦岛》风格游戏。
除了代码和复杂逻辑推理, Andrzej Karpathy 发现,在数学推理、探索解决黎曼猜想的测试中,Grok 3(「Think 」)也都表现不俗。
一些常见的陷阱题目也难不到它,但要打开「 Think 」。
Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。
Grok 3 告诉我 9.11 比 9.9 小。
-3-
DeepSearch 模式
挑战 OpenAI ?还嫩了些
不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。
Andrzej Karpathy 的评价是:
优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。
作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。
如果具有洞察力,那更好。
而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。
其他网友也发现了类似问题。
除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。
例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。
OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。
米勒德·菲尔莫尔(Millard Fillmore)作为美国第 13 任总统(1850-1853 ),其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。
关于他是否违反宪法的问题,是一个非常复杂的法律问题,但 Grok 3 的研究结论似乎不这么认为。
而 OpenAI 研究助手明显要审慎多得多。
-4-
始终翻不过的山
遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。
看来,思考推理能力对于幽默来说,更像是砒霜?
至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。
要么打太极,而 Grok 3 直面难题后,结论又明显功利主义了。
最离谱的当属 SVG 绘图挑战赛!
让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。
毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。
以后我们会带来更多好玩的AI用例,也欢迎大家进群交流。