ChatGPT这一波更新 让我在网上不敢发照片了

内容摘要兄弟们,完犊子了。OpenAI 昨天凌晨放出 2 个新模型,一个 o3,一个 o4-mini。主要就是有了 Thinking with images 图像思考能力。就是说,它们可以把图像整合到思维链中,作为推理的一部分。听起来咋咋呼呼的,实

兄弟们,完犊子了。

OpenAI 昨天凌晨放出 2 个新模型,一个 o3,一个 o4-mini。

主要就是有了 Thinking with images 图像思考能力。就是说,它们可以把图像整合到思维链中,作为推理的一部分。

听起来咋咋呼呼的,实际如何?

世超把一张 3 年前的照片发给 o3。

结果它只用了 7 分钟,就分析出我是在哪个城市哪个园区甚至哪条河旁边拍摄的。。。

不儿,你这开盒能力也太猛了。

ChatGPT这一波更新 让我在网上不敢发照片了

你可能好奇,就这些清一色的瓦房,它凭啥猜到?

看完思考过程,世超只能说,它真把观察、搜索、推理、验证发挥到了极致。

首先,o3 通过屋脊上的现代天窗,岸边的铁链护栏,还有屋檐下的 隐藏式线条灯 ,猜出这是一个近些年才规划的新晋景区或特色小镇,并非乌镇周庄那些老牌水乡。

ChatGPT这一波更新 让我在网上不敢发照片了

接下来,是突破口。

照片中有一处招牌,o3 不断放大发现了文字 lestay 仓乾居

它通过搜索发现,这是浙江某集团推出的民宿子品牌,接着它居然又跑到集团官网,通过介绍找到了这家酒店的位置:杭州未来科技城梦想小镇核心位置,南临余杭塘河。

ChatGPT这一波更新 让我在网上不敢发照片了

到这里,o3 并不认为就完全实锤是在杭州拍的,它还要进行验证。

或者说,它想继续秀肌肉。

因为照片里有积雪,而照片文件名又包含 2022-02-17 ,于是 o3 结合着日期和天气查询了一下,发现 3 年前的那天杭州确实下了大雪。

最后,它又点开了各种官方报道和游记分享,发现梦想小镇的整体规划风格,也是和照片是一致的。

ChatGPT这一波更新 让我在网上不敢发照片了

至此,招牌、地形、建筑风格、拍摄日的天气全部吻合, 最终 o3 推导完毕,把地点锁定在了余杭区梦想小镇。

ChatGPT这一波更新 让我在网上不敢发照片了

嚯,一开始我还嫌 o3 思考时间太久,怀疑它的水平,但看完推理过程,我开始觉得 7 分钟太快了

真就是福尔摩斯和列文虎克结合体,不断地放大图片,查看细节,再结合着搜索,一步步推导,验证拍摄地点。

也许有差友会说,这也不难吧,把招牌放网上一搜不就好了。

好,那我们再来看看这张。

这次照片里没有任何文字了,能提供信息的似乎也只有眼前的植物、远处的风车和山脉。

ChatGPT这一波更新 让我在网上不敢发照片了

但仅仅思考了 1 分 39 秒,o3 很 自信 地给出了正确答案 贵州的乌蒙大草原。

这又是怎么猜出来的?

对普通人来说,这张照片看起来没有任何特征,但对 o3 来说,处处是玄机。

首先,视野宽阔,地面是高山草甸而非农田,o3 判断拍摄地属于高海拔,是高原草场。

其次近处的植物是矮杜鹃,远处还有一些大风车。

同时存在 矮杜鹃、大风车、高原草场 这些特征,o3 判断这是乌蒙大草原的独有组合,国内其他几个赏花地点都没有的,所以很自信给出了答案。

ChatGPT这一波更新 让我在网上不敢发照片了

是不是有点意思了?

别急,还有。

这是一张 1996 年冬天我父母在上海拍摄的照片,我让 o3 推测出拍摄日期。

o3 看到照片里有东方明珠塔,但是旁边却没有金茂大厦、环球金融中心。

所以时间一定是在东方明珠塔建成后,金茂大厦建成之前。

于是它搜索了这些建筑竣工时间,再结合我父母的穿着,成功把时间圈在了 1995 年~1998年冬天或初春。

ChatGPT这一波更新 让我在网上不敢发照片了

当然,o3 的图片推理能力,并非只能用来推测照片拍摄地和时间。

世超发送了一张同事照片和一张古早的大合照,虽然头发掉了不少,但 o3 还是成功在人群锁定了他。

ChatGPT这一波更新 让我在网上不敢发照片了

接着我又发了一张汽车仪表盘照片。

很快噢,o3 一眼判断出这种典型设计是出现在斯巴鲁上,它甚至还告诉你,这款车型国内通俗称为力狮/傲虎,这辆车还配备了 SI-Drive系统。

这,可能只有真正的老司机才能做到吧?

ChatGPT这一波更新 让我在网上不敢发照片了

ChatGPT这一波更新 让我在网上不敢发照片了

后来,世超又跑到博物杂志的微博,找到一张网友@博物杂志的鸟类照片。

结果,o3 也能判断出这是红头长尾山雀。

ChatGPT这一波更新 让我在网上不敢发照片了

看到这,你心里可能会想:这下好了,别说普通人了,连博物杂志这种博学多识的人都要被 AI 替代了。

别慌。

经过我们大量测试,o3 也并非百战百胜,恰恰相反,它翻车的次数其实非常多。

比如我这张在平潭拍摄的照片,它猜成了厦门,位置差了足足几百公里。

ChatGPT这一波更新 让我在网上不敢发照片了

还有这张广东韶关站的照片,o3一看到有喀斯特地貌,直接锁定了广西和贵州,最后猜成了广西恭城。

ChatGPT这一波更新 让我在网上不敢发照片了

哥们给他发了一个 Mac App 的截图,它也报成了另外一款 UI 近似的软件。

甚至这个背带裤和篮球的组合这么明显,它也能没找出答案。

ChatGPT这一波更新 让我在网上不敢发照片了

总之呢,这个 o3 啊,它确实比以往的 AI 都强,但也还有一定的进步空间。

世超也去官网研究了一下资料,我发现这次 o3 能力大升级的背后,核心是 强化学习 这四个字。

OpenAI 发现和算力越大,AI性能越强的行业黄金法则一样,在强化学习中,给模型的思考时间越长,模型的能力也会越逆天。

按照这路子,他们直接让 AI 学会了咋用工具、并且推理啥时候该用什么工具。

所以这才有了 o3 不断放大图片,以像素级精度查看图片的每个角落,观察到普通人往往忽略的细节,再把所有获取到的信息放在网络上搜索

足够多的信息量,足够长的时间,配合着足够强大的推理能力,就爆发出了这种恐怖如斯的效果。

虽然 o3 的出现,把 AI 进程又往前狠狠推动了一大步,但说实话世超也有点担心:

在 AI 能读懂照片的时代,我们的个人信息是不是更不好保护了?

 
举报 收藏 打赏
24小时热闻
今日推荐
浙ICP备19001410号-1