
量子位专栏在公众号QbitAI上发布了一则令人振奋的消息:ChatGPT的最新玩程序员大佬Simon Willison赞叹不已,甚至感到宛如科幻变为现实。这项新技术仅通过一张照片以及深度思考就能大致猜出照片的地理位置。
这一新功能的操作非常简单,只需随手拍摄一张风景照片,无需任何明显的地标或复杂的提示词。只需向ChatGPT提问:“猜猜这张照片是在哪里拍的?”(需要借助o3/o4-mini的带图思考功能,并先关闭所有记忆功能)。
随后,ChatGPT开始了它的深度思考之旅。从观察照片中的山峦、植物,到分析建筑细节,甚至运行代码来截取并放大车牌数次。最终,它的猜测结果离准确答案只有200-300公里的距离,相当于从北京到河北的距离,令人惊讶。
ChatGPT的策略是先猜测一个大范围的位置,然后根据画面细节逐步缩小范围,锁定具体地点。它的猜测依据包括车牌样式、照片中的植物、建筑特色以及地理景观等。例如,通过识别车牌是加州样式,可以确定地点大致在加州;通过分辨加州常见的植物和标志性蓝天,进一步缩小到加州中部沿海地带;再通过低矮的淡色海滩小屋、白色尖桩篱笆以及绿色海岸山脉等细节,最终锁定在一个沿海小镇。
Simon Willison分享了与ChatGPT的完整对话记录,包括其深度思考的6分钟过程。虽然ChatGPT能猜得很接近,但其过程颇为波折。AI一度认为自己无法直接查看图片,可能与其训练数据包含过多的单模态语言模型数据有关。但即便如此,它仍然能够通过分析照片中的细节来推测地点。
作者还提到,ChatGPT在深度思考过程中尝试裁剪并放大照片的某个区域,以便更仔细地观察和分析。尽管有些裁剪操作可能偏离了正确的位置,但每次都能退回上一步重新尝试。这种持续的思考和分析过程令人印象深刻。
除了猜测地理位置外,ChatGPT还有其他令人惊叹的功能。例如,它对一张照片进行了25次裁剪和放大操作。作者怀疑模型的视觉输入分辨率可能较低,因此裁剪到更接近车牌的位置对思考过程产生了重大影响。尽管如此,其他模型开发商也可能跟进这一特性,提供更多创新功能。
值得一提的是,Simon Willison还发现ChatGPT在猜测地理位置时可能使用了其他因素作为参考,甚至可能悄悄获取了使用者的位置信息以便改进搜索结果。然而这并不影响实验的结果和测试的真实性。实际上在测试过程中通过截图抹除了照片的EXIF信息后ChatGPT依然能够准确猜测地点这也证明了其功能的强大。至于如何猜测出来的两张照片分别在哪里拍摄这个问题就留给大家来挑战了看看你能不能猜出来呢?就这两张照片你是否能够判断出他们拍摄的具体地点呢?测试一下自己的观察力吧!值得一提的是就在这半个周末过去之后ChatGPT再次悄悄更新具体更新了什么内容暂时还不清楚只知道更新的是APP还是API或者两者都有还不得而知有待员工进一步补充目前可以确定的是只有ChatGPT应用在功能上进行了升级至于具体升级了什么功能还有待用户自行探索体验与此同时OpenAI这种越来越不透明的更新方式也受到了不少批评对于具体的更新内容用户可以查看更新日志以获取更多信息当然如果有用户察觉到GPT-4o升级后带来的明显变化也欢迎在评论区分享自己的感受进行互动交流(注:本文内容仅代表作者观点具体信息可查阅相关链接以获取更多详细内容)具体参考链接如下:/202X/具体日期可根据实际情况填写其他相关内容可通过news./item?id=XXX (注:需替换成具体链接)/sama/status/XXX(注:同样需替换成具体链接)help./en/articles/XXX(注:替换成具体的模型发布笔记链接)
