上一篇文章我们从文本交流方面对比了GPT4o和GPT4,从最终结果上看GPT4o的进步还是不小的。那么这篇文章我就带着大家从图片识别和生成、文档内容读取两方面来更深入的对两个版本就行对比测试。
首先我们先进行图片识别对比,我们将从自然风景、艺术作品、文字标注、人物识别来分别对比测试一下。
自然风景:
这坐山是南迦帕尔巴特峰
GPT4o
GPT4
艺术作品:
毕加索的
GPT4o
GPT4
文字标注:
两个常见的警示标志
GPT4o
GPT4
人物识别:
埃隆马斯克
GPT4o
GPT4
然后加大难度试一下,询问他人群里面哪个是马斯克
复杂场景
GPT4o
GPT4
再次增加难度,用comfyUI生成的图片询问他们是否能识别出ai生成的图片
comfyUI生成的
GPT4o
GPT4
通过上面对比可以发现在图片内容识别上,无论是GPT4o还是GPT4都能比较准确的做出判断,甚至对风景图片的位置也能进行比较准确的判断。不得不说,GPT在图片识别方面确实很厉害。但是,在后面对ai生成的图片进行判断识别的时候却产生了一些差异,GPT4无法判断图片是否由ai生成的,而GPT4o却第一句话就表示可能是ai生成的,并且给出来了判断依据,说明GPT4o在图片更细节的识别以及知识库的储存量是要比GPT4要强上些许的。
于是我就询问了一下他们的信息储备时间如下图:
GPT4o
GPT4
可以看出来GPT4o的信息储备是在我询问他问题的这一天,说明他的信息储备是实时更新的。而GPT4这边却只显示在2023年十二月,估计是官方在那个时间点已经不再更新GPT4的数据库了,估计是把心思放到了GPT4o的数据更新上,亦或是新一代的大模型上。
在图片生成方面
- 图生图
分别让GPT4o和GPT4对上面comfyUI生成的图片进行相同内容的生成:
GPT4o
GPT4
根据上面回答可以看出来,GPT4o不能进行图生图,而GPT4可以进行图生图的操作,但是结果相似度很一般。
- 文生图
我用comfyUI生成猫娘的提示词分别发给GPT4o和GPT4,得到如下回答:
我给的提示词
GPT4o和GPT4回答相同
然后我就减少了一些提示词的数量,也就是减少细节:
回答还是一样
我又减少提示词
GPT4o的结果
可以看出来,生成的图片已经跟原来的图片天差地别了,所以当图片提示词(细节)过多的时候两个版本都无法生成对应图片,所以生成图片的特指性太差,如果有生成特定图片需求的话还是建议用专用来生成图片的ai,能更精确的生图;如果是想让ai发挥自己的创造力的话可以用GPT生图。
总的来说,图生图GPT4o是要差GPT4一些的,文字生图方面两个半斤八两,对单次描述文本量过大、细节过多的都无法生成,还待进步。
文档内容读取
文档内容读取方面我们从文档内图片识别、信息读取和修正、文本寻找三方面来浅测一下。
我们准备的是一份Word文档,里面是一篇论文,一共一万四千多字。我们在里面加入一张图片(图片还是上面那个ai生成的)和对图片的错误描述,以及插入个别跟文章不相关的信息。
- 首先是文档图片识别
GPT4o
GPT4o给出的是我在下面写的错误描述
GPT4
可以发现两个模型都无法读取文档里面图片上的内容,GPT4o还把我发的误导信息给拿出来了。
信息读取修正
GPT4o
GPT4
我在文档里面的随机两个位置输入的与文档无关的话,都成功的被两个模型读取出来并且进行了修改。
文本寻找
我们分别询问两个模型“文献6”,他们的回答如下
GPT4o
GPT4
可以发现GPT4o可以准确的寻找出我们想要的信息,而GPT4却不知所云。所以在文本方面GPT4o是明显要比GPT4强出不少的。
总结
GPT4o的信息储备,识别能力等都大于等于GPT4,是GPT4的增强版本,实用性是要更强,所以普通用户可以先不用购买会员的,利用免费次数足够解决大多数问题了。
最后说一下上一篇很多盒友们提出的问题。
第一、为什么没有找到GPT4o?
先说网页上,使用网页访问没找到的兄弟们可以在GPT对话下面找到一个星星的标志,点一下可以看到模型选择,选择GPT4o就可以了。
然后是手机APP(记得更新到最新版本),长摁GPT回复的对话,选项最下面有个星星,点一下可以选择模型。
如果以上方法都没解决,那就要么是网不好,要么是节点不对,可以换一换试试。
第二,怎么使用?
网页版百度直接搜官网就能搜到,不过要魔法才能进网页。
APP只能谷歌商店下载,也要魔法。
没有魔法的小伙伴就只能先等一等国内某些大模型更新GPT4o了。