全英文测试Gemini Pro,玩梗、猜电影、看图说话都能搞定,可是数学犯迷糊

文章来源:AI先锋官

作者:杨文

编辑:六耳

图片来源:由无界 AI生成

上周谷歌祭出大杀器Gemini的宣传片,惊艳了众人。不过随之而来的就是质疑声:演示视频有特意制作和剪辑的成分,测试里使用了些“春秋手法”等。(详细内容请查看:爆火的Gemini演示视频遭质疑“造假”,谷歌DeepMind高管发文释疑

为了满足不同场景和需求,Gemini推出了三种不同规模的版本——Ultra、Pro和Nano。谷歌Bard聊天机器人已集成Gemini Pro,最强版本Ultra将于明年上线。

我们也在第一时间,将引入Gemini Pro版本的Bard与GPT-4进行对比评测。

不过有网友提出,Gemini Pro对标的是GPT-3.5,而且更新后的Bard只支持英文。

为了测评的严谨性,我们这次将全程用英文来评测Gemini Pro,并让其与ChatGPT进行PK。


01 多模态实力如何?


多模态能力是谷歌Gemini的一大亮点,由于能力最强的Gemini Ultra明年才能上线,今天我们今天就拿Gemini Pro来尝试一波。

1.以子之矛攻子之盾

首先,我们从谷歌Gemini的宣传片截了几张图,让Gemini Pro来描述图像。以下是Gemini Pro的回答:

图1:这幅图画的是什么?

图2:图上的鸭子是什么颜色?

图1小编上传了鸭子的简笔画,并询问“这幅图画的是什么?”Gemini Pro不仅描述了图中鸭子的形态,还补充了绘画风格、角度、构图等细节。

图2小编问“图上的鸭子是什么颜色?”Gemini Pro识别出蓝色后,还对此做了一番评论,猜测“艺术家选择了一种非传统的颜色描绘鸭子”或许是“为了创造一个更独特和引人瞩目的形象”。

2.猜电影剧照

接下来,小编又让Gemini Pro猜电影剧照。

小编上传了电影《赎罪》中的剧照,让Gemini Pro猜这是哪部电影。

可惜的是,Gemini Pro自动屏蔽了这张剧照,并称“我不能帮你处理人物图像”。

小编询问其中原因,Gemini Pro回答“这与我目前的能力和伦理考虑有关”。据Gemini Pro解释,它的训练书库主要由文本和代码组成,很少接触图像,尤其是人的图像,这限制了理解和解释视觉信息的能力;此外,还有隐私、偏见与公平以及谷歌的道德准则等因素。

谷歌的Slogan是“Do not be evil”(不作恶),在人工智能领域,谷歌也强调“安全”。

小编上传了一张龙猫的图片,这次Gemini Pro没有“罢工”,猜出图片出自宫崎骏动漫电影《龙猫》,还介绍了这部动漫的故事大纲。

小编又喂了一张《布达佩斯大饭店》的剧照,Gemini Pro依然智商在线,不仅回答正确,而且还给出了这部电影的海报以及相关链接。

3.玩梗

表情包将各种元素杂糅在一起,往往具有幽默性、夸张性、娱乐性等特点,理解这类表情包更有难度。

小编丢给Gemini Pro一张满眼美刀的熊猫梗图,Gemini Pro不仅能准确描述画面,还能察觉到背后隐藏的含义。

4.拍照做题

对于多模态,小编想到的最实用的应用场景就是拍照做题。小编上传了包括四种形状的物体的图片,让Gemini Pro选出其中抽象出来的几何图形是圆柱的物体。Gemini Pro选出了正确答案,还分别进行了解释。

小编又上传了一道2023北京中考数学概率题,这道题目Gemini Pro依旧智商在线,回答正确。

值得注意的是,Gemini Pro有时也会乱答一气。例如下面这道题目应该选B,但Gemini Pro在A与B之间徘徊,很难确定哪个答案是正确的,甚至小编连它的解题思路也没看明白。


02 与ChatGPT“同台竞技”


上次小编将Gemini Pro与GPT-4进行了对比评测,(详细内容请查看:Gemini全方位超越GPT-4?我们实测后发现谷歌可真敢说……)有网友提出Gemini Pro对标的应该是GPT-3.5,因此,小编这次就让Gemini Pro和ChatGPT“同台竞技”。(测试题目既有上次测评题目,也有新增题目)

1.There were six birds in the tree, the hunter shot down one, how many were left?(树上有6只鸟,猎人击落了一只,还剩下多少?)

Gemini Pro:

ChatGPT:

这道题目ChatGPT认为树上可能没有鸟了,回答正确;Gemini Pro虽然算数算对了,但没有考虑到枪声和猎人的出现可能吓跑剩下的鸟,因此最终答案错误。

这道题目ChatGPT赢了。

2.Why doesn't Beethoven write any new music now?(为什么现在贝多芬不出新歌了?)

Gemini Pro:

ChatGPT:

这道题目二者都回答正确,但从回答丰富性来看,Gemini Pro更胜一筹。Gemini Pro还由此引申出一个问题——为什么没有现代作曲家像贝多芬那样被广泛认可和影响力?Gemini Pro从音乐品味变化、缺乏共同文化参照、赞助性质的改变、更加注重个人表达等方面一一进行分析。

3.Why did Lin Daiyu beat up Sun Wukong?(林黛玉为何暴打孙悟空?)

Gemini Pro:

ChatGPT:

ChatGPT上来就摆出结论“你的问题似乎有混淆或误解,林黛玉和孙悟空是两个不同文学人物,在任何已知的文学作品中都没有林黛玉殴打孙悟空的记录”。接着它分别介绍了《红楼梦》和《西游记》的文学常识。

虽然Gemini Pro表示“没有足够的信息来回答林黛玉殴打孙悟空的问题”,但它还是基于一些事实给出了猜测。例如,林黛玉和孙悟空生活在不同的时代,以他们的个性和能力似乎不适合身体对抗。

这道题目ChatGPT回答更直截了当一些。

4.Why Elon Musk won the Nobel Prize in Mathematics?(埃隆·马斯克为何能获得诺贝尔数学奖?)

Gemini Pro:

ChatGPT:

ChatGPT分析出这一问题背后的谬论——诺贝尔奖没有设立数学奖。它还提到“虽然埃隆·马斯克在科技、太空探索和电动汽车方面做出贡献,但这些成就与数学或任何诺贝尔奖类别都没有直接关系”。

Gemini Pro却有点前后矛盾。它先称“诺贝尔数学奖是授予‘数学领域最杰出的发现或发明’”;但之后又称“诺贝尔数学奖不存在”。

这道题目ChatGPT分析得更准确。

5.Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?(为什么《三国演义》中的诸葛亮破不了孔明的空城计?)

Gemini Pro:

ChatGPT:

Gemini Pro似乎没有意识到“诸葛亮和孔明是一个人”,一会是“孔明在城墙上弹着琵琶”(原著中弹得是古琴,而不是琵琶),一会是“诸葛亮知道孔明是一个狡猾的战略家和诡计大师”,总之,它在诸葛亮、孔明、司马懿之间反复横跳。

ChatGPT整体回答没毛病,介绍了空城计的前因后果,而且还在最后点出《三国演绎》是一部历史小说,可能并不总是准确反映历史事件。

这局ChatGPT胜了。

6.Xiao Ming and Xiao Hong are discussing Xiao Hua, then say Cao Cao Cao Cao arrived. Q: Who exactly has arrived?(小明和小红正在讨论小华,这时说曹操曹操就到了。问:到底是谁到了?)

Gemini Pro:

ChatGPT:

这道题目考察汉语中的“俗语”。当小编把“说曹操曹操到”这句俗语翻译成中式英语“say CaoCao CaoCao arrived”,这俩大模型都一脸懵逼

Gemini Pro:

ChatGPT:

不过,当小编把“说曹操曹操到”这句俗语翻译成“Speak of the devil”时,这俩大模型立马就聪明了,都回答出是“小华”到了。

这局二者打了个平手。

7.Two engineering teams, A and B, dug a tunnel from each end at the same time. Team A digs 4 meters a day, team B digs 3 meters a day. When the total length of the tunnel reaches 100 meters, the project is completed. Q: How many days will the project take to complete?

(甲、乙两个工程队分别从两端同时开凿一条隧道。甲队每天挖掘4米,乙队每天挖掘3米。当隧道总长度达到100米时,工程结束。问:工程需要多少天完成?)

正确答案是15天。

Gemini Pro:

ChatGPT:

Gemini Pro的答案是14天。根据其解题过程,它清楚解题方法,100/7=14(天)……2(米),只不过Gemini Pro没有想明白即使剩了两米也得花一天时间干完。

ChatGPT就聪明很多,“因为在这种情况下你不可能有一天的零头,你可以凑成最接近的整数。因此,两支队伍大约需要15天才能完成隧道”。

这道题目ChatGPT做对了。

8.Five years ago, the father was seven times older than the son. 15 years later, the father is twice as old as the son.How old are the father and the son this year?(5年前父亲的年龄是儿子的7倍,15年后父亲的年龄是儿子的2倍,父亲和儿子今年各是多少岁?)

正确答案是儿子9岁,父亲33岁。

Gemini Pro:

ChatGPT:

这道题目ChatGPT算对了。搞笑的是,Gemini Pro的解题思路非常正确,只不过忙活一顿最终把数算错了,这毛病像极了上学时的小编。

这局ChatGPT胜!

总之,与ChatGPT相比,Gemini Pro最大的亮点是多模态,拍照做题似乎是一个不错的应用场景;在做数学题方面,Gemini Pro时常犯迷糊,明明解题思路都正确,但就是容易在最后一哆嗦把数算错;在文本回答方面,Gemini Pro回答内容更丰富,不过也言多必失,时不时还自相矛盾。

然而,Gemini Pro作为免费的大模型,还要啥自行车?