又打脸!微软用新的提示策略证明:GPT-4 领先于 Gemini Ultra

微软想要强调的,也是 Gemini 发布时就已显现出来的,是两个模型的性能其实是相当的。

图片来源:由无界 AI生成

简直不讲武德,继上周推出号称其“最新、功能最强大”的 AI 模型 Gemini 后,今日,谷歌宣布将向开发人员和组织提供 Gemini Pro 以及一系列新的人工智能工具、模型和基础架构。

首先,Gemini Pro 可通过 Gemini API 提供给 Google AI Studio(免费的基于 Web 的开发工具)的开发人员。企业也可以通过谷歌云的 Vertex AI 平台进行使用。此外,谷歌还将在 Vertex AI 中引入其他模型,帮助开发者和企业灵活构建和发布应用程序,包括升级版的文生图工具 Imagen 2,以及针对医疗保健行业微调的基础模型系列 MedLM。另外,谷歌还宣布其面向开发人员的在线协作工具 Duet AI 已全面上线。

作为对 OpenAI GPT-4 的回应,谷歌 DeepMind 称,Gemini 的 Ultra 版本在 32 项标准性能指标中,有 30 项指标都优于 GPT-4。

然而,发布还不到一天,Gemini 就遭到了质疑,不仅测试标准有失偏颇,连效果视频也疑似剪辑。

无独有偶,微软今日发文更是把谷歌的脸打的啪啪响。微软称,GPT-4 与特殊的提示策略相结合,在语言理解基准 MMLU(衡量大规模多任务语言理解能力)中的表现优于谷歌 Gemini Ultra。


微软的反击:复杂提示提高基准性能


据悉,Medprompt 是微软最近推出的一种提示策略,最初是针对医疗挑战而开发的。不过,微软的研究人员发现,它也适用于更广泛的应用。

通过使用改进版的 Medprompt 运行 GPT-4,微软在 MMLU 基准测试中获得了新的技术水平 (SoTA) 分数。根据报告,GPT-4 在 MMLU 中的表现达到了 90.10% 的历史新高,超过了 Gemini Ultra 的 90.04%。

注:MMLU 基准测试是一项常识和推理的综合测试。它包含数学、历史、法律、计算机科学、工程和医学等 57 个学科领域的数万个题目。它被认为是语言模型最重要的基准。

据悉,最初将原始 Medprompt 应用于 GPT-4 在综合 MMLU 上的得分率为 89.1%。而通过将 Medprompt 中的集合调用次数从 5 次增加到 20 次,GPT-4 在 MMLU 上的表现进一步提高到 89.56%。为了达到新的 SoTA,微软的研究人员将 Medprompt 扩展为 Medprompt+,方法是在 Medprompt 中添加一种更简单的提示方法,并制定一种策略,将 Medprompt 基本策略和更简单的提示方法的答案结合起来,得出最终答案。

除了 MMLU 基准测试之外,微软还发布了其他基准测试的结果,使用这些基准测试中常见的简单提示来显示 GPT-4 与 Gemini Ultra 的性能比较。据称,GPT-4 在使用这种测量方法的多个基准测试中表现均优于 Gemini Ultra,包括 GSM8K、MATH、HumanEval、BIG-Bench-Hard、DROP 和 HellaSwag。

微软表示,虽然系统化的提示工程可以产生最高性能,但其仍在探索使用简单提示的前沿模型开箱即用性能。微软称,重要的是,要关注 GPT-4 的原生功能,以及如何利用零次或少量提示策略引导模型。如上图所示,在采用更复杂、更昂贵的方法之前,从简单的提示开始有助于建立基线性能。

据悉,微软已在名为 Promptbase 的 GitHub 中发布了 Medprompt 和类似的提示策略,包含脚本、通用工具和信息,可帮助重现上述测试结果。

需要留意的是,在实际应用中,这些基准中的微小差异可能不会有太大影响,毕竟它的目的是用来公关的。微软想要强调的,也是在 Gemini Ultra 发布时就已经显现出来的,是两个模型的性能其实是相当的。

可能正如比尔·盖茨最近所说的那样,当前形式的 LLM 技术已经达到了极限。或许要等到 GPT-4.5 或 GPT-5 的出现,才有可能迎来下一波浪潮。

参考链接: