Window
Mac
安卓
iPhone
AI软件
其他软件
文章教程

Google PaLM 2 vs OpenAI GPT-4: 哪个更胜一筹?

2026-04-10 11:35:16 0 次浏览 AI软件

谷歌于 2023 年 5 月 10 日在 Google I/O 2023 上推出了下一代 Pathways Language Model (PaLM 2)。其新的大型语言模型 (LLM) 比其前身 (PaLM) 有很多改进,最终可能成为准备迎接其最大的竞争对手 OpenAI 的 GPT-4。

PaLM 2 与 GPT-4:性能概述

PaLM 2 比其前身具有新的和改进的功能。 PaLM 2 相对于 GPT-4 的独特优势之一是,它的尺寸更小,适用于某些没有那么多板载处理能力的应用程序。

所有这些不同尺寸的动物都有自己的小模型,分别称为壁虎、水獭、野牛和独角兽,壁虎是最小的,其次是水獭、野牛,最后是最大的独角兽。

谷歌还声称 WinoGrande 和 DROP 的推理能力比 GPT-4 有所提高,前者在 ARC-C 中以微弱优势领先。 但是,在 PaLM 和 SOTA 方面,全面有了显着改进。

根据谷歌 91 页的 PaLM 2 研究论文 [PDF],PaLM 2 在数学方面也更好。 然而,谷歌和 OpenAI 构建测试结果的方式使得很难直接比较这两个模型。 谷歌也省略了一些比较,可能是因为 PaLM 2 的表现不如 GPT-4。

在 MMLU 中,GPT-4 得分为 86.4,而 PaLM 2 得分为 81.2。 HellaSwag 也是如此,其中 GPT-4 得分为 95.3,但 PaLM 2 只能达到 86.8,以及 ARC-E,其中 GPT-4 和 PaLM 2 分别获得 96.3 和 89.7。

PaLM 2 系列中最大的型号是 PaLM 2-L。 虽然我们不知道它的确切大小,但我们知道它比最大的 PaLM 模型小得多,但使用了更多的训练计算。 根据谷歌的说法,PaLM 有 5400 亿个参数,因此“明显更小”的 PaLM 2 应该有 10 到 3000 亿个参数。 请记住,这些数字只是基于谷歌在 PaLM 2 论文中所说的假设。

如果这个数字接近 1000 亿或以下,PaLM 2 的参数很可能比 GPT-3.5 小。 考虑到一个可能低于 1000 亿的模型可以与 GPT-4 并驾齐驱,甚至在某些任务上击败它,这令人印象深刻。 GPT-3.5 最初将一切都从水里吹了出来,包括 PaLM,但 PaLM 2 已经完全恢复了。

GPT-4 和 PaLM 2 训练数据的差异

虽然谷歌尚未公布 PaLM 2 训练数据集的大小,但该公司在其研究论文中报告说,新的 LLM 训练数据集要大得多。 OpenAI 在推出 GPT-4 时也采用了相同的方法,未对训练数据集的大小做出任何声明。

然而,谷歌希望专注于对数学、逻辑、推理和科学的更深入理解,这意味着 PaLM 2 的大部分训练数据都集中在上述主题上。 谷歌在其论文中表示,PaLM 2 的预训练语料库由多个来源组成,包括网络文档、书籍、代码、数学和对话数据,使其得到全面改进,至少与 PaLM 相比是这样。

PaLM 2 的会话技能也应该在另一个层面上,考虑到该模型已经用 100 多种语言进行了训练,以使其具有更好的上下文理解和更好的翻译能力。

至于 GPT-4 的训练数据得到确认,OpenAI 告诉我们,它已经使用公开可用的数据及其许可的数据训练了模型。 GPT-4 的研究页面指出,“数据是一个网络规模的数据集,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。”

当 GPT-4 被问到一个问题时,它可以产生各种各样的回答,但并不是所有的回答都与您的查询相关。 与此相比,PaLM 2 的回答可能更相关,但不是所有的回答都正确。谷歌还指出,PaLM 2 可以在某些任务上击败 GPT-4,尤其是在需要推理和逻辑的任务中。

结论

Google PaLM 2 和 OpenAI GPT-4 都是最新的语言模型,各有其独特优势。 PaLM 2 的新的大型语言模型 (LLM) 比其前身 (PaLM) 有很多改进,最终可能成为准备迎接其最大的竞争对手 OpenAI 的 GPT-4。 PaLM 2 的独特优势之一是,它的尺寸更小,适用于某些没有那么多板载处理能力的应用程序。谷歌还声称 WinoGrande 和 DROP 的推理能力比 GPT-4 有所提高,前者在 ARC-C 中以微弱优势领先。然而,PaLM 2 的表现不如 GPT-4。在 MMLU 中,GPT-4 得分为 86.4,而 PaLM 2 得分为 81.2。 HellaSwag 也是如此,其中 GPT-4 得分为 95.3,但 PaLM 2 只能达到 86.8,以及 ARC-E,其中 GPT-4 和 PaLM 2 分别获得 96.3 和 89.7。因此,PaLM 2 和 GPT-4 都是非常强大的语言模型,各有其独特优势和劣势。选择哪一个取决于您的具体需求和应用场景。