Name: Google PaLM 2 vs OpenAI GPT-4: 哪个更胜一筹？
Author: 零八酷软

谷歌于 2023 年 5 月 10 日在 Google I/O 2023 上推出了下一代 Pathways Language Model (PaLM 2)。其新的大型语言模型 (LLM) 比其前身 (PaLM) 有很多改进，最终可能成为准备迎接其最大的竞争对手 OpenAI 的 GPT-4。

PaLM 2 与 GPT-4：性能概述

PaLM 2 比其前身具有新的和改进的功能。 PaLM 2 相对于 GPT-4 的独特优势之一是，它的尺寸更小，适用于某些没有那么多板载处理能力的应用程序。

所有这些不同尺寸的动物都有自己的小模型，分别称为壁虎、水獭、野牛和独角兽，壁虎是最小的，其次是水獭、野牛，最后是最大的独角兽。

谷歌还声称 WinoGrande 和 DROP 的推理能力比 GPT-4 有所提高，前者在 ARC-C 中以微弱优势领先。但是，在 PaLM 和 SOTA 方面，全面有了显着改进。

根据谷歌 91 页的 PaLM 2 研究论文 [PDF]，PaLM 2 在数学方面也更好。然而，谷歌和 OpenAI 构建测试结果的方式使得很难直接比较这两个模型。谷歌也省略了一些比较，可能是因为 PaLM 2 的表现不如 GPT-4。

在 MMLU 中，GPT-4 得分为 86.4，而 PaLM 2 得分为 81.2。 HellaSwag 也是如此，其中 GPT-4 得分为 95.3，但 PaLM 2 只能达到 86.8，以及 ARC-E，其中 GPT-4 和 PaLM 2 分别获得 96.3 和 89.7。

PaLM 2 系列中最大的型号是 PaLM 2-L。虽然我们不知道它的确切大小，但我们知道它比最大的 PaLM 模型小得多，但使用了更多的训练计算。根据谷歌的说法，PaLM 有 5400 亿个参数，因此“明显更小”的 PaLM 2 应该有 10 到 3000 亿个参数。请记住，这些数字只是基于谷歌在 PaLM 2 论文中所说的假设。

如果这个数字接近 1000 亿或以下，PaLM 2 的参数很可能比 GPT-3.5 小。考虑到一个可能低于 1000 亿的模型可以与 GPT-4 并驾齐驱，甚至在某些任务上击败它，这令人印象深刻。 GPT-3.5 最初将一切都从水里吹了出来，包括 PaLM，但 PaLM 2 已经完全恢复了。

GPT-4 和 PaLM 2 训练数据的差异

虽然谷歌尚未公布 PaLM 2 训练数据集的大小，但该公司在其研究论文中报告说，新的 LLM 训练数据集要大得多。 OpenAI 在推出 GPT-4 时也采用了相同的方法，未对训练数据集的大小做出任何声明。

然而，谷歌希望专注于对数学、逻辑、推理和科学的更深入理解，这意味着 PaLM 2 的大部分训练数据都集中在上述主题上。谷歌在其论文中表示，PaLM 2 的预训练语料库由多个来源组成，包括网络文档、书籍、代码、数学和对话数据，使其得到全面改进，至少与 PaLM 相比是这样。

PaLM 2 的会话技能也应该在另一个层面上，考虑到该模型已经用 100 多种语言进行了训练，以使其具有更好的上下文理解和更好的翻译能力。

至于 GPT-4 的训练数据得到确认，OpenAI 告诉我们，它已经使用公开可用的数据及其许可的数据训练了模型。 GPT-4 的研究页面指出，“数据是一个网络规模的数据集，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述，并代表各种各样的意识形态和想法。”

当 GPT-4 被问到一个问题时，它可以产生各种各样的回答，但并不是所有的回答都与您的查询相关。与此相比，PaLM 2 的回答可能更相关，但不是所有的回答都正确。谷歌还指出，PaLM 2 可以在某些任务上击败 GPT-4，尤其是在需要推理和逻辑的任务中。

结论

Google PaLM 2 和 OpenAI GPT-4 都是最新的语言模型，各有其独特优势。 PaLM 2 的新的大型语言模型 (LLM) 比其前身 (PaLM) 有很多改进，最终可能成为准备迎接其最大的竞争对手 OpenAI 的 GPT-4。 PaLM 2 的独特优势之一是，它的尺寸更小，适用于某些没有那么多板载处理能力的应用程序。谷歌还声称 WinoGrande 和 DROP 的推理能力比 GPT-4 有所提高，前者在 ARC-C 中以微弱优势领先。然而，PaLM 2 的表现不如 GPT-4。在 MMLU 中，GPT-4 得分为 86.4，而 PaLM 2 得分为 81.2。 HellaSwag 也是如此，其中 GPT-4 得分为 95.3，但 PaLM 2 只能达到 86.8，以及 ARC-E，其中 GPT-4 和 PaLM 2 分别获得 96.3 和 89.7。因此，PaLM 2 和 GPT-4 都是非常强大的语言模型，各有其独特优势和劣势。选择哪一个取决于您的具体需求和应用场景。