GPT-4震撼发布：多模态大模子，直接升级ChatGPT、必应，开放API

744510583 · 发表于 2023-3-21 15:11:31

呆板之心报道
呆板之心编辑部

ChatGPT 点燃了科技行业的明灯，GPT-4能燎原吗？

谁能革得了 ChatGPT 的命？如今看来照旧 OpenAI 本身。
在 ChatGPT 引爆科技范畴之后，人们不停在讨论 AI「下一步」的发展会是什么，许多学者都提到了多模态，我们并没有等太久。本日破晓，OpenAI 发布了多模态预练习大模子 GPT-4。

GPT-4实现了以下几个方面的飞跃式提拔：强盛的识图本领；笔墨输入限值提拔至2.5万字；答复正确性明显进步；可以或许天生歌词、创意文本，实现风格变革。

「GPT-4是天下第一款高体验，强本领的先辈AI体系，我们盼望很快把它推向全部人，」OpenAI 工程师在先容视频里说道。
好像是想一口吻闭幕这场游戏，OpenAI 既发布了论文（更像是技能陈诉）、 System Card，把 ChatGPT 直接升级成了 GPT-4版的，也开放了 GPT-4的 API。
别的，微软营销主管在 GPT-4发布后第一时间表现：「假如你在已往六周内的任何时间利用过新的 Bing 预览版，你就已经提前相识了 OpenAI 最新模子的强盛功能。」是的，微软的新必应早就已经用上了GPT-4。

接下来，就让我们细细咀嚼这场震撼发布。
GPT-4：我 SAT 考710，也能当状师
GPT-4是一个大型多模态模子，能担当图像和文本输入，再输出精确的文本复兴。实行表明，GPT-4在各种专业测试和学术基准上的体现与人类程度相称。比方，它通过了模仿状师测验，且分数在应试者的前10% 左右；相比之下，GPT-3.5的得分在倒数10% 左右。
OpenAI 花了6个月的时间利用对抗性测试步伐和 ChatGPT 的履历教导对 GPT-4举行迭代调解，从而在真实性、可控性等方面取得了有史以来最好的效果。
在已往的两年里，OpenAI 重修了整个深度学习堆栈，并与 Azure 一起为其工作负载重新开始计划了一台超等盘算机。一年前，OpenAI 在练习 GPT-3.5时第一次实验运行了该超算体系，之后他们又连续发现并修复了一些错误，改进了其理论底子。这些改进的效果是 GPT-4的练习运行得到了亘古未有的稳固，以至于 OpenAI 可以或许提前正确猜测 GPT-4的练习性能，它也是第一个实现这一点的大模子。OpenAI 表现他们将继承专注于可靠的扩展，进一步美满方法，以资助实在现更强盛的提前猜测性能和规划将来的本领，这对安全至关紧张。
OpenAI 正在通过 ChatGPT 和 API（有候补名单）发布 GPT-4的文本输入功能。图像输入功能方面，为了得到更广泛的可用性，OpenAI 正在与其他公司睁开互助。
OpenAI 本日还开源了 OpenAI Evals，这是其用于主动评估 AI 模子性能的框架。OpenAI 表现此举是为了让全部人都可以指出其模子中的缺点，以资助 OpenAI 进一步改进模子。
风趣的是，GPT-3.5和 GPT-4之间的区别很玄妙。当使命的复杂性到达充足的阈值时，差别就会出现 ——GPT-4比 GPT-3.5更可靠、更有创意，而且可以或许处置惩罚更渺小的指令。为了相识这两个模子之间的差别，OpenAI 在各种基准和一些为人类计划的模仿测验上举行了实行。

OpenAI 还在为呆板学习模子计划的传统基准上评估了 GPT-4。GPT-4大大优于现有的大型语言模子，以及大多数 SOTA 模子：

很多现有的呆板学习基准测试都是用英语编写的。为了开端相识 GPT-4在其他语言上的本领，研究团队利用 Azure Translate 将 MMLU 基准 —— 一套涵盖57个主题的14000个多项选择题 —— 翻译成多种语言。在测试的26种语言的24种中，GPT-4优于 GPT-3.5和其他大语言模子（Chinchilla、PaLM）的英语语言性能：

就像很多利用 ChatGPT 的公司一样，OpenAI 表现他们内部也在利用 GPT-4，因此 OpenAI 也在关注大型语言模子在内容天生、贩卖和编程等方面的应用结果。OpenAI 还利用 GPT-4辅助人们评估 AI 输出，这也是 OpenAI 对其计谋的第二阶段。OpenAI 既是 GPT-4的开辟者，也是利用者。
GPT-4：我能玩梗图
GPT-4可以担当文本和图像情势的 prompt，新本领与纯文本设置并行，答应用户指定任何视觉或语言使命。
详细来说，它在人类给定由散布的文本和图像构成的输入的环境下天生相应的文本输出（天然语言、代码等）。在一系列范畴 —— 包罗带有文本和照片的文档、图表或屏幕截图上 ——GPT-4展示了与纯文本输入雷同的功能。别的，它还可以通过为纯文本语言模子开辟的测试时间技能得到加强，包罗少样本和头脑链 prompt。
好比给 GPT-4一个长相希奇的充电器的图片，问为什么这很可笑？

GPT-4答复道，VGA 线充 iPhone。

格鲁吉亚和西亚的人均逐日肉类消耗，算均匀数：

看起来，如今的 GPT 已经不会在盘算上颠三倒四了：

照旧太简朴，那直接让它做题，照旧个物理题：

GPT-4看懂了法语标题，并完备解答：

GPT-4可以明白一张照片里「有什么不短冖的地方」：

GPT-4还可以量子速读看论文，假如你给它 InstructGPT 的论文，让它总结择要，就会酿成如许：

假如你对论文里的某一个图感爱好呢？GPT-4也可以表明一下：

接着来，问 GPT-4梗图是什么意思：

它给出了具体的答复：

那么漫画呢？

让 GPT-4表明为什么要给神经网络加层数，好像有一点更加的幽默感。

不外 OpenAI 在这里说了，图像输入是研究预览，仍不公开。
研究职员用学术的 Benchmark 视角来解读 GPT-4的看图本领，然而这已经不敷了，他们还能不停发现该模子可以令人高兴地处置惩罚新使命 —— 如今的抵牾是 AI 的本领和人类想象力之间的抵牾。

看到这里，应该有研究职员感叹：CV 不存在了。
可控性
与具有固定冗长、清静语气和风格的经典 ChatGPT 个性差别，开辟职员（以及 ChatGPT 用户）如今可以通过在「体系」消息中形貌这些方向来规定他们的 AI 的风格和使命。
体系消息答应 API 用户在肯定范围内定制化实现差别的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay，也鼓励你们如许做。

范围性
只管功能已经非常强盛，但 GPT-4仍与早期的 GPT 模子具有相似的范围性，此中最紧张的一点是它仍旧不完全可靠。OpenAI 表现，GPT-4仍旧会产生幻觉、天生错误答案，并出现推理错误。
现在，利用语言模子应审慎检察输出内容，须要时利用与特定用例的需求相匹配简直切协议（比方人工检察、附加上下文或完全制止利用）。
总的来说，GPT-4相对于从前的模子（颠末多次迭代和改进）已经明显减轻了幻觉题目。在 OpenAI 的内部对抗性真实性评估中，GPT-4的得分比最新的 GPT-3.5模子高40%：

GPT-4在 TruthfulQA 等外部基准测试方面也取得了希望，OpenAI 测试了模子将究竟与错误报告的对抗性选择区分开的本领，效果如下图所示。

实行效果表明，GPT-4根本模子在此使命上仅比 GPT-3.5略好；然而，在颠末 RLHF 后练习之后，二者的差距就很大了。以下是 GPT-4的测试示例 —— 并不是全部时间它都能做出精确的选择。

该模子在其输出中大概会有各种私见，OpenAI 在这些方面已经取得了希望，目的是使创建的人工智能体系具有公道的默认举动，以反映广泛的用户代价观。
GPT-4通常缺乏对其绝大部门数据停止后（2021年9月）发生的变乱的相识，也不会从其履历中学习。它偶然会犯一些简朴的推理错误，这好像与这么多范畴的本领不符合，大概过于轻名誉户的显着虚伪报告。偶然它也会像人类一样在困难的题目上失败，好比在它天生的代码中引入安全毛病。
GPT-4猜测时也大概堕落但很自大，意识到大概堕落时也不会 double-check。风趣的是，底子预练习模子颠末高度校准（其对答案的猜测置信度通常与精确概率相匹配）。然而，通过 OpenAI 现在的后练习（post-training）过程，校准淘汰了。

风险及缓解步伐
OpenAI 表现，研究团队不停在对 GPT-4举行迭代，使其从练习开始就更加安全和同等，所做的积极包罗预练习数据的选择和过滤、评估和专家到场、模子安全改进以及监测和实行。
GPT-4有着与从前的模子雷同的风险，如产生有害的发起、错误的代码或禁绝确的信息。同时，GPT-4的额外本领导致了新的风险面。为了相识这些风险的水平，团队约请了50多位来自人工智能对齐风险、网络安全、生物风险、信托和安全以及国际安全等范畴的专家，对该模子在高风险范畴的举动举行对抗性测试。这些范畴必要专业知识来评估，来自这些专家的反馈和数据为缓解步伐和模子的改进提供了依据。
防备风险
按照 demo 视频里 OpenAI 工程师们的说法，GPT-4的练习在客岁8月完成，剩下的时间都在举行微调提拔，以及最紧张的去除伤害内容天生的工作。
GPT-4在 RLHF 练习中参加了一个额外的安全嘉奖信号，通过练习模子拒绝对此类内容的哀求来淘汰有害的输出。嘉奖是由 GPT-4的零样天职类器提供的，它判定安全界限和安全相干 prompt 的完成方式。为了防止模子拒绝有用的哀求，团队从各种泉源（比方，标注的生产数据、人类的红队、模子天生的 prompt）网络多样化的数据集，在答应和不答应的种别上应用安全嘉奖信号（有正值或负值）。
这些步伐大大在很多方面改善了 GPT-4的安全性能。与 GPT-3.5相比，模子对不答应内容的哀求的相应倾向低落了82%，而 GPT-4对敏感哀求（如医疗发起和自我伤害）的相应符合政策的频率进步了29%。

练习过程
与之前的 GPT 模子一样，GPT-4底子模子颠末练习可以猜测文档中的下一个单词。OpenAI 利用公开可用的数据（比方互联网数据）以及已得到允许的数据举行练习。练习数据是一个网络规模的数据语料库，包罗数学题目的精确和错误办理方案、弱推理和强推理、自相抵牾和同等的报告，以及各种各样的意识形态和想法。
因此，当提出题目时，底子模子的回应大概与用户的意图相去甚远。为了使其与用户意图保持同等，OpenAI 依然利用强化学习人类反馈 (RLHF) 来微调模子的举动。请留意，该模子的本领好像重要来自预练习过程 ——RLHF 不会进步测验结果（乃至大概会低落它）。但是模子的控制来自后练习过程 —— 底子模子乃至必要实时的工程计划来答复题目。
GPT-4的一大重点是创建了一个可猜测扩展的深度学习栈。重要缘故原由是，对于像 GPT-4如许的大型练习，举行广泛的特定模子调解是不可行的。团队开辟了底子办法和优化，在多种规模下都有可猜测的举动。为了验证这种可扩展性，他们提前正确地猜测了 GPT-4在内部代码库（不属于练习集）上的终极丧失，方法是通过利用雷同的方法练习的模子举行推断，但利用的盘算量为1/10000。

如今，OpenAI 可以正确地猜测在练习过程中优化的指标（丧失）。比方从盘算量为1/1000的模子中推断并乐成地猜测了 HumanEval 数据集的一个子集的通过率：

有些本领仍旧难以猜测。比方，Inverse Scaling 比赛旨在找到一个随着模子盘算量的增长而变得更糟的指标，而 hindsight neglect 使命是得胜者之一。GPT-4扭转了这一趋势。

可以或许正确猜测将来的呆板学习本领对于技能安全来说至关紧张，但它并没有得到充足的器重，OpenAI 表现正在投入更多精神开辟相干方法，并号令业界共同积极。
OpenAI 表现正在开源 OpenAI Evals 软件框架，它被用于创建和运行基准测试以评估 GPT-4等模子，同时可以逐样当地查抄模子性能。
ChatGPT 直接升级至 GPT-4版
GPT-4发布后，OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上得到具有利用上限的 GPT-4访问权限。
要访问 GPT-4 API（它利用与 gpt-3.5-turbo 雷同的 ChatCompletions API），用户可以注册。OpenAI 会约请部门开辟者体验。
得到访问权限后，用户现在可以向 GPT-4模子发出纯文本哀求（图像输入仍处于有限的 alpha 阶段）。至于代价方面，订价为每1k 个 prompt token 0.03美元，每1k 个 completion token 0.06美元。默认速率限定为每分钟40k 个 token 和每分钟200个哀求。
GPT-4的上下文长度为8,192个 token。OpenAI 还提供了32,768个 token 上下文（约50页文本）版本的有限访问，该版本也将随着时间主动更新（当前版本 gpt-4-32k-0314，也支持到6月14日)。订价为每1K prompt token 0.06美元和每1k completion token 0.12美元。
以上，就是本日 OpenAI 关于 GPT-4的全部内容了。令人不满的一点是，OpenAI 公开的技能陈诉中，不内含任何关于模子架构、硬件、算力等方面的更多信息，可以说是很不 Open 了。
不管怎样，如饥似渴的用户大概已经开始测试体验了吧。

末了，也想问一下读者，看完 GPT-4的发布，你有何感想。
参考内容：
https://openai.com/product/gpt-4

haoyu1120 · 发表于 2023-3-21 15:23:51

这消息一出来，估计中国的巨头们又要发疯了[狗]

超人喝醉 · 发表于 2023-3-21 15:35:59

身逢革命前夜又高兴又恐惊

dmsm1168 · 发表于 2023-3-21 15:47:12

全天下一半人要下岗了

被遗忘的枪神 · 发表于 2023-3-21 15:59:46

用了new bing，感觉和小冰一样智障，而且，根本就是搜刮效果，不想chat高频头那样有现实效果反馈

冲顶霹雳橙_星 · 发表于 2023-3-21 16:11:41

跟电脑给牛用一样

		自动登录	找回密码
密码			会员注册