找回密码
 会员注册
查看: 25|回复: 0

GPT-4重磅发布,有哪些升级和变化?

[复制链接]

1

主题

0

回帖

4

积分

新手上路

积分
4
发表于 2024-9-20 17:06:29 | 显示全部楼层 |阅读模式
作者:qizailiu,腾讯IEG算法研究员昨天OpenAI发布最新里程碑AI语言模型GPT-4,GPT-4是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。写在前面本文主要参考OpenAI关于GPT4的官方Blog,目前各公众号关于GPT4的内容基本来自官方Blog、技术报告和官方视频内容。相关内容传送门:官方Blog地址:GPT-4官方ChatGPTPlus体验地址:https://chat.openai.com/auth/login?next=/chat官方技术报告地址:https://cdn.openai.com/papers/gpt-4.pdf官方视频案例地址:https://www.youtube.com/live/outcGtbnMuQ?feature=share1、GPT4简介OpenAI发布最新里程碑GPT-4,GPT-4是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。例如它通过模拟律师考试,分数在应试者的前10%左右,相比之下GPT-3.5的得分在倒数10%左右。GPT-4是OpenAI花了6个月的时间,利用对抗性测试程序和ChatGPT中积累的经验迭代调整,模型尽管远非完美,但该模型“比以往任何时候都更具创造性和协作性”,并且“可以更准确地解决难题”。2、GPT4体验方式2.1、ChatGPTPlus通过ChatGPTPlus(OpenAI每月20美元的ChatGPT订阅)向公众提供。ChatGPTPlus订阅者将在chat.openai.com上获得具有使用上限的GPT-4访问权限。2.2、NewBingNewBing正在GPT-4上运行,是OpenAI为Bing搜索定制的,可以通过NewBing入口进行体验。2.3、GPT-4APIGPT-4API提供给一些开发人员体验。需要加入API候选名单GPT-4APIwaitlist,加入后提示。获得访问权限后,您可以向gpt-4模型发出纯文本请求(图像输入仍处于有限的alpha阶段)定价为每1k个prompttoken0.03美元和每1k个生成token0.06美元。默认速率限制为每分钟40k个token和每分钟200个请求。3、解决难任务能力在日常对话中GPT-3.5和GPT-4之间的可能看不出差别,当任务的复杂性达到足够的阈值时,差异就会出现。GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。3.1、模拟考试为了比较模型之间的区别,在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。模型没有针对这些考试进行专门培训,模在训练期间可能看到了考试中的少数问题,但结果仍然很具有代表性。下面为各种考试中GPT3.5、没有视觉信息GPT4、GPT4表现,我们可以看到GPT4均显著优于GPT3.5。3.2、传统基准测试为了更加充分评估,在机器学习模型设计的传统基准上评估了GPT-4。GPT-4大大优于现有的大型语言模型,以及大多数最先进的(SOTA)模型,详细指标如下:3.3、多语言能力评估现有ML基准测试都是大多是英语,为了评估GPT4其他语言中的功能,使用AzureTranslate将MMLU基准测试(包含14,000个多项选择题,涉及57个科目)翻译为各种语言。在测试的26种语言中,有24种语言的GPT-4性能优于英语GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等小语种的语言:4、视觉的理解处理GPT-4可以接受文本和图像输入,允许用户指定任何视觉或语言任务,包括带有文本和照片的文档、图表或屏幕截图等,GPT-4展示了与纯文本输入类似的功能,生成文本输出。官网提到了还可以通过为纯文本语言模型开发的测试时技术(包括few-shot和prompt)来增强。图像输入仍然是处于研究阶段没有公开,所以提供了几个官方的案例:a)对搞笑内容的理解,能get到人类的梗。b)图标推理能力,可以根据中的图表信息进行推理得出结论c)ÉcolePolytechnique法语物理考试题d)根据图像内容,可以理解图像中不合理的地方,具备人常识的认知。e)看纸质论文总结摘要f)理解人类幽默,看梗图g)看懂漫画能力,理解漫画讽刺的点。提供的七个案例,从不同维度展示了加入了视觉信号之后GPT4能力,但是由于输入还没有放开体验,官方补充了一些学术常用的一些数据集基准测试来评估GPT4的理解能力。如下图所示我们可以看到与当前的SOTA模型相比有很大的竞争力。5、更强的可控性OpenAI知道用户更希望ChatGPT能够Cosplay,为了提搞用户体验允许以系统消息方式为API用户在一定范围内定制化实现不同的体验。过去ChatGPT的回复风格总是冗长而平淡,这是因为系统规定了ChatGPT就是一个语言模型,知识截止到21年9月,限制了ChatGPT多样的风格。GPT-4还开放了一个修改“系统提示”使用功能,可以通过与用户交互来控制模型输出的风格和任务。a)通过系统消息指定回应的范围,具备导师的能力,提出正确的问题帮助学生独立思考。b)系统消息指定回复的风格,能够更好的控制保持自己回复的风格和个性。c)系统消息指定回复的格式,定制化借口回复JSON格式响应。新增的系统消息能力,让我们在垂直的场景看到了更多的可能性。可以结合业务场景定制化GPT4的回复风格,可以实现了广泛领域的定制化。6、模型的局限性幻觉、推理错误等问题一直是大模型面临的挑战,但GPT-4相对于以前的模型显著减少幻觉,如下图所示,在九类内部对抗性设计的事实评估中,GPT-4(绿色)与前三个ChatGPT版本进行了比较,所有主题都有显着的提高。准确度为1.0意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。在整体对抗性真实性评估中GPT-4的得分比最新的GPT-3.5高40%。在TruthfulQA基准数据集上,测试了模型把事实和错误陈述区分开的能力,实验结果如下,GPT-4此任务上比GPT-3.5略好,但经过RLHF后训练之后,GPT4效果更佳显著。GPT-4依然存在回到错误的时候依然坚持自信,在可能出错时不注意再次确认。模型的这种特征可能与训练策略有关,官方对比了MMLU子集上上基础预训练模型和PPO模型,左图预训练GPT-4模型的校准图,该模型对其预测的置信度与正确概率相匹配,虚线对角线代表完美的校准。右图训练后PPOGPT-4模型的校准图,训练后对校准造成很大的影响。除了上面提到的局限性,GPT4依然可能输出带有偏见的内容,如何构建AI系统具有合理的默认行为,以反映广泛的用户价值观。如何在广泛的领域提供用于进行定制是需要解决的问题。与ChatGPT一样,GPT-4数据集局现在2021年9月,对之后的发生的问题可能错误。同时GPT4具备跨多个领域知识的能力,但一些简单的推理依然会犯错,有时还会清新用户一些明显虚假的陈述。除了简单的问题在一些人类遇到的难题上GPT4依然无法很好的解答,例如在它生成的代码中引入安全漏洞。7、风险及缓解措施除了与之前ChatGPT模型类似的风险,例如生成有害建议、错误代码或不准确信息。GPT-4因为引入了信息,还会引入新的风险。GPT4确保训练开始就更安全、更一致做了多个方面工作:7.1、数据选择和过滤引入了更多人工反馈,包括由ChatGPT用户提交的反馈,为了防止模型拒绝有效请求,收集了多样化的数据集(例如标记的生产数据、人类红队、模型生成的提示),以改进GPT-4的行为。7.2、专家参与和评估50多位覆盖多个领域专家对模型进行对抗性测试,在需要专业知识进行评估的高风险领域测试模型行为,使得模型获得了早期反馈。专家反馈和数据改进模型,例如收集了额外的数据来提高拒绝有关如何合成危险化学品的请求的能力。7.3、模型安全性改进将以往现实应用中的经验引入GPT-4的安全研究和监控中。GPT-4在RLHF训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。奖励模型是GPT-4零样本分类器,根据安全相关提示判断安全边界和完成方式。GPT-4与GPT-3.5相比显着改善了许多安全特性。如下图所示禁止和敏感内容的错误率,模型针对禁止内容请求的倾向降低了82%,并对敏感内容请求的符合安全监管提高了29%。模型级干预增加了引发不良行为的难度,但仍然存在生成违反我们内容的“越狱”。目前措施是用安全技术(如监控滥用)来补充这些限制。与此同时通过与外部研究人员合作,来改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。8、GPT4训练流程官方资料没有讲模型参数和数据规模,没有讲任何技术原理。简单讲了一下GPT-4基础模型与GPT系列模型一致,使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。语料包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。模型的能力主要来自预训练过程,RLHF不会提高模型测试的考试成绩,有时实际上会降低考试成绩。模型一些意图对齐及风格转变等来自于RLHF和工程设计。GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。为了适配大模型微调进行了底层优化,在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,使用相同方法训练但使用10,000倍更少计算量的模型进行推断,准确预测了GPT-4在我们内部代码库的最终损失:准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如从计算量减少1,000倍的模型中推断HumanEval数据集的一个子集的通过率:有些能力难以预测,例如InverseScalingPrize是一项竞赛,目标是寻找一个随着模型计算量的增加而变得更糟的指标,hindsightneglect任务是赢家之一,这个任务此任务测试语言模型是否能够根据预期值评估赌注是否值得。例如问题:迈克尔可以选择玩一个游戏,迈克尔有91%的机会输掉900美元,有9%的机会赚到5美元。Michael玩了这个游戏,最后输了900美元。迈克尔做出了正确的决定吗?选择Y或N。答案:否其他大模型在这个任务上都表现不佳,但是GPT-4扭转了趋势:9、OpenAIEvals开源OpenAIEvals软件框架,用于创建和运行基准测试以自动评估GPT-4等模型能。OpenAI使用Evals来指导模型的开发(识别缺点和防止回归),用户可以应用Evals来跟踪模型和产品版本的性能。例如,Stripe使用Evals来补充他们的人工评估,以衡量其基于GPT的文档工具的准确性。提供包括“模型分级评估”模板等多种模版,OpenAI期望Evals成为共享和众包基准测试的工具,邀请用户反馈模型的缺点,帮助进一步改进模型。10、总结总结一下GPT-4几个关键的提升:智能程度大幅跃迁,可以解决更难的问题,有些考试达到国际奥赛金奖水准。可以接受输入,看图能力更强。相比历史更创造性和可控,包括编歌曲、写剧本、学习用户风格。模型输入更长,可以处理文字输入长度增加到3.2万个token,约25000字文本。模型参数、数据集、技术原理等不再公开,只公开一个评测框架。根据官方提到去年8月模型就训练出来,后续都在做一些调优,大概率基础模型方案是统一了文本和模态输入到GPT3.5结构,再按照ChatGPT的训练流程去加入人类反馈。参考:GPT-4https://cdn.openai.com/papers/gpt-4.pdfhttps://www.youtube.com/live/outcGtbnMuQ?feature=shareConfirmed:thenewBingrunsonOpenAI’sGPT-4|BingSearchBlog2201.11903Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModelsHowshouldAIsystemsbehave,andwhoshoulddecide?https://platform.openai.com/docs/usage-policiesGitHub-openai/evals:EvalsisaframeworkforevaluatingOpenAImodelsandanopen-sourceregistryofbenchmarks.evals/logic.yamlatmain·openai/evals·GitHubUsagepolicies2211.02011InversescalingcanbecomeU-shaped
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-27 02:03 , Processed in 0.433263 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表