officeba > 技术文章 > 正文

GPT 4震撼发布,有哪些变化?

时间:2025-02-23 15:56:51 作者:晓梦说教程

今天早上OpenAI正式推出NLP大作,GPT-4。目前ChatGPT Plus订阅用户已经可以使用GPT-4,其他用户需要排队申请内测。我们来看看根据GPT-4提供的官方技术文档做了哪些改动。

基于OpenAI GPT-4的技术报告,本文将介绍GPT-4的特点和信息。

GPT-4是多模态大型语言模型,即支持文本形式的图文输入输出;放大书写能力增强,可处理25000字以上的文字;更有创造力,能够处理更微妙的指示。

我们从官网可以看到,ChatGPT和GPT-4的演示似乎已经开始显著。很明显谁更聪明...

问:

安德鲁:我从上午11点到下午3点有空。

乔安妮:我中午到下午2点,下午3: 30到5点有空。

汉娜:我中午有半个小时,下午4-6点。

为这三个人安排30分钟的会面有哪些选项?

答:

ChatGPT:会议可以在下午4点开始。

GPT-4:会议可以在中午12点开始。

报告指出了GPT-4的开发进度,这是一个大规模、多模态的模型。它可以接受图像和文本输入,并产生文本输出。虽然能力在很多现实场景中不如人类,但在各种专业和学术基准测试中表现出了人类水平的表现。比如它通过了模拟律师考试,它的分数是考生的10%左右;相比之下GPT-3.5的分数在倒数10%左右。

GPT-4是基于transformer的模型,文档中的下一个标签可以通过训练提前预测。训练后的调整过程提高了与事实的符合程度。

这个项目的一个核心部分是开发基础设施和优化方法,使这些方法在大范围内具有可预测的行为。这使得我们可以在模型不超过GPT-4的1/1000的计算基础上,准确预测GPT-4在某些方面的性能。

介绍

技术报告介绍GPT-4,是一个大规模的多模态模型,可以处理图像和文本输入,产生文本输出。这类模型是一个重要的研究领域,因为它们可能有广泛的应用,如对话系统、文本摘要和机器翻译。因此,近年来,它们一直是人们关注的对象,并取得了很大的进展。近年来,它们一直是人们关注的焦点。

开发这种模型的一个主要目标是提高其理解能力,在自然语言文本中生成能力,尤其是在更复杂微妙的情况下。为了在这种情况下测试其能力,在最初为人类设计的各种测试中对GPT-4进行了评估。在这些评估中,它表现得相当好,经常超过大多数人类候选人的分数。

比如模拟律师资格考试,GPT-4在考生中排名前10%。这与排名倒数10%的GPT-3.5形成鲜明对比。

在一组传统的NLP基准测试中,GPT-4优于之前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或人工工程)。

在MMLU基准测试中,GPT-4不仅在英语测试中以相当大的优势超越了现有的模型,在其他语言中也表现强劲。

报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些基础设施和方法在很大范围内显示出可预测性。这使我们能够预测GPT-4的预期性能(基于类似方式的小规模操作训练)。这使我们能够预测GPT-4的预期性能(基于一个类似方式的小操作训练)并用最终操作进行测试,以增加我们对训练的信心。

尽管如此能力,/[K0/] 4也有类似早期GPT模型的局限性:不完全可靠(比如可能会出现“幻觉”),上下文窗口有限,没有后天经验。使用GPT-4的输出时应小心,尤其是需要高可靠性时。

GPT-4的能力和限制带来了巨大的新的安全挑战。我们认为,鉴于其潜在的社会影响,认真研究这些挑战是一个重要的研究领域。这份报告包括一个广泛的系统卡,它描述了我们预见的一些风险。围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等预见了一些风险。它还描述了我们为减轻部署GPT-4的潜在危险而采取的干预措施。包括聘请领域专家进行对抗性测试和一个模型辅助安全管道。

2.技术报告的范围和限制

本报告重点介绍能力、限制和安全性能。GPT-4是一个基于Transformer的模型,已经过预处理训练来预测文档中的下一个标签,使用公共数据(比如互联网数据)和第三方供应商授权的数据。

然后This 模型使用来自人类反馈的强化学习(RLHF)进行微调模型。鉴于GPT-4如此大规模的竞争态势和安全影响,报告不包含任何关于架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法等进一步的细节。

OpenAI致力于技术的独立审计,分享了这方面的一些初步措施和想法。它还计划向更多的第三方提供更多的技术细节,这些第三方可以就如何权衡上述竞争和安全考虑与科学价值之间的关系提供建议。

3.可预测的扩张

GPT-4项目的一个主要重点是建立一个可预测扩展的深度学习堆栈。主要原因是像GPT-4这样的大规模训练运算,对模型进行大量调整是不可行的。

为了解决这个问题,我们开发了基础设施和优化方法,这些方法在多个尺度上具有非常可预测的行为。这些改进使我们能够使用1000-10000倍的计算量训练从较小的模型可靠地预测GPT-4的某些方面的性能。

3.1损失预测

最终失去正确的训练大语言模型可以认为是训练模型使用的计算量的幂律,可以很好地逼近训练模型使用的计算量的规律。

为了验证OpenAI优化后的基础架构的可扩展性,OpenAI预测了GPT-4的最终损失,并在OpenAI的内部代码库(不是训练集的一部分)上预测了GPT-4的最终损失。方法是拟合一个带有不可约损失项的比例法则(如Henighan等人所做的):L(C) = aCb+c,用同样的方法由训练/[k1/]得出,但所用的计算量最多是GPT-4的1万倍。

这一预测是在开始运作后不久作出的,没有使用任何部分的结果。用拟合比例法高度准确地预测了GPT-4的最终损耗。

3.2在HumanEval 能力上扩展

在训练之前了解模型 能力,可以提高调整的决策、安全性和部署。

除了预测最终损失,我们还开发了一种方法来预测能力的更多可解释性指标,其中之一就是HumanEval数据集的通过率。

OpenAI在HumanEval数据集的一个子集上成功预测了通过率,其方法是从训练 模型 训练推导出来的,最多减少了1000倍的计算量。

对于HumanEval中的单个问题,性能偶尔可能会随着规模的扩大而下降。尽管有这些挑战,我们还是找到了一个近似的幂律关系——EP[log(pass _ rate(c))]=αc-k。

认为准确预测未来能力对于安全非常重要。展望未来,OpenAI计划改进这些方法,在大规模模型训练开始之前记录各种能力的性能预估。并且OpenAI希望这能成为这个领域的共同目标。

4 、能力

这简直就是考试专家。

GPT-4典型成就包括:

SAT(美国高考):1410/1600(前6%)。

美国统一律师资格考试(MBE+MEE+MPT): 298/400(前10%)。

AP(美国大学预科考试):生物、微积分、宏观经济学、心理学、统计学和历史的大学预科高中考试:100% (5/5)。

OpenAI在一系列不同的基准上测试GPT-4,包括模拟最初为人类设计的考试。考试题目包括选择题和自由答题,综合成绩由选择题和自由答题相结合确定。GPT-4在大部分专业和学术考试中,表现与人类相当。值得注意的是,其已通过律师统一考试模拟版,成绩在考生中排名前10%。

就测试结果来看,考试中的GPT-4模型似乎主要来自于pre-能力过程,并没有明显受到RLHF的影响。在选择题上,基本GPT-4模型和RLHF模型表现相当。

OpenAI还基于传统的基准评测对pre-训练good foundationGPT-4模型进行了评测,这些基准是为评测语言模型而设计的。

就考试和测试中的表现来看GPT-4的表现大大超过了现有语言模型和之前最先进的系统。这些系统通常有目标基准或附加训练协议。

现有的很多机器学习基准都是用英文写的,很难用其他语言体现。为了了解GPT-4在其他语言中的作用,他们还利用相关应用将一组涵盖57个题目的选择题基准测试转换成其他语言,并进行测试。最终结果表明GPT-4的性能优于GPT 3.5和现有的版本。

我能理解一些图片的微笑。

GPT-4在理解用户意图能力方面相比前作模型有明显提升。

GPT-4可以说我已经能看懂一些图标了,我不再只是一个对话助手。当然,大家期望看懂视频还有很长的路要走。现在能理解图的搞笑点了,比如这张…

左图:一部iPhone插上VGA接口。

右图:印有VGA连接器图片的“Lightning Cable”适配器包装。

右图2:VGA接头特写,上面有VGA接头的图片,不过可以看到,头部是闪电…

笑话在于把VGA口插到iPhone上的荒谬…很冷…博主搞电脑圈压力大吗…

4.1视觉输入

对于GPT-4来说训练之后的对齐是提升性能和体验的关键。技术上,人类反馈强化学习(RLHF)的微调仍然是GPT-4的要点。考虑到LLM领域的竞争格局和GPT-4等大型模型的安全隐患,OpenAI目前还没有公布GPT-4的模型架构、模型尺寸和训练技术。

这张图:GPT-4觉得不一般的地方是一个男人在行驶的出租车车顶的熨衣板上熨衣服…

再比如这个。这是鸡块吗?还是地图?还是用鸡块做的世界地图?

GPT-4接受由图像和文本组成的提示,这与纯文本设置平行,允许用户指定任何视觉或语言任务。具体来说,this 模型生成的文本输出给出了由任意交错的文本和图像组成的输入。在一系列字段中,包括带有文字和照片的文件、图表或截图,GPT-4显示能力类似于纯文本输入。

为该语言模型(如一些提示、思维链等)开发的标准测试时间技术。)在使用图像和文本时同样有效。

在GPT-4博客中可以找到一组狭窄的学术视觉基准的初步结果,后续工作中计划发布更多关于GPT-4的视觉能力信息。

5.限制

虽然GPT-4功能强大,但它也有类似早期GPT模型的局限性。最重要的是,它还不完全可靠(会“幻觉”事实,出现推理错误),所以要非常小心。

在使用language 模型输出时,尤其是在高风险上下文中,使用准确的协议(如人工审核、附加上下文,或者完全避免高风险使用,以满足特定应用的需要。

GPT-4在TruthfulQA等公共基准上取得了进展。这个基准测试模型可以从一组不正确的陈述中分离出事实,并将其与统计上有吸引力的错误事实答案进行匹配。GPT-4基本款在这个任务中只比GPT-3.5略胜一筹。但是在RLHF训练之后,相比GPT-3.5有了很大的提升。GPT-4拒绝选择一些常见的谚语,但还是漏掉了一些细微的细节。

GPT-4有时候简单的推理也会出错,在那么多领域似乎都与能力不符,或者轻信用户明显的虚假陈述。它可能会像人类一样在困难的问题上失败,例如在生成的代码中引入安全漏洞。

GPT-4对其预测也可能容易出错,在有可能出错的时候不注意反复检查。虽然前期训练 模型校准度高,但是在后期训练过程中,校准度降低。

GPT-4输出有各种偏差。OpenAI一直在努力改正,但是需要一些时间。他们的目标是让GPT-4拥有合理的默认行为,就像我们构建的其他系统一样,从而体现用户的价值观,允许这些系统在大范围内定制,并在这些范围内获得公众意见。

6.风险和缓解措施

GPT-4有类似小语种模型的风险,比如有害的建议、有缺陷的代码或者不准确的信息。

聘请领域专家进行拮抗测试:为了了解这些风险的程度,OpenAI聘请了长期人工智能(AI)校准风险、网络安全、生物风险、国际安全等领域的50多位专家对此模型进行拮抗测试。从这些专家那里收集到的建议和训练数据为OpenAI制定缓解措施和改进本模型提供了参考。

模型辅助安全通道:与之前的GPT模型一样,/[k2/]使用来自人类反馈的强化学习(RLHF)来微调this 模型的行为,以产生更符合用户意图的回复。RLHF之后,this 模型在不安全输入上依然脆弱,有时在安全和不安全输入上都表现出不受欢迎的行为。另外,这个模型在安全投入方面也可能变得过于谨慎。

安全指标的提升:OpenAI的缓解措施大大提升了GPT-4的很多安全性能。与GPT-3.5相比,该公司将GPT-4响应不允许内容的请求的倾向降低了82%,而GPT-4根据OpenAI的策略响应敏感请求的倾向降低了29%。

OpenAI我们正在与外部研究人员合作,以改善他们理解和评估潜在影响的方式,并对未来系统中的可能危害进行评估能力。该公司将很快发布建议,说明社会可以采取哪些措施来应对人工智能的影响。该公司将很快公布关于社会可以采取的应对人工智能影响的措施的建议,以及预测人工智能可能产生的经济影响的初步想法。

总结

GPT-4是大规模多模态模型在一些高难度的专业和学术基准上的人类表现。它在一系列NLP任务上的性能优于现有的大规模语言模型,并且超过了大多数报道的最先进的系统(这些系统通常包括针对特定任务的微调)。

GPT-4业绩的提升带来新的风险。我们讨论了一些方法和结果来理解和提高它的安全性和一致性。虽然还有很多工作要做,但是GPT-4代表着向广泛有用和安全部署的人工智能系统迈出了重要的一步。

以上就是小编给大家带来的GPT 4震撼发布,有哪些变化?的全部内容了,如果对您有帮助,可以关注officeba网站了解后续资讯。

相关文章

同类最新