|
·“当前唯一可以现实处置惩罚ChatGPT的GPU是英伟达HGX A100。与前者相比,如今一台搭载四对H100和双NVLINK的尺度服务器速率能快10倍,可以将大语言模子的处置惩罚本钱低落一个数目级。”
·英伟达在推理方面的全新GPU推理平台包罗:4种设置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超等芯片)、一个体系架构、一个软件栈,分别用于加快AI视频、图像天生、大型语言模子摆设和保举体系。
英伟达CEO黄仁勋表现,“GPT-4为代表的天生式AI模子的本领增长是‘盘算的新期间’,每个人都可以是步伐员,AI的‘iPhone时候’已经到临。”(03:31)
“加快盘算并非易事,2012年,盘算机视觉模子AlexNet动用了GeForce GTX 580,每秒可处置惩罚262 PetaFLOPS。该模子引发了AI技能的爆炸。”“十年之后,Transformer出现了,GPT-3动用了323 ZettaFLOPS的算力,是AlexNet的100万倍,创造了ChatGPT这个震动全天下的AI。极新的盘算平台出现了,AI的‘iPhone时候’已经到临。”
本地时间3月21日,英伟达首席实行官黄仁勋将OpenAI的ChatGPT称为人工智能的“iPhone时候”,并在该公司的春季GTC大会上公布了专为其计划的推理GPU(图形处置惩罚器)。
除此之外,英伟达还发布了AI超等盘算服务DGX Cloud、突破性的光刻盘算库cuLitho、加快企业创建大模子和天生式AI的云服务NVIDIA AI Foundations等,以及与Quantum Machines互助推出了环球首个GPU加快量子盘算体系。
ChatGPT专用GPU
此中最重要的是H100 NVL,它将英伟达的两个H100 GPU拼接在一起,以摆设像 ChatGPT如许的大型语言模子(LLM)。“当前唯一可以现实处置惩罚ChatGPT的GPU是英伟达HGX A100。与前者相比,如今一台搭载四对H100和双NVLINK的尺度服务器速率能快10倍,可以将大语言模子的处置惩罚本钱低落一个数目级。”黄仁勋说。
H100 NVL将英伟达的两个 H100 GPU 拼接在一起,以摆设像 ChatGPT 如许的大型语言模子 (LLM)。
H100不是新的GPU,英伟达在一年前的GTC上展示了其Hopper架构,并在各种使命中加快AI推理(推理是呆板学习步伐摆设的第二阶段,此时运行颠末练习的步伐以通过猜测来答复题目)。英伟达表现,H100 NVL附带94GB内存,与上一代产物相比,H100的综合技能创新可以将大型语言模子的速率进步30倍。
据黄仁勋透露,H100 NVL预计将在本年下半年上市。
第二款芯片是用于AI Video的L4,在视频解码和转码、视频内容考核、视频通话功能上做了优化。英伟达称其可以提供比CPU高120倍的AI视频性能,同时能效进步99%。也就是说,一台8-GPU L4服务器,将代替一百多台用于处置惩罚AI视频的双插槽CPU服务器。
用于AI Video的L4芯片,在视频解码和转码、视频内容考核、视频通话功能上做了优化。
“谷歌是第一家提供L4视频芯片的云提供商,现在处于私家预览版。L4将集成到谷歌的Vertex AI模子市肆中。”黄仁勋说。除了谷歌的产物外,L4还在30多家盘算机制造商的体系中提供,此中包罗研华、华硕、源讯、思科、戴尔科技、富士通、技嘉、惠普企业、遐想、QCT和超微。
同时,英伟达还针对Omniverse、图形渲染以及文本转图像/视频等天生式AI推出了L40芯片。其性能是英伟达最受接待的云推理GPU T4的10倍。别的,英伟达还推出了全新的超等芯片Grace-Hopper,实用于保举体系和大型语言模子的AI数据库,图保举模子、向量数据库和图神经网络的抱负选择,通过900GB/s的高速同等性芯片到芯片接口毗连英伟达Grace CPU和Hopper GPU。
4种设置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超等芯片)、一个体系架构、一个软件栈,分别用于加快AI视频、图像天生、大型语言模子摆设和保举体系。
总体而言,英伟达在推理方面的全新GPU推理平台包罗:4种设置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超等芯片)、一个体系架构、一个软件栈,分别用于加快AI视频、图像天生、大型语言模子摆设和保举体系。
月租云端AI算力
在黄仁勋的主题演讲中,多次提到了ChatGPT的创建者OpenAI。黄仁勋于2016年向该公司交付了附有本身署名和赠语的环球第一台DGX。这台集成了8块通过NVLink共享算力的H100构成的超等盘算机,为OpenAI奠基了创造ChatGPT的紧张算力底子。
“自OpenAI利用DGX以后,《财产》100强企业中有一半安装了DGX AI超等盘算机。DGX已成为AI范畴的必备工具。”黄仁勋说。
在GTC大会上,英伟达推出云端人工智能DGX Cloud。DGX Cloud提供了专用的 NVIDIA DGX AI超等盘算集群,用户可以或许按月租用这些盘算资源,并利用简朴的网络欣赏器访问。从而消除在当地获取、摆设和管理底子办法的本钱,大大增长了AI的便捷性。
“现在通过一个欣赏器,就能将DGX AI超等盘算机即时地接入每家公司。”黄仁勋向往道。
每个DGX Cloud实例都具有8个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存。
据先容,每个DGX Cloud实例都具有8个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存。利用NVIDIA Networking构建的高性能、低耽误布局确保工作负载可以跨互结合统集群扩展,允很多个实例充当一个巨大的GPU,以满意高级AI练习的性能要求。
据黄仁勋先容,每个实例的月租代价为36999美元起。
在演讲中,黄仁勋公布,英伟达将与云服务提供商互助托管DGX云底子办法。现在英伟达已经与甲骨文告竣互助,甲骨文的OCI RDMA Supercluster已经提供了一个可扩展到凌驾32000个GPU的超等集群。微软云服务Azure预计下个季度开始托管DGX Cloud,很快谷歌云也将参加托管的行列。
挑衅物理极限,光刻提速40倍
除了芯片,黄仁勋还谈到了一个名为cuLitho的盘算光刻库,它将摆设在芯片制造中。光刻盘算库cuLitho可将盘算光刻加快40倍以上,使得2nm及更先辈芯片的生产成为大概。
光刻盘算库cuLitho可将盘算光刻加快40倍以上,使得2nm及更先辈芯片的生产成为大概。
环球最大晶圆厂台积电、环球光刻机霸主阿斯麦、环球最大EDA巨头新思科技均到场互助并引入这项技能。该筹划旨在加速制造光掩模的使命,光掩模是用以将集成电路以及其他各种电路通过光刻技能印制在晶圆上的图形母板,相称于册本印刷的母板。
盘算光刻模仿了光通过光学元件并与光刻胶相互作用时的举动,应用逆物理算法来猜测掩膜板上的图案,以便在晶圆上天生终极图案。
光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其本钱约占整个硅片加工本钱的1/3乃至更多。盘算光刻模仿了光通过光学元件并与光刻胶相互作用时的举动,应用逆物理算法来猜测掩膜板上的图案,以便在晶圆上天生终极图案。
盘算光刻是进步光刻分辨率、推动芯片制造到达2nm及更先辈节点的关键本领。
“盘算光刻是芯片计划和制造范畴中最大的盘算工作负载,每年斲丧数百亿CPU小时。大型数据中央24X7全天候运行,以便创建用于光刻体系的掩膜板。这些数据中央是芯片制造商每年投资近2000亿美元的资笔僻出的一部门。”而黄仁勋说,cuLitho可以或许将盘算光刻的速率进步到原来的40倍。
也就是说英伟达H100 GPU必要89块掩膜板,在CPU上运行时,处置惩罚单个掩膜板必要两周时间,而在GPU上运行cuLitho只需8小时。
据先容,台积电可通过在500个DGX H100体系上利用cuLitho加快,将功率从35MW降至5MW,替换此前用于盘算光刻的40000台CPU服务器。 利用cuLitho的晶圆厂,天天可以生产3-5倍多的光掩膜,仅利用当前设置电力的1/9。
黄仁勋说,该软件正被集成到环球最大的代工芯片制造商台积电的计划体系中,台积电将于6月开始对cuLitho举行生产资格认证。它还将被集成到Synopsys的计划软件中,Synopsys是少数几家利用软件工具制造新芯片底板的公司之一。
新思科技董事长兼首席实行官Aart de Geus称,在英伟达的cuLitho平台上运行新思科技的光学相近校正(OPC)软件,将性能从几周加快到几天。
台积电首席实行官魏哲家则夸赞它为台积电在芯片制造中广泛地摆设光刻办理方案开发了新的大概性,为半导体规模化做出紧张贡献。阿斯麦首席实行官Peter Wennink称阿斯麦筹划将对GPU的支持集成到其全部的盘算光刻软件产物中。
其他更新
英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,这个云服务包罗语言、视觉和生物学模子制作服务。
此中,NeMo是用于构建定制的语言文本转文本天生式模子。
NeMo是用于构建定制的语言文本转文本天生式模子。
Picasso是视觉语言模子构建服务,具有文生图、文本转视频、文本转3D功能,可为产物计划、数字孪生、脚色创建等利用天然文本提示的应用快速创建和定制视觉内容。只要向Picasso发送文本提示和元数据的API调用,Picasso就会用DGX Cloud上的模子把天生的素材发送回应用。
Picasso是视觉语言模子构建服务。
而把这些素材导入NVIDIA Omniverse,就可以构建传神的元宇宙应用,和数字孪生仿真。
BioNeMo是生命科学服务,提供AI模子练习和推理,加快药物研发中最耗时和本钱最高的阶段,可加快新卵白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。
直接在欣赏器上或通过API,均可访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私家预览中。
英伟达与Quantum Machines互助推出了一个量子控制链路,它可将英伟达GPU毗连到量子盘算机,以极快的速率举行纠错。
面向量子盘算,要从量子噪声和退干系中规复数据,必要对大量量子比特举行纠错。对此,英伟达与Quantum Machines互助推出了一个量子控制链路,它可将英伟达GPU毗连到量子盘算机,以极快的速率举行纠错。
面向元宇宙范畴,英伟达推出了第三代OVX盘算体系和新一代工作站,为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。
面向元宇宙范畴,英伟达推出了第三代OVX盘算体系和新一代工作站,为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。微软和英伟达正在将工业元宇宙引入Microsoft 365应用步伐(如Teams)和Azure云。
微软也是Omniverse Cloud的首批云互助同伴之一。英伟达的云服务预计将于本年下半年在Microsoft Azure上推出。Omniverse还将毗连到Azure IoT,以便未来自 Azure Digital Twins的真实天下传感器数据传输到Omniverse模子。
Omniverse Cloud还对准了汽车行业,宝马、梅赛德斯-疾驰、沃尔沃、丰田和比亚迪等几家大公司已经在利用Omniverse实行各种使命。
别的,英伟达与三菱团结发布了将用于加快药物研发的日本第一台天生式AI超等盘算机Tokyo-1。通过在Tokyo-1上利用NVIDIA BioNeMo软件,研究职员能运行高达数十亿参数的先辈AI模子,包罗卵白质布局猜测、小分子天生、姿态估计等。 |
|