正大期货咨询热线

行业动态>>当前位置:主页 > 新闻中心 > 行业动态 > >
大模型商场,不止带火HBM

来源:正大期货  2023-07-11 18:24

近来,HBM成为芯片职业的炽热论题。据TrendForce猜测,2023年高带宽内存(HBM)比特量估计将到达2.9亿GB,同比添加约60%,2024年估计将进一步添加30%。2008年被AMD提出的HBM内存概念,在2013年被SK海力士经过TSV技能得以完成,面世10年后HBM好像真的来到了大规划商业化的年代。

HBM的概念的起飞与AIGC的火爆有直接关系。AI服务器对带宽提出了更高的要求,与 DDR SDRAM 比较,HBM 具有更高的带宽和更低的能耗。超高的带宽让HBM成为了高功用GPU的中心组件,HBM基本是AI服务器的标配。现在,HBM本钱在AI服务器本钱中占比排名第三,约占9%,单机均匀价格高达18,000美元。

自从上一年ChatGPT呈现以来,大模型商场就开端了高速添加,国内商场方面,百度、阿里、科大讯飞、商汤、华为等科技巨子连续宣告将练习自己的AI大模型。TrendForce猜测,2025年将有5个相当于ChatGPT的大型AIGC、25个Midjourney的中型AIGC产品、80个小型AIGC产品,即使是全球所需的最小核算才能资源也或许需求 145,600 至 233,700 个英伟达A100 GPU。这些都是HBM的潜在添加空间。

2023年开年以来,三星、SK海力士HBM订单就快速添加,HBM的价格也水涨船高,近期HBM3标准DRAM价格上涨了5倍。三星已收到AMD与英伟达的订单,以添加HBM供给。SK海力士已着手扩建HBM产线,方针将HBM产能翻倍。韩媒报导,三星计划出资约7.6亿美元扩产HBM,方针明年末之前将HBM产能进步一倍,公司已下达首要设备订单。

01 HBM在AIGC中的优势

直接地说,HBM将会让服务器的核算才能得到提高。由于短时刻内处理很多数据,AI服务器对带宽提出了更高的要求。HBM的效果类似于数据的“中转站”,便是将运用的每一帧、每一幅图画等图画数据保存到帧缓存区中,等候GPU调用。与传统内存技能比较,HBM具有更高带宽、更多I/O数量、更低功耗、更小尺度,能够让AI服务器在数据处理量和传输速率有大幅提高。

来历:rambus

能够看到HBM在带宽方面有着“碾压”级的优势。假如 HBM2E 在 1024 位宽接口上以 3.6Gbps 的速度运转,那么就能够得到每秒 3.7Tb 的带宽,这是 LPDDR5 或 DDR4 带宽的 18 倍以上。

除了带宽优势,HBM能够节约面积,进而在体系中装置更多GPU。HBM 内存由与 GPU 坐落同一物理封装上的内存仓库组成。

这样的架构意味着与传统的 GDDR5/6 内存规划比较,可节约很多功耗和面积,然后答应体系中装置更多 GPU。跟着 HPC、AI 和数据分析数据集的规划不断添加,核算问题变得越来越杂乱,GPU 内存容量和带宽也越来越大是一种必需品。H100 SXM5 GPU 经过支撑 80 GB(五个仓库)快速 HBM3 内存,供给超越 3 TB/秒的内存带宽,是 A100 内存带宽的 2 倍。

曩昔关于HBM来说,价格是一个约束要素。但现在大模型商场上正处于百家争鸣时期,关于布局大模型的巨子们来说时刻便是金钱,因而“贵有贵的道理”的HBM成为了大模型巨子的新宠。跟着高端GPU需求的逐渐提高,HBM开端成为AI服务器的标配。

现在英伟达的A100及H100,各搭载达80GB的HBM2e及HBM3,在其最新整合CPU及GPU的Grace Hopper芯片中,单颗芯片HBM搭载容量再提高20%,达96GB。

AMD的MI300也调配HBM3,其间,MI300A容量与前一代相同为128GB,更高端MI300X则达192GB,提高了50%。

预期Google将于2023年下半年活跃扩展与Broadcom协作开发AISC AI加快芯片TPU也计划搭载HBM存储器,以扩建AI基础设施。

02 存储厂商加快布局

这样的“钱景”让存储巨子们加快对HBM内存的布局。现在,全球前三大存储芯片制作商正将更多产能转移至出产HBM,但由于调整产能需求时刻,很难敏捷添加HBM产值,估计未来两年HBM供给仍将严重。

HBM的商场首要仍是被三大DRAM巨子掌握。不过不同于DRAM商场被三星*,SK海力士在HBM商场上展开的更好。如最初所说,SK海力士开发了*个HBM产品。2023年4月,SK 海力士宣告开宣告*24GB HBM3 DRAM产品,该产品用TSV技能将12个比现有芯片薄40%的单品DRAM芯片笔直堆叠,完成了与16GB产品相同的高度。一起,SK海力士计划在2023年下半年预备具有8Gbps数据传输功用的HBM3E样品,并将于2024年投入量产。

国内半导体公司对HBM的布局大多围绕着封装及接口范畴。

国芯科技现在正在研讨规划合封多HBM内存的2.5D的芯片封装技能,活跃推进Chiplet技能的研制和运用。通富微电公司2.5D/3D出产线建成后,将完成国内涵HBM高功用封装技能范畴的打破。佰维存储已推出高功用内存芯片和内存模组,将坚持对HBM技能的继续重视。澜起科技PCIe 5.0/CXL 2.0 Retimer芯片完成量产,该芯片是澜起科技PCIe 4.0 Retimer产品的要害晋级,可为业界供给安稳牢靠的高带宽、低推迟PCIe5.0/ CXL 2.0互连解决计划。

HBM虽好但仍需镇定,HBM现在仍旧处于相对前期的阶段,其未来还有很长的一段路要走。而可预见的是,跟着越来越多的厂商在AI和机器学习等范畴不断发力,内存产品规划的杂乱性正在快速上升,并对带宽提出了更高的要求,不断上升的宽带需求将继续驱动HBM展开。

HBM炽热反映了AIGC的带动才能。那么除了HBM和GPU,是否还有其他产品在这波新风潮中能够顺势展开?

03 谈谈其他被带火的芯片

FPGA的优势开端闪现

FPGA(Field Programmable Gate Array,现场可编程门阵列)是一种集成电路,具有可编程的逻辑元件、存储器和互连资源。不同于ASIC(专用集成电路),FPGA具有灵活性、可定制性、并行处理才能、易于晋级等优势。

经过编程,用户能够随时改动FPGA的运用场景,FPGA能够模仿CPU、GPU等硬件的各种并行运算。因而,在业界也被称为“*芯片”。

FPGA对底层模型频频改变的人工智能推理需求很有含义。FPGA 的可编程性超越了 FPGA 运用的典型经济性。需求清晰的是,FPGA 不会成为运用数千个 GPU 的大规划人工智能体系的有力竞赛对手,但跟着人工智能进一步渗透到电子范畴,FPGA 的运用规模将会扩展。

FPGA比较GPU的优势在于更低的功耗和时延。GPU无法很好地运用片上内存,需求频频读取片外的DRAM,因而功耗十分高。FPGA能够灵活运用片上存储,因而功耗远低于GPU。

6月27日,AMD宣告推出AMD Versal Premium VP1902自适应片上体系(SoC),是根据FPGA的自适应SoC。这是一款仿真级、根据小芯片的设备,能够简化日益杂乱的半导体规划的验证。据悉,AMD VP1902将成为全球*的FPGA,比照上一代产品(Xilinx VU19P),新的VP1902添加了Versal功用,并采用了小芯片规划,使FPGA的要害功用添加了一倍以上。

东兴证券研报以为,FPGA凭仗其架构带来的时延和功耗优势,在AI推理中具有十分大的优势。浙商证券此前研报亦指出,除了GPU以外,CPU FPGA的计划也能够满意AI巨大的算力需求。

不同于HBM被海外公司独占,国内公司FPGA芯片现已有所堆集。

安路科技主营业务为FPGA芯片和专用EDA软件的研制、规划和出售,产品已广泛运用于工业操控、网络通信、消费电子等范畴。紫光国微子公司紫光同创是专业的FPGA公司,规划和出售通用FPGA芯片。紫光国微曾在成绩阐明会上表明,公司的FPGA芯片能够用于AI范畴。东土科技首要展开FPGA芯片的产业化作业,公司参股公司中科亿海微团队自主开发了支撑其FPGA产品运用开发的EDA软件。

国产代替新思路:存算一体 Chiplet

能否运用咱们现在可用的工艺和技能来开发在功用上能够跟英伟达对标的 AI 芯片呢?一些“新思路”呈现了,例如存算一体 Chiplet。

存算别离会导致算力瓶颈。AI技能的快速展开,使得算力需求呈爆破式添加。在后摩尔年代,存储带宽限制了核算体系的有用带宽,体系算力添加步履维艰。例如,8块1080TI 从头练习BERT模型需99天。存算一体架构没有深度多层级存储的概念,一切的核算都放在存储器内完成,然后消除了由于存算异构带来的存储墙及相应的额定开支;存储墙的消除可很多削减数据转移,不光提高了数据传输和处理速度,并且能效比得以数倍提高。

一方面,存算一体架构与传统架构处理器处理平等算力所需的功耗会下降;另一方面,存算一体的数据状况都是编译器能够感知的,因而编译功率很高,能够绕开传统架构的编译墙。

美国亚利桑那州立大学的学者于 2021 年发布了一种根据 Chiplet 的 IMC 架构基准测验仿真器 SIAM, 用于评价这种新式架构在 AI 大模型练习上的潜力。SIAM 集成了器材、电路、架构、片上网络 (NoC)、封装网络 (NoP) 和 DRAM 拜访模型,以完成一种端到端的高功用核算体系。SIAM 在支撑深度神经网络 (DNN) 方面具有可扩展性,可针对各种网络结构和装备进行定制。其研讨团队经过运用 CIFAR-10、CIFAR-100 和 ImageNet 数据集对不同的先进 DNN 进行基准测验来展现 SIAM 的灵活性、可扩展性和仿真速度。据称,相关于英伟达 V100 和 T4 GPU, 经过 SIAM 取得的chiplet IMC 架构显现 ResNet-50 在ImageNet 数据集上的能效别离进步了 130 和 72。

这意味着,存算一体 AI 芯片有期望凭借Chiplet技能和 2.5D / 3D 堆叠封装技能完成异构集成,然后构成大型核算体系。存算一体 Chiplet 组合好像是一种可行的完成方法,据称亿铸科技正在这条路上探究,其*代存算一体 AI 大算力商用芯片可完成单卡算力 500T 以上,功耗在 75W 以内。或许这将敞开 AI 算力第二添加曲线的前奏。

04 结语

国际人工智能大会上,AMD CEO苏姿丰表明,未来十年一定会呈现一个大型核算超级周期,因而,现在正是一个成为技能供给商的好时机,一起也是与一些将会运用这些技能开发不同运用的客户协作的好时机。

没有人想要一个只要一个主导者的职业。大模型商场能否让芯片职业具有新的商场格式,能否让新玩家呈现?

“大模型商场对芯片职业带来了新的商场格式和时机。经过推进AI芯片的展开、促进云核算和数据中心商场的添加以及引发竞赛格式改变,大模型的鼓起为芯片职业带来了新的展开方向。

需求留意的是,芯片职业是一个高度竞赛和技能密集的职业。进入该职业需求巨大的资金和技能资源,以满意杂乱的制作和研制要求。虽然大模型商场为新玩家供给了时机,但他们需求战胜技能、资金和商场等方面的应战,才能在竞赛剧烈的芯片职业中取得成功。”Chatgpt如是回应。




————正大国际期货金融有限公司    

地址:香港花園道1號中銀大廈38樓   电话:   正大期货竭诚为您服务
Copyright © 2007-2019 香港正大国际期货 版权所有