来源:正大期货 2023-07-04 07:10
近来,芯片巨子AMD推出全新AI GPU MI300系列芯片,与英伟达在AI 算力商场打开竞赛。
AMD首席执行官苏姿丰介绍称,MI300X供给的高带宽内存(HBM)密度是英伟达H100的2.4倍,HBM带宽是竞品的1.6倍。华尔街分析师也普遍认为,AMD的这款芯片将对现在把握AI芯片商场逾多半比例的英伟达构成有力应战,这款MI300X加快器,有望代替英伟达的同类产品。
可是,商场对本次新品的反应好像并不火热。到隔夜收盘,AMD股价跌落超3.6%,被应战的英伟达不跌反涨,股价单日大涨3.90%。
至于当日AMD股价跌落的原因,或许包含英伟达在AI开展方面更为老练,而AMD公司的新品仍有待商场验证。此外,其客户更关怀的是价格问题。作为参阅,由于供需严重,英伟达H100的价格现已到达4万美元/枚,而AMD没有发表MI300X的定价,难以与英伟达H100构成比照。
1、蹿红的英伟达
2022年ChatGPT横空出世,把AI 职业的开展面向了一个新的高潮,生成式 AI 需求依据海量的数据进行推理练习,高算力的 GPU 加快卡天然也成了商场的抢手货。乘着AI的春风,英伟达坐上了“算力霸主”的宝座。
据悉,微软用几亿美元,消耗上万张英伟达A100芯片打造超算渠道,只为给ChatGPT和新版必应供给更好的算力。不仅如此,微软还在Azure的60多个数据中心布置了几十万张GPU,用于ChatGPT的推理。特斯拉CEO马斯克也购买了约1万个GPU,用于公司的两个数据中心之一。除此之外,像亚马逊、阿里、百度等许多科技公司都在竞相布置AI芯片。
供需的极度不平衡让英伟达的GPU一芯难求,敞开提价。据商场消息人士泄漏,英伟达的A100和H100 AI GPU订单还在不断添加,A800和H800的价格已上涨40%,新订单交期或许要延长到12月份。
在炙手可热的AI浪潮下,英伟达赚得盆满钵满。英伟达表明,其到 7 月的本季度销售额估量将达 110 亿美元,较华尔街之前的估量高出 50%以上。不过,作为AI的根底设施,算力芯片环节的“一家独大”显着不是有利于职业久远开展的生态,商场迫切需求引进新的竞赛者,AMD的呈现或许有望“分管”AI商场的压力。
与此同时,我国本乡AI运用和AI芯片草创公司也跟着AI的热潮和风投的注重而遍地开花。那么,我国的AI芯片研究开展怎么了?哪些公司能够锋芒毕露?
2、国产AI芯片开展几许?
我国首要的AI芯片公司有寒武纪、华为昇腾、海光信息、沐曦科技、壁仞科技、燧原科技、天数智芯等,跟着AI运用的遍及和成效开端凸显,国产AI芯片正迎来全面迸发和增加,多家AI芯片独角兽也将渐渐浮出水面。
寒武纪
在云端产品线,寒武纪现已推出了四代芯片产品,分别为:思元100、思元270、思元290(车载)以及思元370系列,用以支撑在云核算和数据中心场景下复杂度和数据吞吐量高速增加的人工智能处理使命。此外,寒武纪还有一款在研产品思元590,没有正式发布,而且最有看头的便是寒武纪的思元590。
该芯片选用MLUarch05全新架构,实测练习功能较在售旗舰产品思元290系列有大幅提高,有望成为国产先进AI算力芯片。据悉,思元590全体算力归纳功能大约是A100的70%,其有望在部分场景代替英伟达A100。
不过,思元590的指令兼容性相对较差,后续或许影响布置。值得注意的是,其下一代产品的功能指标大约是A100的1.5倍,但相同面对软件生态影响,以及供应链问题。
华为昇腾
华为昇腾首要包含昇腾910和昇腾310两款处理器,选用自家的达芬奇架构。昇腾310主打面向边际场景的低功耗AI处理器,昇腾910是一款面向云端和数据中心的高功能AI处理器,能够支撑超大规划的AI练习使命,体现非常优异。
据华为发布的信息,实践测验结果表明,在算力方面,昇腾910彻底到达了规划规范,即:半精度 (FP16)算力到达256 Tera-FLOPS,整数精度 (INT8) 算力到达512 Tera-OPS,重要的是,到达规范算力所需功耗仅310W,显着低于规划规范的350W。
据悉,在实践运用过程中,昇腾910的处理速度比业界同类产品快80%以上。徐直军表明,昇腾910 整体技能体现超出预期,作为算力最强AI处理器,名副其实。
不过昇腾910也有着很大的局限性。昇腾910依靠华为本身软件生态、需求华为深度优化及代码移植,通用性相对要差一些,比方昇腾不能做GPT-3,由于昇腾910不支撑32位浮点,而现在大模型练习简直都要运用32位的浮点。
沐曦科技
沐曦公司旗下首要有曦思和曦云两款AI芯片,其间曦云MXC系列是该公司研制的用于AI练习及通用核算的GPU芯片。
MXC500是沐曦对标A100/A800的算力芯片,FP32浮点功能可达15TFlops,作为比照的是A100显卡FP32 功能19.5 TFLOPS。除了功能挨近之外,MXC500的完好软件栈(MXMACA)还兼容CUDA,估量年末规划出货。
此外,沐曦的团队布景经历非常丰厚,其一些中心人员曾参加AMD的MI100、MI200产品开发,这都是AMD现在最干流的GPGPU产品。
海光信息
海光信息是一个潜力股,拿海光DCU(协处理器)系列深算一号和英伟达的A100、AMD的MI100来比照,其许多根本指标上都到达世界同类高端产品的水平,虽然在全体功能上依然有显着间隔,但在国产代替的布景下其完成已适当优异,开展潜力巨大。
不过,海光信息若要运用新一代GPGPU架构还需求AMD授权,存在迭代问题。
壁仞科技
壁仞的BR100 发布时,凭仗其超高的参数与功能引起了激烈的颤动。
参数方面,BR100系列依据7nm制程工艺打造,具有770亿个晶体管。由壁仞科技自主原创的芯片架构开发,选用Chiplet(芯粒)、2.5D CoWoS等先进的规划、制作与封装技能,可调配64GB HBM 2E显存,超300MB片上缓存,支撑PCIe 5.0、CXL互联协议等。
功能是BR100*亮点的当地,具有1024 TOPS INT8,512 TFLOPS BF16、256 TFLOPS TF32 、128 TFLOPS FP32,可完成2.3TB/s的外部I/O带宽,支撑64路编码、512路解码等,声称在FP32(单精度浮点)、INT8(整数,常用于人工智能推理)等维度,均逾越了世界厂商最新旗舰。
BR100 系列通用 GPU 芯片支撑云端练习和推理,现在现已到了收尾阶段,估量将在本年流片。壁仞科技的第二款芯片现已开端发动架构规划,之后壁仞科技还将逐渐推出面向智算中心、云游戏、边际核算的GPU芯片。
不过,BR100还未有产品出来,其参数至今停留在实验室阶段,到时商用实测功能难以衡量。
阿里平头哥
阿里的AI芯片,与GPU架构有着很大的不同,由于他们做的彻底是依据AI算法优化的架构。
阿里曾表明,含光800是其时全球最强的AI芯片,功能和能效比均为*,1颗含光800的算力适当于10颗GPU。
含光800芯片在业界规范的ResNet-50测验中,推理功能到达78563 IPS,比现在业界*的AI芯片功能高4倍;能效比500 IPS/W,是第二名的3.3倍。
在业界,平头哥发布的这款芯片也很被看好。
燧原科技
燧原科技,是罕见的云端AI芯片创业公司,其完成对AI 练习芯片的二次迭代,仅用了三年时刻,首要产品是“邃思”。
据介绍,燧原科技发布的邃思2.0的尺度到达57.5毫米×57.5毫米(面积为3306mm2),到达了日月光2.5D封装的极限,与上代产品相同选用格罗方德12nm FinFET工艺,内部共整合9颗芯片,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS。相比之下,英伟达依据Ampere架构的A100 GPU的单精度浮点核算才能仅为19.5TFLOPS。
昆仑芯
百度昆仑芯片是百度自主研制的云端AI通用芯片。在2018年7月举行的百度AI开发者大会上,百度公司董事长兼CEO李彦宏正式宣告,百度自研AI 芯片命名为昆仑。百度昆仑1于2019 年成功流片,选用三星14nm制程工艺,现在量产超越2万片,在百度搜索引擎和百度智能云生态同伴等场景广泛布置。百度昆仑2于2021年下半年完成量产,选用7nm先进工艺,其功能比百度昆仑1再提高3倍。据悉,百度正方案在年末做第三款昆仑芯片。
天数智芯
天数智芯首要包含天垓100和智铠100两款AI芯片,天垓100是一款依据 GPGPU 架构芯片的高功能云端通用并行核算卡,据介绍,天垓100从底层硬件到上层软件都是独立规划开发,不走购买国外GPU IP的捷径,保证了彻底自主知识产权。随后天数智芯又发布了其第二款产品“智铠100”,这款芯片被誉为“镇馆之宝”,招引了许多职业用户的注重。
天数智芯GPGPU核算芯片首要针对云端AI练习 推理和云端通用核算,是国内可贵的兼容CUDA等异构核算生态的数据中心高端核算芯片。
3、只靠算力,无法做英伟达的PlanB
英伟达的强不仅仅体现在硬件产品上,在软件渠道中,英伟达也有自己的护城河。
CUDA便是英伟达推出的依据GPU的并行核算渠道和编程模型,能够用来加快大规划数据并行核算,使得GPU能够用于愈加广泛的科学核算和工程核算等范畴。CUDA的杰出生态体系招引了许多学术组织和高功能核算中心的注重和运用,也为英伟达供给了强有力的商场竞赛优势。现在AMD也在做相同的工作,仅仅英伟达现已占了先发优势,AMD树立起来或许会更为困难。
CUDA的重要性显而易见,可是供给CUDA兼容层,需求厂商具有满足的研制实力,上文说到的与CUDA兼容的有沐曦、海光、壁仞、天数智芯等公司,因而是否兼容CUDA也成为衡量AI芯片公司的标的之一。
至于是否一定要兼容CUDA,业界有着不同见地。专家称,在小模型上CUDA依然很重要,但在大模型上它的位置越来越轻了。假如未来我国商场以小模型为主,那CUDA仍是有很大的影响力,而假如是以大模型为主,关于CUDA的依靠就越来越小了。
总而言之,注重软件配适开发至关重要。
关于树立国产IT体系的举动主张包含:设置合理国产体系及芯片功能要求和验证意图,从非要害运用开端测验导入部分国产芯片;加强软件配适开发,保证软件对不同体系的兼容性、稳定性和运营功能;树立加强对国内根底IT软硬件厂商的出资,保证厂商对产品开发方案的影响力;优先考虑国内供应链和老练渠道,活跃选用半导体立异技能。
4、未来与英伟达的间隔定然会逐渐缩小
现在芯片现已成为半导体职业中*有开展潜力的范畴之一,AI芯片作为推进芯片职业开展的中心商场,其职业价值无法估量,跟着AI芯片技能的逐渐老练,其运用场景逐渐渗透到各类智能终端范畴中,在我国科技开展中占有越来越重要的位置。
依据Gartner的数据,在现在全球半导体工业中,我国GPU的全球商场占比规划仅1%。2022年,在全球6000亿美元的半导体收购中,我国企业的芯片收购规划到达1490亿美元,占到四分之一;跨国企业的我国工厂芯片收购规划到达2130亿美元,占比35%。
我国的芯片工业还有着巨大的开展潜力。未来,我国芯片工业将持续加大出资,国内企业与英伟达的间隔也一定会逐渐缩小。
————正大国际期货金融有限公司