来源:正大期货 2023-06-28 07:50
身穿皮夹克的黄仁勋,站在蓝色冲浪板上,摆了几个冲浪的姿态。
这不是美国「网红节」VidCon,而是美国闻名数据渠道 Snowflake 的开发者大会上的一景。
当地时刻 6 月 26 日,英伟达创始人黄仁勋和 Snowflake 公司 CEO Frank Slootman 就「怎么把生成式 AI 带给企业用户」打开讨论。主持人则是前 Greylock 的 GP,现在是出资组织 Conviction 的创始人。
在会上,相较于「东道主」Frank 作业经理人式的深思远虑,「皮衣教父」自始自终地语出惊人,不只称两边的协作是「要相爱,不要战役」(We are Lovers,not Fighters),更恶作剧说,为 Snowflake 供给的通过练习的模型,相当于给客户「打了 1 折」。
当天,英伟达与 Snowflake 又一同放出大招:国际*芯片公司与风头最劲的云数据渠道协作,推出一同协作。Snowflake 的用户可以在数据不离开渠道的前提下,直接运用英伟达的预练习 AI 模型,在云渠道上对自己公司的数据进行剖析,开发针对自己数据的「AI 运用」。
「现在的严重改造来自数据 AI 算法 核算引擎。通过咱们的协作,咱们的可以将这三点带到一同。」黄仁勋讲道。
Talking Points:
大言语模型 企业专属数据库=针对特定问题的 AI 运用;
曾经是 Data going to Work,现在是 Work going to Data,让核算去到数据地点之地,防止数据孤岛;
英伟达供给的预练习模型,现已是花费数千万美元、在英伟达 AI 工厂中练习出来的,所以在 Snowflake 上调用核算引擎现已「打了 0.5 折」;
软件 3.0 年代,依据模型、数据库,企业可以在几天内树立自己的专属运用;
未来企业可以出产许多智能署理,并工作它们;
关于企业来说,实在的难题是混合结构的、非结构化的数据,怎么被调集。这或许可以带来商业模式的更新。
以下为两边对话主要内容,经极客公园收拾修改:
01
谈协作:把*的核算引擎,
带给最有价值的数据
Frank:
NIVIDA 现在在历史上发挥着重要的效果。关于咱们来说,可以带来数据和大型企业的联系。咱们需求启用这项技能,以及让整个服务仓库来有效地运用它。我不想运用「天作之合」来描述,可是关于一个外行人,是一个很好的时机,进入到这扇时机的大门里。
黄仁勋:
咱们是 lovers,而不是对手。咱们要把国际上*的核算引擎带到国际上最有价值的数据。回想曩昔,我现已作业了很长时刻,可是还没有那么老。Frank,你更老一些(笑)。
最近,由于众所周知的原因,数据是巨大的,数据是名贵的。它有必要是安全的。移动数据很困难,数据的引力实在存在。因而,对咱们来说,把咱们的核算引擎带到 Snowflake 上要简单得多。咱们的伙伴联系是加快 Snowflake,但它也是关于将人工智能带到 Snowflake。
最中心的是,数据 人工智能算法 核算引擎的组合,咱们的伙伴联系将全部这三件事结合在一同。令人难以置信的有价值的数据,令人难以置信的巨大的人工智能,令人难以置信的巨大的核算引擎。
咱们可以一同做的作业,是协助客户运用他们的专稀有据,并用它来编写 AI 运用程序。你知道,这儿的严重打破是,你*次可以开发一个大型言语模型。你把它放在你的数据前面,然后你与你的数据攀谈,就像你与一个人攀谈相同,而这些数据将被增强到一个大型言语模型中。
大型言语模型加常识库的组合等于一个人工智能运用。这一点很简单,一个大型的言语模型将任何数据常识库变成一个运用程序。
想想人们所写的全部惊人的运用程序。它的中心始终是一些有价值的数据。现在你有一个查询引擎通用查询引擎在前面,它超级智能,你可以让它回应你,但你也可以把它衔接到一个署理,这是 Langchain 和向量数据库带来的打破。将数据和大言语模型叠加的打破性的东西正在处处发生,每个人都想做。而 Frank 和我将协助咱们做到这一点。
02
软件 3.0:树立 AI 运用,
处理一个特定问题
主持人:
作为出资者来看这种改动,软件 1.0 是十分承认的代码,由工程师依照功用写出来;软件 2.0 是用细心搜集的符号的练习数据优化一个神经网络。
你们在协助人们撬动软件 3.0,这套根底模型自身有令人难以置信的才能,但它们依然需求与企业数据和自界说数据集协作。仅仅针对它们去开发那些运用程序要廉价得多。
关于那些深化重视这个范畴的人来说有一个问题,根底模型是十分泛化,它可以做全部作业吗?为什么咱们需求自界说模型和企业数据呢?
Frank:
所以咱们有十分泛化的模型,可以做诗,处理《了不得的盖茨比》的做摘要,做数学问题。
可是在商业中,咱们不需求这些,咱们需求的是一个 Copilot,在一个十分狭隘,可是十分杂乱的数据集上取得特殊的洞见。
咱们需求了解商业模式和商业动态。这样的核算上不需求那么贵重,由于一个模型并不需求在一百万件作业上接受练习,只需求知道十分少的、但很深化的主题。
举个比方。我是 Instacart 的董事会成员,咱们一个大客户,像 DoorDash 和全部其他企业常面对的问题是,他们不断添加营销费用,来了一个客户,客户下了一个订单,客户要么不回来,要么 90 天后回来,这十分不稳定。他们把这称为丢失客户。
这是杂乱问题的剖析,由于客户不回来的原因或许有许多。人们想找到这些问题的答案,它在数据中,不在一般的互联网中,并且可以通过人工智能找出来。这便是或许发生巨大价值的比方。
主持人:
这些模型应该怎么与企业数据互动?
黄仁勋:
咱们的战略和产品是各种尺度、*进的预练习模型,有时你需求创立一个十分大的预练习模型,以便它可以发生 prompt,来教更小的模型。
而较小的模型简直可以在任何设备工作,或许推迟十分低。可是它的泛化才能并不高,zero shot(零样本学习)才能或许更有限。
因而,你或许有几种不同类型不同巨细的模型,但在每一种状况下,你有必要做监督的微调,你有必要做 RLHF(人类反应的强化学习),以便它与你的方针和准则保持一致,你需求用矢量数据库之类的东西来增强它,所以全部这些都聚集在一个渠道上。咱们有技能、常识和根本渠道,协助他们创立自己的人工智能,然后将其与 Snowflake 中的数据衔接起来。
现在,每个企业客户的方针不该该是考虑我怎么树立一个大型的言语模型,他们的方针应该是,我怎么树立一个人工智能运用程序来处理特定的问题?那个运用或许需求 17 个问题来做 prompt,终究得出正确的答案。然后你或许会说,我想写一个程序,它或许是一个 SQL 程序,或许是一个 Python 程序,这样我就可以在未来主动做这个。
你仍是要引导这个人工智能,让他终究能给你正确的答案。但在那之后,你可以创立一个运用程序,可以作为一个署理(Agent)24/7 不间断地工作,寻觅相关状况,并提早向你报告。所以咱们的作业便是协助客户树立这些人工智能的运用,这些运用是有安全护栏的、详细的、定制的。
终究,咱们在未来都将成为智能制作商,当然招聘职工,但咱们将创立一大堆署理,它们可以用 Lang Chain 相似的东西来创立,衔接模型、常识库、其他 API,在云中布置,并将其衔接到全部的 Snowflake 数据。
你可以规模化地操作这些 AI,并不断地完善这些 AI。因而,咱们每个人都将制作 AI、工作 AI 工厂。咱们将把根底设施放在 Snowflake 的数据库,客户可以在那里运用他们的数据,练习和开发他们的模型,操作他们的 AI,因而,Snowflake 将是你的数据存储库和银行。
有了自己的数据金矿,全部人都将在 Snowflake 上工作 AI 工厂。这是方针。
03
「核弹」虽贵,
直接用模型相当于「打 1 折」
黄仁勋:
咱们在 NIVIDA 树立了有五个 AI 工厂,其间四个是国际前 500 名的超级核算机,另一个正在上线。咱们运用这些超级核算机来做预练习模型。因而,当你在 Snowflake 中运用咱们的 Nemo AI 根底服务时,你将得到一个*进的预练习模型,现已有几千万美元的费用投入其间,更不用说研制投入了。所以它是预先练习好的。
然后有一大堆其他的模型围绕着它,这些模型用于微调、RLHF。全部这些模型的练习本钱都要高得多。
因而,现在你现已将预练习模型适应于你的功用,适应于你的护栏,优化你期望它具有的技能或功用类型,用你的数据增强。因而,这将是一个更具本钱效益的办法。
更重要的是,在几天内,而不是几个月。你可以在 Snowflake 开发与你的数据衔接的人工智能运用程序。
你应该可以在未来快速树立人工智能运用程序。
由于咱们现在看到它正在实时发生。现已有一些运用可以让你和数据谈天,比方 ChatPDF。
主持人:
是的,在软件 3.0 年代,95% 的练习费用现已由他人承当了。
黄仁勋:
(笑)是的,95% 的扣头,我无法幻想一个更好的买卖。
主持人:
这是实在的动力,作为出资人,我看到在剖析、主动化、法令等范畴的十分年青的公司,他们的运用现已在六个月或更短的时刻内完成了实在的商业价值。其间一部分原因是他们从这些预先练习好的模型开端,这对企业来说是一个巨大的时机。
黄仁勋:
每家公司都会稀有百个,乃至 1000 个人工智能运用程序,仅仅与你公司的各种数据相连。所以,咱们全部人都有必要长于构建这些东西。
04
本来是数据找事务,
现在是事务找数据
主持人:
我一向从大企业参加者听到的一个问题是,咱们有必要去出资人工智能,咱们需求一个新的仓库(Stack)吗?应该怎么考虑与咱们现有的数据仓库相连?
Frank:
我以为它在不断发展。模型们正逐渐变得更简练、安全、更好地被办理。所以,咱们没有一个实在清晰的观念,这便是每个人都会运用的参阅架构?有些人将有一些中心服务的设置。微软有 Azure 中的人工智能版别,它们的许多客户正在与 Azure 进行互动。
但咱们不清楚什么模型将主导,咱们以为商场将在运用难易、本钱这些事上进行自我排序。现在仅仅是开端,不是终究的状况。
安全部分也会参加进来,关于版权的问题会被改造。现在咱们对技能很入神,实践中的问题也会被一起处理。
黄仁勋:
咱们现在正阅历 60 年来*次根本性的核算渠道改造。假如你刚刚读了 IBM System 360 的新闻稿,你会听到关于中心处理单元、IO 子系统、DMA 控制器、虚拟内存、多任务、可扩展核算向前和向后端兼容,而这些概念,实践都是 1964 年的东西,而这些概念协助咱们在曩昔六十年来,不断进行 CPU 扩展。
这样的扩展现已进行了 60 年了,但这现已走到了止境。现在咱们都理解,咱们无法再扩展 CPU 了,突然之间,软件改动了。软件的编写办法,软件的操作办法,以及软件能做的作业都与曾经有很大的不同。咱们称之前的软件为软件 2.0。现在是软件 3.0。
现实便是,核算现已从根本上改动了。咱们看到两个根本的动力在一起发生,这也是为什么现在作业正在发生剧烈震动。
一方面,你不能再不断地购买 CPU。假如你下一年再买一大堆 CPU,你的核算吞吐量将不会添加。由于 CPU 扩展的结尾现已到来了。你会多花一大堆钱,你不会得到更多的吞吐量。因而,答案是你有必要去加快(英伟达加快核算渠道)。图灵奖取得者谈到了加快,英伟达创始了加快,加快核算现在现已到来。
另一方面是,核算机的整个操作系统发生了深入的改动。咱们有一个叫 NIVIDA AI Enterprise 的层,而其间的数据处理、练习、推理布置,整个现在现已整合到或正在整合到 Snowflake 中,因而,从开端数据处理,一向到最后的大模型布置,整个背面的核算引擎都被加快了。咱们将赋能 Snowflake,在这儿你将可以做得更多,并且你将可以用更少的资源做到更多。
假如你去任何一个云,你会看到 NVIDIA GPU 是其间最贵重的核算实体。可是,假如你把一个作业负载放在上面,你会发现咱们做得十分快。就好像你得到了一个 95% 的扣头。咱们是最贵重的核算实体,但咱们是*本钱效益的 TCO。
所以,假如你的作业是工作作业负载,或许是练习大型言语模型,或许是微调大型言语模型,假如你想这样做,一定要进行加快。
加快每一个作业负载,这便是整个栈的重塑。处理器因而发生改动,操作系统因而不同,大的言语模型是不同的,你写 AI 运用程序的办法是不同的。
未来,咱们都要写运用。咱们都要把咱们的 prompt 和咱们的上下文,和少量几个 Python 指令衔接起来,衔接到大言语模型和自己的数据库或许公司的数据库中,开发自己的运用程序。每个人都将成为一个运用程序的开发者。
主持人:
但不变的是,它依然是你的数据。你依然需求对它进行微调。
Frank:
本来咱们都觉得更快的总是更贵的。实践上突然之间,更快的是更廉价的,这是一种反直觉的东西。因而,有时人们想削减供给,以为这样更廉价,成果却更贵。
另一个与之前对立的是,本来都是数据去找事务(data going to work),而现在,事务去找数据 (work going to data)。曩昔的六十年,或许更多年,咱们一向在让数据去找事务,这导致了大规模的信息孤岛。而假如你想具有一个 AI 工厂,用之前的做法将是十分困难的。咱们有必要把核算带到数据地点的当地。我以为咱们现在正在做的便是正确的办法。
05
企业怎么取得
最快和*的价值
Frank:
最快和取得*价值其实是两个很不相同的问题。
最快的话,你很快可以看到,数据库遍地都上线了人工智能增强的查找办法,由于这是最简单添加的功用。现在,乃至一个文盲都能从数据中获取有价值的信息,这真十分难以想象,这是*的交互民主化。查找功用极大增强,你就向主界面提一个问题,它们可以把这些问题带到数据自己进行查询。这是挂在低处的果实,最简单的,咱们以为这是阶段一。
接下来,咱们就开端实在重视实在的难题,便是专有的企业数据,混合结构化的、非结构化的,全部这些,咱们怎么调集这些数据?
我前面现已提到了 to C 企业面对的丢失率问题,供给链办理方面的问题。当供给链特别杂乱的时分,假如有一个工作发生了,咱们怎么从头调整一个供给链,使其工作?我现在该怎么做?供给链是由许多不同的实体组成的,不是单一的企业。历史上,这是一个从未被核算处理过的问题。供给链办理从来没有构成过一个渠道,它简直是一个电子邮件,电子表格构成的系统,除了一些小的破例。因而,这是极端令人兴奋的。
或许咱们可以从头核算大型的呼叫中心的出资,优化零售的定价,像我说的,这是一个大企业的 CEO 们一向等待的从头界说商业模式,是实在的潜力。
06
对企业的主张:
黄仁勋:
我会问自己,*,什么是我*最有价值的数据库?第二件事,我会问自己,假如我有一个超级、超级、超级聪明的人,而企业的全部数据都通过那个超级智能,我会问那个人什么?
依据每个人的公司,这是不同的。Frank 的公司客户数据库十分重要,由于他有许多客户。而我自己的公司,没有那么多客户,但对我的公司而言,我的供给链超级杂乱,并且我的规划数据库也超级杂乱。
对 NIVIDA 来说,没有人工智能咱们现已无法建造出GPU。由于咱们的工程师都不或许像AI那样,为咱们进行很多的迭代和探究。因而,当咱们提出人工智能的时分,*个运用在咱们自己的公司。并且,所以 Hopper(英伟达超算产品)不或许没有人工智能的规划。
咱们也会将咱们自己的 AI 运用于咱们自己的数据中。咱们的过错数据库便是一个*的运用场景。假如你看一下 NIVIDA AI 的代码量,咱们有几百个软件包,结合在一同,支撑一个运用程序可以跑起来。咱们现在正在尽力的一些作业,便是怎么运用 AI 去弄清楚怎么给它打安全补丁,怎么*地保护它,这样咱们就可以不用搅扰整个上层运用层的一起,可以向后端兼容。
这都是 AI 可以为你供给答案的。咱们可以用一个大言语模型去答复这些问题,为咱们找到答案,或许向咱们提醒一些问题,然后工程师就可以再将其修好。或许 AI 可以引荐一个修正办法,人类工程师再去承认这是不是一个好的修正办法。
我觉得不是全部人都知道到了他们每天都在处理的数据里边,其实蕴含着多少智能、洞见和影响力没有被开掘。这便是为什么咱们全部人都要参加进来,协助带来这样的未来。
现在,你贮存在数据仓库的数据,*次可以被衔接进人工智能工厂。你将可以出产信息情报,这是国际上最有价值的产品。你坐在一个自然资源的金矿上——你公司的专稀有据,而咱们现在把它衔接到一个人工智能引擎上,另一端每天直接发生信息情报,以难以置信的情报量从另一端涌出,乃至在你睡觉时也在源源不断地产出。这是有史以来*的作业。
————正大国际期货金融有限公司