来源:正大期货 2024-05-08 13:18
2021年的特斯拉AI Day,特斯拉PPT首发了人形机械人Tesla Bot的看法机设计方案。根据马斯克画的大饼,Tesla Bot可以完全取代身类“从事重复性/无聊的事情”。
也许是忧郁在场观众干看PPT无聊,马斯克请来了一位身着紧身衣的皮套人,模拟Tesla Bot尬舞了一段。
AI Day竣事,科技媒体The Verge示意,马斯克的Tesla Bot就是个笑话[1]。文章还援引中央兰开夏大学机械人工程教授Carl Berry的评价:说它是马粪都算提升它了(horse shit sounds generous, frankly)。
Carl Berry还专门搬出机械人领域的网红公司波士顿动力,以为后者正在踏扎实实的做事,而特斯拉在加深民众对机械人不切现实的理想。
今年4月,特斯拉的皮套人尬舞再度被拉出来鞭尸。在波士顿动力展示新款机械人的视频中,机械人以一种天真到有些诡异的方式从地上站起来。
波士顿动力也在推特上阴阳怪气了一句:“我们保证这不是一个穿着紧身衣的人。”
事情的原由是,波士顿动力宣布11岁“高龄”的人形机械人Atlas正式退休——Atlas算得上是初代机械人网红,它被波士顿动力员工一棍子撂倒,接着踉踉跄跄爬起来的视频,一度引发了“住手霸凌机械人”的后现代哲学思索。
效果Atlas领退休金的*天,“焕新版”Atlas正式出道。*的转变是,波士顿动力甩掉了原有的液压结构,改为电机驱动。
现在,“焕新版”Atlas的宣传片已经在YouTube上收获了500多万播放量。
相比Atlas熟悉的后空翻大劈腿,相较之下,去年年底的第二代Tesla Bot才刚学会缓慢行走和90度深蹲。
加上马斯克近几年大饼画的太多,也不难明白The Verge会提出“机械人为什么要像人”的质疑。
然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,决议了波士顿动力的运气。
谷歌发现了什么?
相比荒唐开场的Tesla Bot,波士顿动力这家公司是机械人领域根正苗红的祖师爷。
波士顿动力确立于1992年,前身是麻省理工学院的腿部实验室,耐久致力于有腿机械人的研究。
2012年,DARPA(美国国防高级研究设计局)为了推念头器人研究,资助了一场机械人挑战赛,波士顿动力由此进入美国军方的视野。
DARPA是五角大楼旗下的研究机构,和NASA一起降生于美苏争霸的白热化时期,目的是借助国家意志确保美国在高科技领域的*。只不外NASA认真地球以外,DARPA认真地球以内。已往几十年间,DARPA直接或间接的推动了GPS、互联网等手艺的降生。
2012年,正值DARPA在机械人、自动驾驶等领域鼎力投资,为了降低参赛门槛,DARPA希望能有一款尺度化的人形机械人,供参赛团队编程。
在这之前,波士顿动力已经为DARPA开发了多款产物,好比外型神似野猪的LS3,能够穿梭于种种极端战场环境,快速运送物资。
波士顿动力LS3
2013年7月,在DARPA的资助下,波士顿动力打造出了身高1.88米,重达150千克的初代Atlas。这个新闻很快传到了谷歌的耳朵里,波士顿动力的运气随之改变。
那时,谷歌正在隐秘筹备一个代号为“Replicant(复制人)”的机械人项目,由“安卓之父”安迪·鲁宾亲自带队。根据鲁宾的设想,谷歌将打造一个编程平台,从而推念头器人普及,最终在机械人身上复刻安卓系统的乐成[3]。
为了这个重大设计,谷歌疯狂扫货,一口吻收购了九家机械人初创公司,Atlas问世不到半年,波士顿动力就被谷歌收入囊中。往后,Atlas的迭代速率也坐上了火箭。
2016年,波士顿动力毫无征兆的宣布了一则新款Atlas的演示视频,视频中Atlas熟练的行走跳跃,尤其是被推倒在地后,仍能自主起身继续完成事情,整个历程栩栩如生,带给民众的震撼不亚于2022年底ChatGPT的问世。
现在,这条视频的Youtube播放量已经积累到了4059万。2017年,Atlas再接再厉,用一个精彩的后空翻再度把波士顿动力送上全球热搜。
然而,就在波士顿动力风头正盛的2017年,投资了五年之久的谷歌却将其甩卖。根据彭博的说法,谷歌治理层的焦点分歧在于商业化。
波士顿动力希望专一研究,但谷歌希望尽快打造能商业化的产物:“我们不能能用30%的资源去投入一个需要10年以上的项目[4]。”
在彭博的报道中,丰田和亚马逊都是潜在的买家,但波士顿动力最终被卖给了软银,2020年又被卖给了韩国现代。
谷歌内部,安迪·鲁宾因性丑闻被扫地出门,Replicant项目也草草收场,划上一个全是遗憾的句号。
一家明星公司在当打之年被潦草脱手,谷歌内部真实的决议历程难以知晓。但在这个历程中起到决议性作用的,很可能是2017年发生在谷歌内部的另一件事。
我来组成头部
2017年6月,谷歌的8位AI科学家联名揭晓了一篇名为《Attention Is All You Need》的论文。这是继2012年AlexNet勇夺ImageNet挑战赛冠军之后,人工智能生长史上的又一个里程碑事宜。
谷歌的科学家在论文里提出了一种“注重力机制”,并基于此开发一个名叫Transformer(变形金刚)的深度学习模子,解决了传统RNN模子的一系列问题。
搏杀9.9,这次瑞幸也没扛住
2020年,谷歌又提出了Vision Transformer ( ViT )看法,赋予了Transformer处置图像的能力。
随着Transformer一口吻解决了众多缺陷,它逐渐生长成了AGI领域的*解。
2012年的AlexNet让AI有了“感知”的能力,而Transformer和之后的大模子让AI有了“天生”的能力。换句话说,2012年的AI可以识别出林林总总的猫,2017年之后的AI已经可以自己天生猫的图片了。
因此,Transformer的推出直接开启了今天的大模子时代,2018年6月,OpenAI推出了基于Transformer模子的GPT-1,GPT里的“T”,就是Transformer的首字母。往后,OpenAI沿着这条蹊径连续迭代,并基于GPT模子开发了ChatGPT。
在大模子百花齐放的同时,Transformer也为人形机械人的提高打开了一扇窗户。
传统机械人大多基于特定的设计执行特定的操作,好比运输、分拣,不具备感知和决议能力。人形机械人不仅能与物理天下交互,另有感知和明白能力。
举一个不太适当但好明白的例子:送餐机械人执行“把外卖送到1203号房”这个义务时,并不明白什么是“外卖”和“1203号房”,只是凭证软件系统既定的指令和蹊径设计完成义务。
但人形机械人可以借由智能化,明白物理天下种种物体、语言和文字的寄义,并自主设计和决议。也就是说,机械人可以不依赖预先的编程,就能完成诸如“关掉最上层抽屉”等较为模糊的指令。
波士顿动力的问题在于,无论Atlas的机械与动力结构何等优异,都无法解决“穷举法”的问题。
Atlas的软件原理是通过摄像头与传感器输入外界环境数据,再凭证提前确立的行为库,执行对应的动作。在其官方的文档里,波士顿动力坦诚了这么做的坏处:
“若是盒子向一侧移动了0.5 米,那么Atlas会找到并完成跳跃;若是盒子移动得太远,那么系统将住手[5]。”
由于Atlas的所有动作都依赖提前设计的模版,那么真实环境的一点点转变,都可能让机械人无所适从。这也是为什么传统机械人只被用于环境、蹊径和职能极端牢靠的工厂、旅店送餐等场景。
而Transformer带来的思绪是,只要让机械学习足够多的数据,就能拥有类人的智能,可以脱离预设的设计举行自主决议。
去年7月《纽约时报》探班谷歌实验室, 完整纪录了基于RT-2模子的机械人智能闪现的瞬间:
桌子上放着一堆塑料玩具,工程师让单臂机械人“捡起灭绝的动物”,机械人拿起了恐龙。
这意味着机械人不仅能识别三种动物,也能明白“灭绝的动物”的寄义,还可以完成详细的操作。
Google RT-2
Transformer的泛起彻底改变了机械人的手艺路径,在感知-决议-执行的完整链条中,焦点能力不再是驱念头器人后空翻大劈腿的机械结构,而是组成机械人大脑的软件算法。
人工智能的提高在各行各业上演着软件对硬件的夺权,机械人只是其中之一。
另一个正在由软件界说的行业是自动驾驶,这也是为什么马斯克会说:当你能解决自动驾驶,你就能解决现实天下中的人工智能。
特斯拉的三张牌
特斯拉在AI天下的进场,经常出现某种荒唐不经的色彩。
2022年特斯拉备受期待的Tesla Bot*次“真人”亮相,居然要依赖三名壮汉搀扶。两个月后ChatGPT横空出世,Tesla Bot成了一块无人问津的靠山板。
然而,特斯拉在机械人领域的积累,可能比任何一家公司都要深挚。
自动驾驶本质上是机械人的一个“前置产业”,两者的焦点都是基于人工智能,实现感知-决议-执行的完整链条。
这就意味着无论是软件层面的算法,照样硬件层面的视觉传感器、FSD芯片等零部件,理论上都可以用于人形机械人。
特斯拉也简直是这么做的:Tesla Bot共设置有3颗摄像头,左右眼各一个,外加一颗鱼眼广角。芯片是和特斯拉电动车一模一样的FSD自动驾驶芯片。软件上,Tesla Bot也承袭了自动驾驶的手艺方案。
2023年特斯拉股东大会,马斯克也确认了这一点:特斯拉已经买通了自动驾驶芯片FSD和机械人的底层模块,实现了一定水平的算法复用。
任何人工智能的生长都需要算法、算力、数据三驾马车来拉动,算法决议了盘算机用什么方式识别事物;但算法又需要足够大的算力来驱动;同时,算法的提升又需要大规模高质量的数据;三者相辅相成,缺一不能。
算法和算力层面,特斯拉已经借助电动车营业,完成了从云端(D1)到终端(FSD),焦点软硬件的自研。
数据层面,2022年的AI Day上,特斯拉宣称已经存储的有价值训练数据集有23.2万帧,验证数据集0.38万帧。上百万车主正在源源不停的为算法训练孝顺着数据。
马斯克本人在AI领域的涉足也常被忽略,他是OpenAI的首创人之一,也是DeepMind的早期投资人。他介入的人工智能公司另有脑机芯片Neuralink、谈天机械人Grok。特斯拉天天接受并处置的视频画面跨越1600亿帧,这很可能是商业公司能拥有的*的真实天下数据集。
波士顿动力很可能意识到了这个问题,但“焕新版”Atlas*的改变,是从液压改为全电动,*的利益可能是降低成本。
在一次采访中,首创人Marc Raibert曾示意Atlas在一定水平上激励了马斯阻止造Tesla Bot的想法。但在人工智能残酷的竞争中,波士顿动力已经落伍太多。
波士顿动力的问题在于,他们用了20年的时间试图教会机械人若何“运动”,但现实上,机械人应该先学会“思索”。
或许在不久的未来,判断机械人的智能化水平,可能不是看它会不会后空翻大劈腿,而是能不能从九张图片中选出包罗红绿灯或摩托车的图片,或者滑动滑块使图片位于准确的角度。
————正大国际期货金融有限公司