【专栏】人形机器人产业链跟踪——AI专题报告之十二(中)_爱游戏平台app下载/爱游戏体育官网网页/爱游戏登录入口

【专栏】人形机器人产业链跟踪——AI专题报告之十二(中)

来源:爱游戏平台app下载    发布时间:2024-03-10 14:47:47

产品详情

  与自动驾驶算法方案类似,智能机器人的软硬件构成上最重要的包含五大组成部分,分别是:

  感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,要解决精度等问题;

  运算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据少、虚拟世界与物理世界存在适配问题;

  驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等;

  末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力度、灵活性等方面;

  依据上述的模块,我们对特斯拉2022年AI Day及2023年投资者大会上公布的关于人形机器人Optimus的参数进行汇总梳理如下:

  人形机器人重量为73kg,几乎与成年人重量相当,在时的功率为100W,快走时的功耗为500W;能源供应依靠电池,电池容量2.3kWh容量,支持52V电压,内置电子电气元件的一体单元。Optimus的大脑由单块FSD Chip组成,若参照无人驾驶HW 3.0芯片则预计算力为72TOPS。

  在感知算法层面,人形机器人依赖于无人驾驶FSD算法,也采用了纯视觉感知方案,共配置有3颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后进行3D重建,对于空间中的物体通过占用网络进行识别输出。对比无人驾驶中占用网络,因为室内环境小目标比较多,我们大家可以看出机器人场景的单元格更加稠密。

  视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。

  影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在执行操作时的发力大小、发力方向等信息,模拟人的执行动作;另一种方式是类似于比下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下做出动作决策,与人的动作作对比,从而获得差异数据用于训练机器人模型更类人。

  运动控制:与无人驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同点在于,机器人给出运动轨迹之后,还应该要依据轨迹预测脚掌的落地位置。

  平衡控制:在波士顿动力的双足机器人中,推倒测试是常见的一种测试平衡的机制。类似地,特斯拉人形机器人也做了相关测试,以测试机器人对外界环境的躲避及运动平衡等。

  硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。Tesla Bot基于特斯拉汽车的工程技术,并且针对人形机器人做了针对性的调整,例如减少零部件的复杂度等。特斯拉在参考生物学结构的同时,还通过软硬件配合的方式,让机器人进行多模态的学习,对机械结构可以进行扭矩等力学方面的进行微调。(资料来源:特斯拉、新出行)目前整个躯干拥有200+DoF自由度,手部自由度达到27DoF。

  灵巧手:2022年AI Day上公布的Optimus光手掌区域就用了6个驱动执行器,具有11档的自由度,拥有自适应的抓握角度、20磅(9公斤)负荷、工具使用能力、小物件精准抓握能力等等。

  膝关节:特斯拉希望Optimus的关节希望尽量复刻生物学上的非线性逻辑,也就是贴合膝关节直立到完全弯曲时的受力曲线。为此,Optimus的膝关节使用了类似于平面四杆机构的设计,最终发力效果会更接近人类。

  电机驱动:下图橙色部分均为Optimus的电机驱动器,相当于人的“肌肉“,也都是特斯拉完全自研的。考虑到机器人运动的灵活度,Optimus具有较多的自由度,因此其单独的电机数量远超于车的电机。

  特斯拉希望尽可能地减少执行器的种类,降低软件标定难度,因此特斯拉举了28种人类常见活动,比如抬举手臂、弯曲右膝等,通过一系列分析这些活动反馈的云数据,找出各类运动的相对共同点,然后就可以最好能够降低专门设计执行器的种类,基于以上原因最终设计了6种各自独特的执行器。

  在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。车的电子电器架构经历了从分布式走向集中式的架构。汽车作为百年工业,已形成了非常标准的零部件体系,但是其是分布式架构,相当于零部件的控制“各自为政”,但是到智能化阶段,分布式架构使信号传输有很多的问题,使模型计算的能力无法快速下达到执行器,因此逐步走向集中式架构,特斯拉2012年开始交付Model S,至2017年交付Model 3才全面开启电子电气架构的变革。不同于整车成熟的产品体现,人形机器人是过去并不存在产品,无须破旧再立新,这使得特斯拉可以完全根据自身对产品的定义进行零部件设计及选型,对产品的形态、研发量产节奏有了更强的掌控力。

  得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为Optimus挑选尽可能保证成本、效率的原材料。依照我们对产业的调研,特斯拉在选择人形机器人零部件的供应商时会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花智控系特斯拉整车供应商,依据公司公告,公司已在对机器人机电执行器方面展开持续研究和产品研究开发工作。

  人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用无人驾驶模型及数据体系。我们大家都认为无人驾驶为人形机器人搭好了“场”,人形机器人能复用的部分包括:

  在以上可复用的部分,只需要针对人形机器人场景采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达200多个自由度导致其规控更为复杂,但是无人驾驶所积累的工作是地基,0-1的工作很难,而扎实的基础将使1-10的工作加速迭代。

  自动驾驶方案使特斯拉已经积累了智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、处理问题”的工程化经验,能够加速机器人正向研发过程。体现在:1)如前文所述的九头网络架构,在某些特定的程度上,人形机器人与无人驾驶可以共用感知的backbone,所处理的任务大多数表现在neck、head层的差异,而在处理尘雾等场景时积累的经验可以帮助机器人迭代;

  2)在规控、安全性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为Optimus编写跌倒测试软件。

  马斯克此前在社交网络称将推出FSDv12.0端到端版本,并于近日透露团队已经在对规控模块进行AI化,其是完全无人驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。得益于大模型能力,国内车企也在积极推动BEV+Transformer这套无图方案在量产车上的落地,并给出了无图方案扩城的规划,比如小鹏提出XNGP将在下半年拓展到全国50城。能预见,无人驾驶方案的突破将大大推动人形机器人方案的实现。

  李飞飞团队研究实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线日,记者在谷歌实验室看到新推出的Rt-2模型驱动的机器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝的动物”,机器人抓起了恐龙。

  首先,语言大模型可以帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练机器人,通常针对每个任务来优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人想到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。

  其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,可提升对环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型)将整个路口用若干格子表示;自车在起始点坐标为其赋任务指示token‘start’,路标检测信息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网络。

  基于前述介绍,我们把“感知、决策规划、运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是参考人在开车时的模式,我们正真看到外界环境做出一定的反应时并不会反映静态路网、运动轨迹,而是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个大模型,我们大家都认为它其实也体现了不同模态数据的对齐。我们大家都认为特斯拉提出的端到端的方案是本质上是在完成视觉图像输入到方向盘转向及加减速之间的对齐。

  谷歌RT-1是个视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。而RT-2通过将VLM预训练与机器人数据相结合,直接控制机器人,形成较为强大的视觉-语言-动作(VLA)模型,使机器人能进行推理、问题解决并解释信息,以在真实世界中执行各种任务,其或将成为构建通用机器人的一把钥匙。

  因此,综合上述软硬件的积累及优势,我们大家都认为人形机器人的产业链导入速度可能会比此前无人驾驶的产业导入速度更快。

  如前所述,李飞飞具身智能、谷歌RT-2的成果依赖于语言大模型的推动,包括理解人机交互指令,以及基于语义理解识别家庭场景中种类非常之多的物体,还需要对不同物体背后的功能、重量、硬度等属性来了解,才能做出决策规划,比如要不要避障等。而语言大模型的训练需要大规模的语料数据,谷歌得益于搜索引擎积累了大量优质的语料数据,而特斯拉在过去缺乏相关语料资源的积累,因此仍需要一定的时间对其做补充。我们大家都认为特斯拉收购Twitter的原因与之有关,将获得大量的语料数据帮助提升人形机器人的能力。

  根据莫拉维克悖论,对计算机而言实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要巨大的计算资源,其背后的原因是求解难度非常大。我们在前面介绍无人驾驶决策控制时解释了车的算法是高维的非凸问题,其实车上只有6个自由度,分别是表示位置坐标的x、y、z、时间t、速度、加速度,而人形机器人所对应的机械原理会更为复杂和精细,全身有200多个自由度,这在某种程度上预示着在优化求解时计算量将暴增。而且机器人在更开放的场域,可能面对更强的安全约束条件,所以如何在计算时能够使其收敛至最优解也会面临较多的挑战。假设决策规划通过模型化实现,我们大家都认为如果采用影子模式进行模型训练,则还有必要进行人体运动控制的数据,比如握力方向、握力大小等,因此为了训练人形机器人达到更加类人的效果,特斯拉还需要做大量的数据采集工作或者在仿真环境下进行模拟仿真。

  人形机器人如果想要达到人类操作的灵活性,所需要做出的运动控制都是实时且连续的,这就从另一方面代表着在极短的时间内发生了位移,就需要感知算法在动态的情况下进行连续计算,计算时间差缩短对硬件的灵敏度、软件计算速度都提出很高的要求。

  2022年AI day上马斯克提出人形机器人未来的售价将为2万美金,我们预计仍需要一段时间完成硬件的降本,因此目前部分结构件仍处于正向研发阶段,以保证达到降本的需求。但由于软硬件方案是相互耦合的,硬件降本导致零部件方案变化,会导致人形机器人算法跟着调整,影响软件方案的开发节奏;其次,由于软件算法与硬件的稳定性与精度有很高的要求,这在某些特定的程度上会推高硬件成本,因此研发的过程就要一直在算法稳定性与硬件降本间进行平衡,对工程师团队带来一定的挑战。

  如前所述,无人驾驶汽车出货量增长使得当前特斯拉超算中心达到了较高的占用,而人形机器人的感知、规控模型均比无人驾驶更复杂,可能在训练期间消耗更多的算力,因此对特斯拉目前的超算中心的算力提出了更多要求。在各业务均处于算力需求迅速增加的情况下,若如果出现机器人业务与无人驾驶业务的算力冲突,考虑到无人驾驶业务更成熟,存在量产出货需求,优先无人驾驶业务对算力资源的需求,则可能会影响人形机器人算法能力的迭代,进而拖慢整体开发进展。目前Dojo处于投产建设中,我们判断其投入到正常的使用中的时间节点也对人形机器人业务有较重要的影响。

  无人驾驶通常分成6个级别,从L0、L1一直到最高L5,等级越高智能化程度越高。L0只提供部分预警,L5则是完全状态下的汽车自动驾驶。质的变化的出现在L3级别,在这个状态下,驾驶员在驾驶位上可以聊天看视频,但是不能睡着,车辆遇上问题报警,驾驶员需要在规定时间内接管车辆。目前无人驾驶行业正处于从L2向L3迈进的阶段。类似于无人驾驶,我们大家都认为人形机器人可能会先在一些相对标准、简单、狭窄的场景中落地,逐步推向通用型的人形机器人。

  近年来,全球云计算市场规模呈现稳步上升趋势。新冠疫情之后,社会经济发展形势倒逼着企业们主动拥抱数字化升级,企业技术服务受到空前追捧,给

  带来了新的发展契机。未来,受益于新基建的推进,云计算行业仍将迎来黄金发展期。本专题将聚焦云计算产业链核心——云服务厂商,关注他们的业务模式和未来发展。(点击图片进入专题)