首页 > 技术 > 机器人

特斯拉 Teslabot 概念风起,问道机器人视觉感知技术进化史 | 机器人视觉技术

人阅读 2023-08-01 09:52:00

【特斯拉 Teslabot 概念风起,问道机器人视觉感知技术进化史 | 机器人视觉技术】lot物联网小编为你整理了的相关内容,希望能为你解答。

(报告出品方/分析师:华安证券研究所 张天)

Teslabot 原型机有望在 9 月 AI 日发布,带来高精度机器人视觉技术创新性落地。特斯拉机器人延续了视觉为主的传感技术路线,其基于视觉的神经网络技术已经在特斯拉电动车 FSD 上得到实战验证,有望借助于 Dojo 超算加速训练升级。由于特斯拉全球独一无二的庞大数据库以及领先的 AI预测能力和算法,特斯拉认为目前纯视觉方案也能较好弥补深度传感器缺失带来的不足。

1 Teslabot 原型机有望在 9 月 AI 日发布,带来高精度机器人视觉技术创新性落地

马斯克表示将在 9 月底“特斯拉 AI 日”发布 Optimus 人型机器人原型机。2021年 8 月,马斯克于特斯拉 AI 日宣布将在 2022 年推出原型机器人。今年 4 月 7 日,Cyber Rodeo 活动器件,Tesla 在制造工厂展示了该产品并表示将在 2023 年投入生产。6 月 3 日,马斯克在其推特上预告将在 9 月 30 日今年的特斯拉 AI 日正式发布Optimus 人形机器人原型机。根据去年 AI 日发布的介绍显示,Tesla 机器人身高 1 米72,体重 56 公斤,可负载 20 公斤,行动速度最高 8 公里每小时,该机器人旨在执行繁琐的日常任务或危险的工作,如体力劳动和家务等。

特斯拉机器人不仅具有灵巧的“四肢”,还拥有聪明的“眼睛”。介绍特斯拉机器人的系统组成结构。Teslabot 将具有人类级别的手和两只脚,其全身搭载了 40 个机电执行器,其脚部具备压力反馈感知能力,手部装载 12 个机电执行器,这意味着特斯拉机器人不仅能像人一样在负重时保持平衡行走,并且可以执行一些精密的人类手工作业。传感技术方面,Teslabot 延续特斯拉汽车以视觉为主技术路线,使用 Autopilot摄像头充当感知系统,在采集信息后,通过强大的神经网络处理和识别不同任务,依靠其胸腔内部搭载的 FSD 全套计算机完成。此外,得益于 Dojo 计算机等特斯拉日益强大的 AI 训练能力和自动驾驶场景模拟系统,特斯拉机器人在出厂前就将具备对环境路径、周围物体的识别和路径规划能力。

基于视觉的神经网络技术已经在特斯拉电动车 FSD 得到实战验证,有望借助于Dojo 加速训练芯片实现升级。特斯拉 FSD 目前已完成了横跨美国绝大多数道路的数据采集,每辆特斯拉每天采集的数据近 4GB,累计采集数据达 1.5PB,特斯拉汽车积累的海量数据和算法,有助于帮助机器人实现更复杂“自动驾驶”快速落地。

特斯拉 FSD 工作流程包括识别、预测、规划三个步骤。1)通过路测采集和计算机模拟,特斯拉积累了多达 100 万个 10 秒视频并通过无监督机器学习给 60 亿个物体贴上了深度、速度和加速度的标签;2)特斯拉的 FSD 能够对收集到的数据加入时间戳以形成一定的“记忆”能力,对车辆的相对位置、速度以及不在视野范围内的障碍物等将做出实时预测,这弥补了纯视觉算法对于障碍物遮挡下实时决策的限制,成为FSD 更加“智能”的关键;3)FSD 完成了对多种常见驾驶场景的路线规划算法迭代,如“有车变道”、窄道遇车、停车场寻位等。由于特斯拉全球独一无二庞大的数据量和领先的 AI 预测与算法,特斯拉认为目前纯视觉方案也能较好弥补深度传感器缺失带来的不足。

去年 AI Day 上,特斯拉 AI 超算 Dojo 亮相,这款芯片单芯片算力为 362TFLOPS,25 个芯片一组组成一个训练模块,算力可达 9PFLOPS,接口带宽为 36TB/s,目前Dojo 组成的机柜集群由 120 个训练模块组成,内置 3000 个 Dojo 芯片,超过 100 万个训练节点。通过自研最先进的 AI 训练基础设施,特斯拉省去了购买昂贵的 GPU 服务器的大量成本并不需要依赖其他云服务商的能力,保障了数据和算法的安全。特斯拉有望将 Dojo 超算强大的 AI 大数据训练能力赋能 Teslabot,从而大大缩短机器人上线和后续软件迭代的速度。

各大平台着力打造机器人技术平台,AI 下一波浪潮已开启。我们在之前关于GTC2022 的点评中指出,AI 的下一波应用爆发浪潮为机器人,从 AGV 小车到自动驾驶再到人形机器人,AI 正在从固定的计算机进化成可移动的机器人形态。特斯拉搭建的自动驾驶场景模拟平台已帮助特斯拉积累标记 3.71 亿个模拟图像和 4.8 亿个立方体。特斯拉自动驾驶模拟系统由准确传感器模拟、逼真渲染、各种路上的事物和定位、可扩展的场景生成以及情景重构组成,这些能帮助特斯拉模拟一些现实中很少遇到的事故场景并提高数据冗余度。

而英伟达通过 Omniverse replicator 在 DRIVE Sim 和Isaac Sim 的加持下,通过仿真平台中的虚拟摄像机和传感器,合成难以标记的真值数据,并帮助 AI 工程师构建这些数据,弥补现实世界中不容易发现的数据缺口。各大自动驾驶巨头纷纷布局机器人技术开发平台和模拟工具,人形机器人有望接棒汽车成为重要的“机器人应用”。

2 机器人视觉技术梳理:从工业级到消费级打开巨大市场

工业级能力下沉消费级应用场景,特斯拉机器人有望打开机器人 3D 感测市场空间。根据 YOLE 预测,全球 3D 传感市场 2019 年为 50 亿美元,并将在 2025 年达到150 亿美元。2019 年,除苹果应用外,工业为 3D 传感的最大市场,其次为汽车和国防航天。3D 传感最早应用于工业领域,主要应用于工业设备与零部件的高精度三维测量以及物体、材料的微小形变测量等。

在商业领域,人脸识别技术被广泛应用于支付和身份认证,YOLE 预测 2016-2026 全球采用 3D 人脸识别的商业终端出货量复合增速为 11.3%。随着底层元器件和算法的快速发展,3D 视觉感知技术逐渐由工业向消费级推广。其中在消费电子领域的主要应用为结构光技术和 ToF 技术在手机端的普及(用于生物识别、拍照景深以及 AR 传感)、体感游戏机等,在汽车领域主要用于汽车的自动驾驶和车载摄像头识别。工业、医疗、国防领域市场增长相对较慢,人形机器人的爆发有望给消费市场和工业市场带来强大增长动力。

机器人 3D 传感市场持续增长,特斯拉机器人有望下沉消费级场景带来巨大市场空间。目前,机器人的主要应用领域为工业机器人、服务机器人、特种机器人,根据《中国机器人产业发展报告 2021》,2021 年全球市场规模分别为 145 亿、125 亿、125 亿美金。服务机器人的主要使用场景为扫地机器人、送餐机器人,并逐渐向情感机器人、教育机器人、医疗手术机器人、大厅引导机器人、商业清扫机器人等方向延伸。由于成本所限感知和执行能力较为简单,目前服务机器人使用场景较为单一,而仿生机器人(人型机器人)可以在日常生活场景中能代替人类完成更多操作且具备一定情感交互功能,随着成本下降,有望带动服务机器人市场爆发式增长。目前除特斯拉外,仿生机器人主要有波士顿公司研发的 Atlas、瑞士 ANYbotics 研发的 ANYmalC等。

服务机器人出货量虽多但 ASP 低,人形机器人若下沉消费级 3D 传感市场空间巨大。服务机器人 3D 传感器主要实现避障和简单路径规划能力,大部分使用低线束激光雷达,ASP 较低。而工业机器人需要通过搭载的 3D 视觉传感器实现距离感知、避障导航、三维地图重建等多项功能,采用激光三角扫描、高精度激光雷达等,单机价值量高达 6000 美金以上。我们认为人形机器人 3D 传感器成本将远高于目前服务机器人并较工业级机器人低,若未来特斯拉机器人达到电动车近 100 万量级销量,其搭建的 3D 传感模块市场规模或高达 30-50 亿美元。

按技术路线,3D 传感主要分为结构光、iToF、dToF 激光雷达、双目视觉、激光三维扫描五种。根据 YOLE 统计,2021 年全球结构光市场为 25 亿美元,占比 35%,其次为激光雷达 22 亿美元,市场占比 31%;增长率方面,ToF、激光雷达市场 CAGR分别为 21%、19%,超过行业平均 14.5%的增速。

图表 12 结构光和 iToF 技术路线市场规模占比 2016 年后持续提升

1)结构光:微软、苹果引领消费电子应用,未来有望渗透更多手机。结构光基于光学三角法测量原理,特定编码图案的结构光通过投影设备投射在被测物体,在被测物体表面形成相同形状的光条三维图像,通过光条的畸变和扭结可以重构计算物体的表面三维轮廓。2010 年微软合作 primesense 发布首款搭载 3D 结构光的体感设备Kinect,2017 年苹果发布 iPhone X 搭载结构光模组带动市场迅速起量。目前采用 3D结构光方案的手机厂商还有华为荣耀 Magic、Mate 20pro 以及 OPPO FindX 等。

2)iToF:多应用于安卓手机厂商。ToF 方案的基本原理均为测量光子脉冲发射和返回的时间差从而生成点云构建目标轮廓。其中 iToF 为间接飞行时间测量法,测量发射正弦波/方波与接收正弦波/方波之间的相位差,通过能量积分算法进行解相位与深度计算。iToF 原理简单、分辨率高,在消费电子领域应用具有成本优势,缺点是精度低,有效探测距离不到 100 米,且标定相对复杂、成像帧率低。目前采用 iToF 作为前置模组的手机机型有 Galaxy S20 Ultra、HUAWEI Mate 30 Pro、Vivo NEX 等。

3)dToF:激光雷达主流算法,降本空间大。dToF 直接测量发射脉冲与接收脉冲的时间间隔,其核心组件有 VCSEL、SPAD、时间数字转换器(TDC)等。其主要算法是在单帧测量时间内发射和接收 N 次光信号然后对记录的 N 次飞行时间做直方图统计,取频率最高的 ToF 作为目标距离。dToF 理论精度不随距离增加而下降(在功率充足下探测距离可达 200 米以上),功耗低、抗干扰,采用数字电路架构便于后续集成。目前 dToF 算法是汽车和遥感激光雷达绝对主流算法(发射端汽车 Lidar 多采用EEL,消费电子多采用 VCSEL,激光雷达与 dToF 深度相机的主要区别在于扫描方式,dToF 深度相机为面发射),消费电子领域代表机型为苹果 iPhone 后置 Lidar、ipad pro等。

4)双目立体视觉:主要用于工业相机和汽车 ADAS,有望成为仿生机器人主要传感器。双目视觉成像原理与人眼类似,基于视差原理并利用成像设备从不同位置获取目标两幅图像,通过计算图像对应像素点的位置偏差来获取物体三维信息,其具有主动双目(主要为红外补光)、被动双目(可见光 RGB)两种测量方式。双目视觉仅仅依靠图像进行特征匹配,对附加设备要求低,但需要对摄像头的位置进行精确标定,并且对环境光照敏感、探测距离近且算力要求高。目前大部分工业高精度相机采用双目视觉,部分运动捕捉和机器人视觉采用双目相机,如 Leap Motion、ZED、大疆、奥比中光的方案。

5)激光三角成像:主要用于工业质检和位移测量。激光三角成像的激光器、被测物体、传感器之间呈三角形,激光器发射的光经物体反射,由视觉传感器接收,当被测物体沿激光方向发生移动时,传感器光斑将产生移动,由此可通过光斑位移距离计算被测物体与基线的距离值。激光三角成像法帧率高,主要优势为精度可做到亚微米级别,但需要被测物体和传感器之间有相对位移,且无法探测高速移动目标。

3 机器人视觉感知技术进化史:从避障、识别,到精密执行操作

1.0 阶段的基础功能为避障,代表场景为 AGV、扫地机器人。在功能相对比较简易的移动机器人上,3D 传感器的主要作用为避障,如 AGV 小车、巡检机器人、服务机器人、扫地机器人等,搭配 SLAM 算法可实现实时路径规划。这种应用场景不需要对环境和目标进行识别,且运动路径偏封闭式和固定路线,因此 3D 传感器主要追求高性价比。主要使用 itof,简易激光雷达。

典型的应用为 AGC 小车,目前在自动化设备中 AGV 小车智能搬运占据主导地位。根据 YOLE 预测,全球 AGV 小车出货量 5 年 CAGR 有望达到 30%,2026 年市场空间达到 6 亿美元。AGV 机器人视觉感知主要使用 iToF 和简易激光雷达,用于导航避障和对末端对接时的物体识别。扫地机器人目前主流方案为简易激光雷达,在高端机型中已使用 dToF 导航 结构光避障。

随着机器人从“自动化”走向“智能化”,对于环境和目标的识别能力需求开始出现,通过神经网络训练,单目 RGB 摄像头能够简单识别物体信息而双目视觉则具有更加精准的定位能力。目前,Lidar 仍为消费和行业级机器人主要 3D 传感方式,随着Teslabot 等仿生机器人的出现,我们认为 3D 光学传感技术增长或超出预期。

2.0 阶段的进阶功能为识别,代表为 L3 以上自动驾驶。摄像头是 ADAS 功能实现的最主流传感器,如今 L2 以上车型均配备了 9 颗以上摄像头,目前技术仍以 RGB单目为主,但同时车厂也在寻求扩展“深度估计”感知能力(尤其是以特斯拉为代表的纯视觉方案)。传统单目视觉技术先识别后测距,测距采用密集光流技术 自监督单目图像深度估计,需要在目标识别和距离估算阶段事前建立庞大且精准的车型数据库。双目立体视觉正在由“小众”技术路线成为主流大厂重点关注的技术路线之一。双目立体视觉可提供距离估计,能够提供远程(不要求精确测量)和近程(高精度精确机动)间接测量,其与 Lidar 直接测量能形成很好的互补关系,并且立体视觉提供的双重图像还可以用来执行单目 CNN 算法分类。

除双目外,多目摄像头方案也可以通过立体视觉进行“硬件复用”。特斯拉采用多摄像头 实时运行神经网络技术路线,通过多颗摄像头重叠视场或者类似虚拟立体技术实现立体视觉并运用运动视差技术通过连续帧相对位移判断来实现深度预估。今年2 月,在原有 Model3 和 Model Y 的基础上,Model S 和 Model X 也开始“移除”毫米波雷达,特斯拉的纯视觉感知能力已达到相当成熟标准。国内车企方面,吉利星越L、领克 07/09、极狐阿尔法 S 华为 HI 版以及更多自主品牌也陆续升级双目立体配置。

图表 18 双目摄像头加激光雷达有望成为 L3 以上自动驾驶主流方案

纯视觉方案硬件成本较低,但依赖长期的大量数据训练,多数汽车厂商使用多传感器融合进行安全冗余设计,使用立体摄像机配合激光雷达等传感器,多传感器融合将成为自动驾驶标配。其中摄像头擅长对道路进行检测、阅读标志或识别车辆;激光雷达更擅长准确估计车辆位置,毫米波雷达擅长估计车辆的速度。

3.0 阶段要实现精密执行操作,代表为人形服务机器人。仿生机器人实现人手操作的主要技术为机器人手眼系统,其模拟人眼视觉成像与人脑智能判断和决策,不仅能实现对目标的测量、检测、识别、定位,还可用于机械手的伺服控制。机器人手眼系统根据成像单元安装方式不同,分为固定成像眼看手系统(Eye to Hand)与随动成像眼在手系统(Eye in Hand)。其中前者多用于估计机器人相对目标的方位,后者负责目标姿态的高精度估计,在高精度工业机器臂中两种系统往往混合配合工作。通过Teslabot 概念图显示,其视觉传感系统或主要在于头部,因此以 Eye to Hand 为主,这种成像方式多采用双目&多目立体视觉。

在机器人 3D 视觉领域,目前技术路线包括结构光、iToF、dToF、激光雷达、双目立体视觉、激光三角测距多种。我们认为,人形机器人 3D 传感的主要功能不仅要完成避障、路径规划,更重要是实现准确的目标识别能力,因此光学视觉方案为必不可少的传感器(部分特殊作业场景可能采用红外主动光学)。而如果要完成类似人手的精密操作,机器人视觉系统定位精度需达到毫米级别,因此需引入工业级双目或多目相机,单机价值量相对普通服务机器人较高。

图表 22 “随动成像眼在手”方案机器人 3D 视觉成像可选技术方案

以目前已推出的人形机器人原型机为例,日本本田研发的 ASIMO 视觉感应由其眼部摄像机通过连续拍摄图片并与数据库比较实现目标识别,其具备用五指说手语以及从用平底玻璃杯倒水的能力。而波士顿动力研发的 Atlas 采用头部 RGB 摄像头为主传感器,并使用 ToF 传感器辅助建模,ToF 以每秒 15 帧生成环境点云辅助机器人构建 3D 地图模型。利用构建的 3D 地图模型,Atlas 甚至可以完成复杂的跑酷动作。由于在电动车 FSD 积累的成熟的视觉感知技术,我们认为 Teslabot 3D 传感模块将以多目视觉为主,未来如配合其他作业任务或引入 ToF、结构光、激光三角等技术。

4 报告建议

建议关注 3D 传感赛道及即将登陆科创板的国内 3D 传感领军企业奥比中光。人类约 70%信息是通过视觉感知获取的,随着机器人应用成为 AI 发展的下一波浪潮以及消费电子向智能化、增强现实能力以及体感识别能力的渗透,3D 传感市场发展浪潮正在袭来。

1)传统应用场景(手机、体感游戏等消费电子领域)正在迎来技术迭代红利,3D传感技术有望渗透安卓阵营更多品牌,人脸与身份识别应用也正在移动支付之外找到新应用场景(智慧门锁、政务自助终端);2)主力应用场景市场空间快速扩大,汽车Lidar 双目视觉渐成标配,工业 3D 相机在精密质检和测量出货量持续提升,国产替代历史机遇到来;3)Teslabot 年底发布预期点燃机器人 3D 传感赛道投资热情,有望给高端多目立体视觉 深度传感器带来增量市场空间。

目前,市场上主流 3D 传感公司主要有三类。其中,细分领域公司核心竞争力在于对应用场景的深刻理解,如工业相机、汽车 Lidar、智能安防、苹果手机产业链等,建议关注奥普特、凌云光(已注册待发行)、大恒科技、华兴源创、炬光科技、海康威视、大华股份等;平台型公司核心竞争力在于自研算法和芯片构筑护城河有望持续开拓新应用场景,对标海外龙头 Lumentum 和 AMS,建议关注国内 3D 传感领军企业奥比中光(已注册待发行);上游芯片部分,建议关注空间大成长快的细分赛道,如 VCSEL、CIS、ISP,受益公司如长光华芯、韦尔股份、格科微、思特威等。

奥比中光即将登陆科创板,建议投资者关注公司长期投资价值。奥比中光是国内3D 视觉感知解决方案领军企业,是全球少数几家全面布局六大 3D 视觉感知技术的公司(目前全球掌握核心技术并实现百万级面阵 3D 视觉传感量产公司仅有苹果、微软、索尼、英特尔、三星和奥比)。自 2015 年量产以来,公司已先后服务全球超过 1000家客户并建立了活跃的开发者社区,主要客户包括 OPPO、蚂蚁、捷普、牧原、中国移动、Matterport、贝壳、江博士、微软等。公司自研底层核心芯片,包括 3D 结构光 双目深度处理引擎、iToF 传感器、dToF 传感器,有望实现较竞争对手更低的芯片成本和更佳的性能体验。

1)公司可达市场空间大,覆盖消费电子、商业、工业三大行业与结构光、双目、iToF、dToF、Lidar 五大技术路线,覆盖全球目前 90 亿美金市场空间的 80%,2021年全球市占率仅为 1%,无论从国产替代还是高性价比出海角度均有广阔发展空间。

2)绑定主流客户业绩增长预期稳定。公司前期在消费电子和商业零售市场采用大客户突破战略,符合 3D 传感市场结构特点。2018-2021,公司成为蚂蚁集团、友宝、商米等刷脸支付模组主要供应商,同时与凯迪仕等智能门锁/闸机厂商达成战略合作,生物识别领域收入处于快速增长中。手机方面,公司已为 OPPO、魅族批量供应手机前、后 3D 视觉模组,同时与各大手机厂商持续合作探索多种技术应用,有望成为中长期看点。海外方面,公司去年与微软达成合作,将成为微软 Azure 平台前沿 ToF摄像头新品主力供应商,2022 年开始将享受微软巨大开发者生态带来的市场红利。

3)自研核心芯片和 SDK,掌握产业链价值量主要环节。对标 Lumentum 和 IIVI,公司是全球少有的具备从传感器、深度处理引擎、光学模组到整体解决方案的研发型公司。长期来看,公司毛利率有望保持 40%以上,同时募投资金也将进一步增强研发实力,未来随着平台搭建的逐步成熟费用率将快速下行有望尽快实现盈利。

5 风险提示

特斯拉机器人量产推迟,手机、汽车等 3D 传感终端出货量增速放缓,3D 传感模组成本下降低于预期影响渗透率,机器人或自动驾驶发生安全事故,全球通胀高企压制 IT 投资需求释放。

请您关注,了解每日最新的行业分析报告!报告属于原作者,我们不做任何投资建议!如有侵权,请私信删除,谢谢!

获取更多精选报告请登录【远瞻智库官网】或点击:远瞻智库-为三亿人打造的有用知识平台|战略报告|管理文档|行业研报|精选报告|远瞻智库

以上内容为【特斯拉 Teslabot 概念风起,问道机器人视觉感知技术进化史 | 机器人视觉技术】的相关内容,更多相关内容关注lot物联网。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com