这一次,马斯克没有“跳票”,特斯拉Robotaxi真的要来了!
特斯拉Robotaxi现身街头
6月11日,回归之后的马斯克正式官宣,暂定将于本月22日上线Robotaxi服务。出于对安全的考虑,比原定时间推迟了10天。
他透露的新车上市仪式将期待拉满:首辆特斯拉Robotaxi将直接由工厂以无人驾驶的方式开到用户家中。
随后不久,马斯克转发了一位博主的视频,并以“精美简约的设计”称赞视频中一辆特别的Model Y。
该车主驾空无一人,车体涂鸦字样表明其为路试中的特斯拉Robotaxi。只见路试车在路口左转,并对斑马线的行人减速礼让。
该视频印证了马斯克上个月的声明,即特斯拉已经开启了无人驾驶汽车的路测,位置就在德州奥斯汀的开放路段。
分析人士指出,之所以没有采用之前亮相的Cybercab,可能是因为没有传统操控功能的Cybercab存在监管障碍,现有车型Model Y更容易通过审批尽快上市。
图片来源:特斯拉官网
马斯克表示,试运行阶段的规模将控制在10到20辆,运行范围会受到地理围栏的限制,工作人员也会对车辆进行远程监控。
他认为,Robotaxi是Airbnb与Uber的结合体,车主可以自行选择加入服务,让车给车主打工。他还建议多买几辆,像牧羊一样管理车队。
马斯克对他的商业蓝图充满信心,并在X发帖预言,Robotaxi将很快变得普及,出行方式也将随之改变,“道路将会发生迅速变化”。
得成本优势者得先机
毋庸置疑,道路上跑的Robotaxi不止特斯拉一家。
Waymo最近公布了周服务单量破25万的成绩单,似乎是对马斯克的一种回应。同在美国市场不可能王不见王,两王之争即将上演。

图片来源:Waymo官网
Waymo代表的是一步到位L4/L5的无人驾驶路线。该路线的车辆依靠高清地图,在限定区域内运行,采用多传感器形成硬件安全冗余。
特斯拉代表的则是从L2到L4/L5的升维路线。从辅助驾驶切入,基于“纯视觉+AI神经网络”,用较长的周期积累数据投喂大模型。
谁能领跑Robotaxi赛道,就要看谁更具成本优势。
从行业来看,单车成本主要由整车制造、安全运营、维护成本三个模块构成。在后两项尚不明朗的情况下,特斯拉的整车制造优势已呼之欲出。

图片来源:特斯拉官网
首先,相比Waymo采用的摄像头、雷达、激光雷达的多传感器组合,特斯拉采用了以摄像头为主的纯视觉方案,成本可以控制在数百美元。
其次,特斯拉拥有前装量产优势,加之可以基于现有平台,通过模块化改造实现自动驾驶功能,能够进一步大幅降低成本。
值得一提的是,特斯拉对现有车辆的潜能开发,也是成本控制的有效途径。现有HW4.0硬件的特斯拉车型都具备OTA至L4/L5的条件。
据马斯克估计,每辆特斯拉Robotaxi每英里的行驶成本或将低于0.18美元,每年的毛利润大概在3万美元左右。
软硬件能否撑起“梦想”
L4是进入Robotaxi赛场的门槛,特斯拉FSD准备好了吗?
马斯克透露,特斯拉将在FSD系统基础上,采用性能更先进的模型,参数量是现在模型的4倍。他也坦言,软件“仍需要大量完善”。
当然特斯拉不会为此焦虑,因为软件能力是该公司长板。一直以来,当友商拼硬件冗余的时候,特斯拉将重心放在了软件冗余上面。
特斯拉的投入主要集中在感知层和决策层两个层级。
在感知层,BEV+Transformer通过将多摄像头2D图像转换为统一的3D鸟瞰图表征,结合Transformer注意力机制,提供更准确的环境理解。
BEV空间通过神经网络将所有摄像头输入映射到统一的俯视坐标系,形成连贯的3D场景表征,更接近人类对道路空间的认知模式。
Transformer架构则大幅提升了长距离感知和动态物体跟踪能力。其自注意力机制可以自动学习不同时间步特征之间的关系,有效处理遮挡等复杂场景。
在实际应用中,BEV+Transformer显著提升了FSD系统处理如施工区域、异形车辆等长尾场景的能力,使其逐步接近人类驾驶员的感知水平。
该组合有着很高的应用价值。能够减少对高精地图的依赖,支持业务快速布局;而纯视觉方案接近激光雷达感知效果,成本优势显而易见。
在决策层,特斯拉采用端到端控制系统,将传统的模块化架构替换为统一的神经网络。通过时空注意力机制理解场景动态,最后直接输出转向、加速和制动指令。
为了支持神经网络学习,特斯拉建立了一整套大模型训练体系。主要由三个关键支柱构成:海量真实数据、Dojo超级计算机和创新的训练方法。
在数据方面,通过全球数百万辆车构建数据集。采用"影子模式"收集数据,在司机驾驶时默默运行,涵盖各种天气、光照和道路条件。
在计算方面,特斯拉专为视觉神经网络训练设计了超算系统Dojo。采用创新的"热图"训练方法,预测每个像素的运动轨迹和语义信息。
在训练方面,特斯拉采用多任务联合训练策略,让模型同时学习感知、预测和决策任务,促使模型建立更全面的场景理解能力。
以上相互配合,形成了"数据采集-模型训练-部署验证-新数据发现"的持续进化飞轮,通过数据规模效应和算法创新不断逼近人类驾驶水平。
那么以特斯拉现有硬件能力,能否承载全新版本FSD?马斯克给出了肯定回答:搭载HW4.0硬件的车型可以实现特斯拉Robotaxi功能。
HD4.0采用自研FSD芯片,算力达到500Tops,完全具备点到点的高阶智驾能力;12个摄像头、4D毫米波雷达组成的传感器,弥补纯视觉在极端天气中的短板。
HW4.0不仅能够完全兼容现有的FSD Beta,还支持在未来实现无保护左转、交叉路口处理等L4级功能,是特斯拉入局Robotaxi的底气所在。
另据报道,特斯拉下一代FSD芯片AI5/HW5已经进入量产阶段,算力高达2000-2500TOPS,可以实现更复杂的无监督FSD算法。
距离进入中国还有多远
虽说此时谈进入中国尚早,但是可以预见,特斯拉Robotaxi一定不会缺席。毕竟有数据显示,2030年中国共享出行规模将达2.25亿元,其中Robotaxi占比60%。
面对萝卜快跑、小马智行、文远知行等本土Robotaxi先行者,特斯拉除了纯视觉技术方案成本优势,依靠充电网络等优势很容易形成规模。
然而开启Robotaxi征程之前,特斯拉必须克服一个无法绕开的现实问题,那就是FSD在中国水土不服的问题。
早在今年2月份,特斯拉就开始了FSD的推送。本希望成为购车的加分项,但结果却事与愿违,几个月试用下来,FSD的表现差强人意。
有人反馈,FSD对行人和其他车辆过度礼让,在路口犹豫不前;有人反馈,FSD在拐弯时侵占非机动车道,或者在左右转车道上直行……
需要注意的是,中国道路上存在大量快递和外卖骑手、公交车道和分流岛……令特斯拉FSD像一个“水土不服的美国司机”。
懂车帝在对特斯拉、理想、问界的驾驶辅助系统对比评测后发现,特斯拉总共需要驾驶员接管24次,违章34次,远高于理想和问界。
问题有点棘手。因为中国法律要求自动驾驶数据必须存储在国内,出境需通过安全评估。于是特斯拉不得不用网上视频训练模型。这对需要海量数据的大模型来说,无疑“无米之炊”。

图片来源:特斯拉官微
在中国数据用于全球模型训练存在合规障碍的情况下,特斯拉很有可能放弃融入全球版本,在中国独立训练中国市场专用模型。
如果采用这一思路,就需要考虑训练周期。中国路况相比欧美更加复杂,但是特斯拉在中国占比有限,加之FSD普及率较低,高阶硬件上车率和软件激活使用率不足,数据积累速度较慢,会严重影响“中国专用模型”的训练周期。
在数据到位的情况下,大模型训练还需要大量算力作支持。考虑到外国芯片出口管制,特斯拉在华部署高性能训练集群会受到限制。而Dojo超算目前仅部署在美国,中国缺乏同类设施,也会导致模型迭代延迟。
除此之外,智能生态短板不能忽略。我国推动“智能网联汽车+智慧道路”建设,特斯拉的封闭式技术架构可能难以接入本地V2X系统,如红绿灯信息、道路预警。

特斯拉入局,加剧Robotaxi赛道竞争升温。作为与Waymo的不同的技术流派,特斯拉将不仅在技术路线上一较高下,也会把竞争延伸至商业模式,进而改变城市面貌和出行方式。
由于当前仍处在路测阶段,很多细节问题还没有公布。比如上线后将在哪些城市运营、打车用户如何使用该服务……一切都要等到6月22日之后才能知晓,让我们持续关注。