端到端大模型来袭,自动驾驶的最优解?
2023-07-07 16:57:06 来源:智车科技IV
本文来源:智车科技
(资料图片)
最近,人工智能领域最火的莫过于大模型了。
由美国初创企业OpenAI开发的聊天应用ChatGPT引爆市场,生成式AI成为科技市场热点,ChatGPT背后是深度学习大模型,其理解和生成文字的能力超过以往AI产品。全球主要云计算公司例如亚马逊等都加入其中,争夺算力、开发和销售大模型,云计算市场迎来新一轮竞争热潮,覆盖AI计算所需的算力、算法、数据各层面。
在自动驾驶方面,今年的CVPR上,拿到best paper的自动驾驶领域论文,更是将端到端与大模型结合,将该领域推向了高潮。事实上,“端到端”是深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。
而隐藏在大模型背后的,便是人工智能领域的基石——深度强化学习技术。深度强化学习对于现阶段的科技工作者来说可能并不陌生,作为21世纪最为前沿领先的技术之一,深度强化学习早已在多个领域发挥了其不可替代的作用。例如前几年大火的AlphaGo战胜了一众围棋世界冠军,又比如游戏界DeepMind 研发的 AlphaStar 在《星际争霸2》中一战封神等等,火热的强人工智能加速了人们对于未来科技飞速发展的信心,而基于强化学习的方法更让人们看到了人工智能超越人类知识的可能。
如此前沿的技术必然在前沿的领域发挥举足轻重的作用,在自动驾驶领域,深度强化学习已然走出了自己特有的道路,并吸引一位又一位研究人员、企业对其展开探索,试图将这一人类能完成的最高智慧应用于未来的日常出行中。
01什么是深度强化学习?
对于不太了解人工智能的小白来说,对深度强化学习这一名词的概念可能比较陌生,正式的定义为深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。
而作为两大学习方法的叠加,深度强化学习包含了两种方法的特征与优势。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。更进一步来说,强化学习是一种典型的序贯决策方式,智能体通过与环境的交互获得反馈,在尝试和试错中不断进步。而深度强化学习综合了深度学习对高维数据的抽象感知能力与强化学习优秀的决策能力,能够处理更高维度的输入与输出数据。
近年来,深度强化学习算法已在许多领域都取得了令人震撼的成就。2016年,基于深度 Q 网络(Deep Q Network,DQN)和蒙特卡洛树搜索算法的围棋程序“AlphaGo”以4:1战胜世界冠军李世乭,轰动了世界,使得深度强化学习成为了人工智能领域研究的新风向。
近些年来深度强化学习算法取得的令人振奋的成果鼓励了工业界和学术界进一步深入研究深度强化学习算法及其应用。学者们将深度强化学习算法应用在机器人控制、楼宇空调系统控制、匝道控制等领域中,在汽车和智能交通等领域,深度强化学习也在车道保持、超车决策、主动制动、能量管理、交通流调度等方面得到了应用。
02
深度强化学习在自动驾驶领域的应用
机器学习是指计算机程序通过已知经验数据中进行训练,通过迭代训练以提高其在指定任务上预测准确性的过程。机器学习算法通常分为三大类流派,分别是监督学习、无监督学习和强化学习?(RL)。
监督学习算法基于归纳推理,通常需要使用有标记的数据进行训练,以执行分类或回归,而无监督学习一般应用于未标记数据的密度估计或聚类等技术。相比之下强化学习比较自成一派,其通过与环境交互来提高其在指定任务上的性能,与监督和非监督学习使用损失函数进行迭代训练的方式不同,强化学习一般使用奖励函数进行训练,比如OpenAI与王者荣耀的绝悟AI都属于强化学习的范畴,一般在电竞、机器人等方向上应用较多。
根据各类机器学习算法的特点,可以看出在“场景理解”的相关任务中,使用监督学习算法比较合适,而在“决策与规划”任务中,又非强化学习算法莫属。而深度强化学习(Deep reinforcement learning,DRL)兼具了深度学习对高维输入的处理能力与强化学习的决策能力,能够实现由高维的感知信息到连续动作空间输出的直接映射,非常适合处理环境复杂、交互频繁的自动驾驶任务。
上图是百度 Apollo 使用的一种典型的感知-规划-控制序列式架构(Sequential perception-planning-action pipeline),主要包括高精地图、定位感知、决策规划、车辆控制等模块。高精地图和定位模块为自动驾驶车辆提供位置信息,感知模块提供静动态障碍物信息,决策规划模块根据定位和障碍物信息合理规划自动驾驶车辆的行为和路径,最后由车辆控制模块执行运动规划模块下发的路径跟踪控制指令。
但是感知-规划-控制序列式架构主流的处理方式是将感知信息处理成人类可以理解的语义信息和道路交通信息,然后基于专家知识和规则进行决策规划,这种方式在简单场景下可以完成自动驾驶任务。但却难以胜任在复杂不确定场景中执行的自动给驾驶任务,原因是现实场景的复杂多样性,使得专家知识和规则不能完全覆盖所有场景和工况。
基于深度强化学习的端到端(End-to-end)的控制架构是自动驾驶领域中新兴的研究热点,它能克服传统方式依赖先验环境建模的问题,可以直接实现通过从感知到控制功能的映射。例如今年CVPR的best paper中便指出,随着深度学习发展,自动驾驶算法被组装成一系列任务,包括目标检测与跟踪、在线建图、轨迹预测、占据栅格预测等子任务。基于这些子任务,行业有着多种自动驾驶系统框架设计:模块化设计,多任务框架,但两种方案都面临着累积错误或任务协调不足的困扰。比如自动驾驶公司Waymo、Cruise采用的模块化设计方案,每个独立的模块负责单独的子任务。这种方案具备简化研发团队分工,便于问题回溯,易于调试迭代等优点。但由于将不同任务解耦,各个模块相对于最终的驾驶规划目标存在信息损失问题,且多个模块间优化目标不一致,误差会在模块间传递。
论文同时认为,多任务框架是更优雅的一种设计方案,代表性企业有美国特斯拉、中国小鹏汽车等。方案中不同任务使用同一个特征提取器,具备便于任务拓展、节省计算资源等优点。但不同任务之间仍存在预测不一致、表征冲突的问题。相比之下,端到端自动驾驶方案将感知、预测和规划所有节点视为一个整体,将取得更优的效果。
03端到端大模型面临的挑战
深度强化学习DRL已经被证实能够解决无人驾驶中的部分问题,但还面临很多挑战。一是人工智能技术要真正应用在汽车上,还需要制定相关的技术标准。二是DRL在解决复杂问题需要大量的训练时间和反复模型优化。三是需要设计一个稳定的智能系统,如何解决仿真和现实之间的gap差距,这也许不是添加噪声就能解决的问题。四是模型的精度和整个智能系统的架构设计会影响DRL的可用性。
因此,基于深度强化学习的端到端大模型,也面临着相应的困难:一方面,用简单的方式直接以传感器信号作为输入、以轨迹/控制作为输出,能够在仿真中取得较好结果,但缺乏可解释性与实际应用安全性,尤其是在复杂的城市道路场景。另一方面,对模型进行显式设计,将整个架构分为感知-预测-规划模块,使其具有部分中间结果表达。但这种方式面临检测结果在模块间不可微导致无法端到端优化,稠密BEV预测时长有限,过去-未来、物体-场景等多维度信息难以高效利用等困难。
因此,要想真正使得该项前沿技术大规模应用在自动驾驶领域现阶段来看还为时尚早,但深度强化学习的原理及潜力让我们看到了未来实现真正超越人类驾驶水平的自动驾驶技术的希望。作为目前最火热的研究方向,端到端大模型此次的进展无疑是喜人的,也给了从业者们更多的信心。
原文标题 : 端到端大模型来袭,自动驾驶的最优解?
关键词:
[责任编辑:xwzkw]
相关阅读
- (2023-07-07)端到端大模型来袭,自动驾驶的最优解?
- (2023-07-07)ST通脉(603559)7月7日主力资金净买入106.34万元
- (2023-07-07)华体科技(603679)7月7日主力资金净卖出84.35万元
- (2023-07-07)中指研究院发布《2023上半年中国房地产市场总结&下半年趋势展望》
- (2023-07-07)沪深两市成交额突破7000亿元
- (2023-07-07)成都市科华中路小学:鉴往致远,赓续前行
- (2023-07-07)南非约翰内斯堡发生有毒气体泄漏,已造成16人死亡
- (2023-07-07)新加坡经济发展局领导一行到智慧互通(IICT)考察交流
- (2023-07-07)这个假期,“返乡”就是我的毕业旅行
- (2023-07-07)13:11 风电设备午后下挫,天顺风能跌近7%
- (2023-07-07)2023.7.6-良性轮动
- (2023-07-07)美国前官员曾与俄外长举行秘密会谈?俄外交部:谣言!
- (2023-07-07)儿童到底需不需要学习编程?看完这篇文章你就懂了
- (2023-07-07)用青春脚步丈量乡村振兴路——记怀化师专学前教育学院暑期“三下乡”社会实践队走访溪口村
- (2023-07-07)牛油果多久可以放熟 ?牛油果能生吃吗? 牛油果怎么催熟?
- (2023-07-07)如何让数学成绩快速提高?掌握解题的技巧就可以吗?
- (2023-07-07)全球最大垃圾发电站在阿联酋投入使用
- (2023-07-07)多特开始夏季备战一天双练,阿德耶米肌肉撕裂未愈仍无法合练
- (2023-07-07)首届“智能零碳、和美乡村”联合毕业设计成果汇报会举办
- (2023-07-07)移动物联网终端用户超20亿
- (2023-07-07)毕业10年被撤销学位?对比论文发现……
- (2023-07-07)穆雷拒续约3年1.44亿?25年夏追五年2.57亿?掘金将陷勇士危机
- (2023-07-07)海鸥6月热销23,005辆,蓄势待发之态不可阻挡
- (2023-07-07)财政部相关负责人就美财政部部长耶伦访华答媒体询问
- (2023-07-07)莱茵体育重启收购成都文旅 西岭雪山景区再冲上市
- (2023-07-07)东亚机械:目前没有螺杆工艺压缩机产品
- (2023-07-07)爆王模型 - 勇者王GGG 评测
- (2023-07-07)9999元抢购卡萨帝风冷多门冰箱,优惠太值
- (2023-07-07)卓郎智能(600545)7月7日主力资金净买入14.73万元
- (2023-07-07)37℃以上高温+强对流+多阵性降雨 未来一周海南天气