您的位置:首页 > 热点 >

浪潮信息元脑品牌:车载计算赋能-从域控EIS400到软件框架AutoDR

时间:2025-08-07 15:47:13     来源:盖世汽车  阅读量:7789  

2025年7月22日,在第八届智能辅助驾驶大会上,浪潮信息边缘车载计算团队负责人张清对EIS400域控平台和AutoDRRT框架进行了详细介绍,

EIS400域控平台采用混合异构架构,算力达1000 TOPS,支持L2++到L4级场景,具备灵活扩展与安全容错能力。软件层面,AutoDRRT计算框架实现多SoC自动化分布式并行,支持多种模型架构,解决迁移与性能优化问题,通过软硬件协同优化,显著降低端到端延时,提升计算效率。

AutoDRRT框架不断迭代,从1.0到2.0,针对不同模型架构实施延时优化,通信效率与数据传输效率大幅提升。目前正针对VLA大模型开展优化,已取得阶段性成果,并探索多芯片并行模式,强化容错计算能力,确保算法失效时快速切换,保障车载计算稳定可靠。

张清|浪潮信息边缘车载计算团队负责人

以下为演讲内容整理:

就智能辅助驾驶的技术趋势而言,AI模型算法正从2D+CNN/BEV+Transformer小模型向VLM/VLA大模型的方向演进。当前,模型规模正逐步扩大,此前CNN模型规模可能仅为二十几兆或10兆量级,而目前已有规模接近10B量级的VLA模型处于研究阶段。在计算模式方面,正从基于分离的模块化架构向集中的端到端架构转变。计算需求也从百TOPS量级发展至目前的1000 TOPS量级。

图源:演讲嘉宾素材

目前,车载模型正朝着大模型方向发展,在此过程中面临两大计算挑战。一是在数据中心端,需解决大模型的训练问题。以特斯拉数据中心为例,从其发展态势来看,GPU数量逐年递增,截至2024年,已超过8万片。二是需解决车载大模型在车端算力有限情况下的部署及计算延时问题。此前,如Resnet模型的计算延时可低至8ms,而目前部分VLE模型的计算延时已高达1800ms,这显然无法满足车载低延时计算的要求。因此,需从车载计算系统的硬件设计层面入手,同时结合软件进行协同优化,以解决计算延时问题。

图源:演讲嘉宾素材

我们在车载计算领域进行了相应布局,主要涵盖两个方面。在数据中心端,我们提供大模型AI训练平台、高并发仿真的GPU计算平台,以及用于大规模数据处理的大模型CPU处理平台。在边缘侧,我们依托路侧计算平台与车载计算平台,共同支撑单车智能、车路协同以及车路云等应用场景。

边缘侧涵盖了路侧及车端的计算产品,包括边缘盒子型设备,其算力为200/275 TOPS,可支撑车路协同场景;还有与合作伙伴联合研制的边缘服务器产品。此外,在车载域控方面,我们提供单SoC平台,算力达100 TOPS,用于解决L2++级应用场景需求;同时还推出了4*SoC的大算力域控平台。

EIS400这一平台级域控平台旨在应对车载大模型对大算力的需求。从平台架构来看,如云图所示,其采用了混合异构架构,由CPU搭配四个SoC以及MCU,构成异构分布式布局,算力可达1000 TOPS,能够满足从L2++到L4级别的应用场景需求。整个平台的设计延续了我们在边缘计算领域所秉持的模块化设计理念,支持不同的SoC、IO、存储以及网络单元,具备出色的灵活扩展能力,可实现快速产品化。

图源:演讲嘉宾素材

此外,在解决计算问题的同时,该平台域控还充分考虑了安全容错机制。系统采用充分的冗余架构设计,在计算、通信以及IO等方面均实现了容错功能。上图左侧展示的是整个SoC部分,其中包含了相应的以太网互联架构,以及支持P3E的互联架构。

除车载硬件系统设计外,在软件层面,我们正着力研发相关计算框架,以解决车载大模型从单个SoC迁移至多个SoC时面临的迁移问题与性能优化问题。我们的AutoDRRT平台是一个能够实现多个SoC自动化分布式并行,且具备安全容错与低延时特性的计算框架。该平台支持2D + CNN小模型、BEV + Transformer模型,以及当前VLM、VLA等大模型。

图源:演讲嘉宾素材

在分布式计算方面,该平台解决了应用快速迁移问题,可实现零代码从单个SoC到多个SoC的自动分布式并行;在容错方面,保障应用安全运行,实现失效可操作,且在算法失效过程中,备用算法能够实时接管,完成低延时切换;在低延时计算方面,CNN算法已实现端到端延时达60ms,BEV算法端到端延时可达到100ms量级。

另外是AutoDRRT,该平台架构采用五层设计。底层涵盖不同芯片架构平台的硬件支持,以及基础工程层面的通信、调度优化与分布式编排报告。中间层为计算加速层,针对特定算子和典型库进行加速,为上层应用开发提供工具和算法API支持。

图源:演讲嘉宾素材

该框架首要解决的是低延时问题。在车载模型部署中,计算资源和仿真能力受限,且对时间有严格约束。我们的低延时计算设计理念强调软硬件协同优化,需综合考虑算法流水线的整体延时及其可扩展性。优化工作从多个维度展开:一是系统层面,包括硬件系统级优化,针对硬件架构和芯片单元特点进行针对性优化;二是软件环境层面优化;三是应用框架级,针对整个算法流水线进行优化;最后是微观层面的算法内核级优化。我们将从上述多个维度采取相应方法推进优化工作。

在AutoDRRT 1.0阶段,我们针对基于CNN的模型架构实施了一系列延时优化方法,这些方法涵盖硬件层面与算法层面,大大小小共计40余种。通过这套完整的优化方法体系,端到端延时从原来的875ms显著降低至优化后的94ms,实现了近一个量级的提升。

为验证优化效果在实际应用场景中的表现,我们采用仿真模拟的方式进行测试,部署了AutoDRRT+AWSIM仿真器,硬件采用EIS400域控以及GPU服务器作为仿真平台,运行L4级场景。从AutoDRRT的架构布局来看,我们将全部算法分布于5个计算单元中,共计229个算法,整体延时可控制在60毫秒左右。

图源:演讲嘉宾素材

在AutoDRRT 2.0中,我们开展了基于BEV+Transformer模型架构的延时优化工作。针对BEV部分,整体融合策略从后融合转变为中融合,此过程中需重点考虑模型算法的加速问题。为此,我们对相关典型算法库进行了内核级优化,针对BEV data实现了一倍的性能加速。

通信方面,我们实现了对DDS的全面支持,通信接口从以太网扩展至PCIE,满足了大数据通信需求,通信效率提升了4倍。同时,我们还对数据IO吞吐进行了优化,使IO传输效率提高了6倍。这些优化措施有效解决了BEV相关算法在部署过程中的延时问题。

图源:演讲嘉宾素材

我们与某主机厂针对NOA场景进行了测算,在应用AutoDRRT 2.0及其优化后的BEV感知算法后,该场景下的整体端到端延时可控制在99毫秒。

图源:演讲嘉宾素材

此外,基于实际车端测试需求,我们正与合作伙伴开展相关合作,主要构建BEV+Transformer的闭环仿真体系。该体系旨在打通数据采集、模型训练与车端验证的全流程,形成完整闭环。同时,测试工作采用AutoDRRT平台在车端进行完整测试,目前该平台已支持不同模型的部署。

目前,我们正针对最新的VLA模型开展延迟优化相关工作,此类模型规模更大、参数更为复杂。我们选取了一个参数量接近十亿级的VLA模型进行优化试验,当前已取得阶段性成果。

经优化,该模型可在2Hz频率下稳定运行。最初,模型运行一次需8秒钟,通过内核优化、算子融合以及解码优化等手段,运行时间已缩短至0.4秒。不过,我们的目标是将延迟控制在100ms以内,后续还需通过量化等方法进一步优化。

除针对单个SoC在不同算法层面开展软硬件优化外,我们还需关注从单个SoC扩展至两个甚至更多芯片单元的并行与分布式并行问题。这需要首先解决从单个SoC到多个SoC的快速自动化分布式并行问题。

其次,需解决并行模式问题。此前,框架中更多采用任务并行与数据并行模式,目前我们也在研究针对大模型的pipeline并行、张量并行以及专家模型并行等模式,旨在使车载大模型能够在多维度测试中快速实现并行化,并达到较优的延时效果。

此前,在采用任务并行与数据并行模式时,我们将算法的pipeline分布于五个计算单元上。通过这种分布式并行方式,一方面能够实现硬件资源的快速合理利用,另一方面相较于单个SoC,可显著提升性能表现。在此案例中,端到端延时较单个SoC降低了200毫秒。

图源:演讲嘉宾素材

我们的思考不仅局限于计算层面,还充分考虑了平台的容错计算能力。在软件框架中,我们充分采用了设备监控以及功能算法节点监控模块,确保失效的算法模块能够快速被备份节点切换接管。整体切换延时可控制在1ms量级以内。

边缘车载计算团队负责人张清于2025年7月22日在第八届智能辅助驾驶大会发表的《车载计算赋能:从域控EIS400到软件框架AutoDRRT》主题演讲。)

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精彩阅读