中国电信:运营商视角思考RISC-V 在AI领域的应用
7月18日,第五届RISC-V中国峰会在上海进入分论坛环节。作为未来电子产业最庞大的应用范畴之一,人工智能是不可回避的话题。人工智能的飞速发展,正以年均超过100%的算力需求增长驱动底层架构的革新,“开放、灵活、可定制”的RISC-V已成为构建自主AI算力基石的战略支点。人工智能分论坛邀请各方企业探讨RISC-V架构如何利用其开源、开放、可扩展的特性,实现AI计算架构的革新,以及RISC-V架构在AI软硬件的最新进展和应用落地情况。
中国电信研究院技术专家杨玉模在介绍基于RISC-V架构的高性能AI大模型工作站的同时,还分享了在运营商视角如何思考RISC-V 在AI领域的应用。 杨玉模从三个方面介绍中国电信研究院在RISC-V AI领域的一些工作进展。
针对云计算领域发展趋势与RISC-V现状,他先是分析了数据中心计算架构的发展趋势。IaaS云计算依然是数据中心的主要形态,主要体现在两个方面:(1)在大型企业和政府机构中,IaaS的服务依然是提供主要的基础支撑。(2)在未来很长一段时间里,容器和虚拟机仍然是主要的计算形态。 AI驱动智算爆发式增加,主要数据中心从“通算”向以AI为中心的智算转变,AI算力每3-4个月翻1倍,单次训练成本可能会高达千万美元。因此新型的计算架构芯片、超节点和集群会成为提升算力规模的一个关键突破点。领域专用架构DSA成为新趋势,DSA是针对特定领域进行的计算架构优化,相比传统通用计算在性能和功耗都会有显著的优势,并且虽然AI领域对算力需求的快速增长,DSA成为数据中心发展的一个新趋势。
RISC-V在数据中心中崭露头角。左边的图是RISC-V硬件产品矩阵,它从互联网、然后到边缘计算、到数据中心,它都有RISC-V硬件厂商的参与,但是在数据中心的标杆应用的性能上仍然有差距。右边的图主要是RISC-V的软件生态,这个软件生态主要是、大家可以看到适配的很多操作系统,还有操作系统上面的一些基础软件,这个也是比较全面。但是应用软件由于依赖库的多样性、以及版本的多样,所以它的适配迁移能力还依然比较困难。
去年中国电信研究院在RISC-V中国峰会发布了“北海云计算开放实验平台”,主要针对RISC-V云计算软硬件生态不成率、缺乏规模化的应用验证,以中国电信的丰富应用场景为牵引,来推动RISC-V架构在云计算行业的成熟与规模应用。
左边的这个图就是北海RISC-V云计算实验架构,包含“技术设施实验平台”、以及“云化实验”和“云计算应用的实例验证”。中间的图是依托中国电信RISC-V大科学装置,已经构建了运营商首个超千核RISC-V云计算集群,右边是在去年的RISC-V中国峰会发布的成果。
今年中国电信继续扩展研究推出北海2.0智算云试验平台,主要在之前的基础上增加了“云原生虚拟化、AI大模型、AI智能体”等的管理。我们推出了RISC-V高性能AI大模型工作站,为虚拟化和AI智能体应用提供基础设施和适配验证的一些方案。
上图是大模型工作站基础设施结构图。左边是大模型工作站的开发环境,中间是大模型工作站等桌面机,硬件上基于国产RISC-V的CPU和AI卡,我们采用超睿8核高性能RISC-V CPU芯片,单核在SPEint2006性能达到10.4/GHz。PCIe扩展可以从X16扩展到2个x8或者4个x8,可以支持1-4张AI推理卡的稳定运行。我们搭载的希姆单卡16GB显存,可以完成标量、向量和矩阵云,支持FP16和INT8运算。软件方面适配RISC-V云计算和AI软件生态,我们基于GCC和LLVM的私有编译器,优化AI大模型的性能,并且丰富RISC-V的软件生态,主要是包括适配Ubntu、OpenEule、K8s等,并且适配1.5B-32B的DeepSeek和千问大模型。
在这个过程中,中国电信有两个突破:1.填补了RISC-V云原生虚拟化适配验证平台。推动RISC-V虚拟化的商业规模应用,基于高性能RISC-V硬件虚拟化的平台、往上面适配了OpenEuler。再往上是KubeVirt的适配,首先是编译、包括编译环境和具体的编译步骤。编译环境有原生编译和交叉编译,我们采用的是交叉编译技术。编译步骤这个中间,比如涉及到一些修改解码、构建KubeVit组件的镜像等等。KubeVit部署完了以后、并且运行成功以后,我们就要进行验证、虚拟机的启动。虚拟机启动首先就要创建虚拟机,创建虚拟机包括创建服务器版及桌面版的虚拟机。然后,我们要去创建KubeVit虚拟机对象VMI,然求启动虚拟机、再登陆虚拟机。这个过程中也会遇见错误,因为可能跟虚机启动时候的业务逻辑相关,那么同样我们也要返回回去重新编译、直至部署、虚拟机启动验证成功。 2.填补了RISC-V AI智能体管理平台的空白。因为我们是针对AI智能体在执行LLM动态产生代码时的隔离性、环境一致性等,构建安全隔离沙盒环境,覆盖智能体从开发到部署的全流程,推动智能体验证适配。
最后,杨玉模分享了在运营商视角如何思考RISC-V AI应用前景。他认为,首先是要找好定位。做AI基础设施平台和集成商。因为底下硬件及最上面的应用不是运营商的专长,中国电信以IaaS为基础做AI算力平台、以PaaS为基础做AI应用平台。其次是大模型如何为客户创造价值。他认为是立足现有业务、拓展新型业务,比如:将大模型重新定义传统业务或者是AI去重新定义传统业务,比如说图象处理、通过AI的技术可以提高处理的性能和速度。还有就是大模型谈塞新型业务场景,例如:交互式的问答这种类型。最后,思考如何将理论研究转化为商业应用。要与上下游厂商携手推进商业的落地,首先要健全RISC-V AI领域的开源生态,然后要开源向产品化进行转变。
评论