在4月18日火山引擎举办的2023Force原动力大会上,火山引擎总裁谭待表示,不论公共云还是私有云,未来3年内,大规模的算力中心,将形成DPU+CPU+GPU的混合算力结构,CPU负责通用计算、GPU负责AI计算、DPU负责资源卸载&加速&隔离。
事实上,火山引擎在此前的一系列实践中,已经对混合算力结构进行了多次尝试和探索,通过实现GPU、CPU等资源的统一调度、灵活分配、弹性伸缩等云化能力,为上层应用提供统一的算力资源,取得了良好的效果。
本次会上,谭待针对未来大规模算力中心的算力结构进行了展望。他首先表示,目前,字节跳动已经开放11年来的技术积累和规模优势,助力于为企业提供更具极致性能、极致性价比的云服务。
首先是复用规模化资源。目前字节拥有上亿核CPU集群、数十EB的企业存储。同时,火山引擎还宣布与字节国内业务大规模并池,是业界首家大规模内外实时复用计算资源的云厂商,特定时间内快速交付超大量规模资源,调度可达分钟级10w核CPU,保障敏捷弹性和更极致的降本增效。
同时,面向云原生架构持续做好优化,字节内部计算体系已经实现超过95%的容器化,也是国内唯一大规模存算分离存储系统的建设者。为客户提供更敏捷的基础设施,也为客户提供我们在云原生构建方面的实践经验。
另外,火山引擎坚持全栈自研,包括服务器、OS,虚拟网络等。本次会上,谭待再次介绍了火山引擎全栈自研的另一个核心组件,火山引擎DPU。他说,云计算本质是资源池化和软件定义为传统IT带来敏捷性,但随着云基础设施规模越来越大,计算、存储、网络的虚拟化损耗始终带来10%-20%的额外开销。自研硬件DPU,可实现计算存储网络的全组件卸载,释放更多资源给业务负载,提升算力基础设施效率。
火山引擎DPU,从硬件到软件全栈自主研发,自主设计了DPU、自研了基于DPU的RDMA网络以及软硬一体的Hypervisor层,网络性能升级到5000万pps转发能力,20us延迟,处于业界领先地位。内部部署已经超过万台,渗透率上也会持续提升。
火山引擎基于自研DPU推出新一代服务器实例,整体性能大幅提升。包括DPU+Intel全新一代SPR CPU平台的计算实例,整机性能最高提升93%,单核性能最高提升13%。≤16c小规格实例性能最高提升6倍以上。
另外,DPU+AMD全新一代Genoa CPU平台,整机性能最高提升138%,单核性能最高提升39%。≤16c小规格实例性能最高提升10倍以上。而DPU+Nvidia A800裸金属,跨节点提供800Gbps RDMA网络带宽,更加适用于大规模集群分布式训练场景,提高集群并行效率,相较于上一代实例集群性能最高提升3倍以上。
目前,我国大规模算力中心在算力结构上,智能算力增长迅速,占比从2016年的3%提升至2020年的41%,对于灵活分配、弹性伸缩等云化能力的要求日益提高。而DPU+CPU+GPU的混合算力结构由于具备更优质的弹性,更大的算力调度空间,更高的效率,正在成为新的算力结构演变趋势,而火山引擎对此显然已经做好了准备。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.comNfinity推出了一个具有革命性的SocialFi平台:该平台通过生成NFT来帮助YouTube创作者实现内容变现。YouT...