文 | 张一弛
(相关资料图)
编辑 | 邓咏仪
36氪获悉,AI算力平台技术提供商「算想未来」推出云原生大模型算力平台,通过先进 GPU集群调度算法、软件优化提升客户集群使用效率、降低大模型算力使用成本。
算想未来是服务于大模型的算力云服务技术提供商,2022年10月获得陆奇博士的奇绩创坛种子轮融资。
创始人赵亚雄博士毕业于清华大学,长期从事分布式算力平台领域的研发工作,此前在谷歌数据中心网络基础设施团队担任Tech Lead,负责高性能网络架构与 SDN 系统研发;后在集群管理系统团队 Borg担任Tech Lead Manager,负责谷歌 GPU/TPU 算力平台的研发工作。创立算想未来之前,赵亚雄是云原生可观测性创业公司 Pixie 创始团队成员,带领技术团队在 1.5 年内被上市公司 New Relic 收购。
在谷歌工作期间,赵亚雄博士积累了大量AI算力平台软件系统中的核心技术研发经验,包括 GPU/TPU 调度、高性能网络通信、光电混合网络架构等方面的研发开发经验。
赵亚雄博士向36氪表示,全球云服务市场美国厂商整体规模是国内厂商数倍,AWS、谷歌、微软三家份额接近70%,国内厂商整体占比约为10%,细分至AI领域,算力规模差距更大、及;算力平台软件系统方面的差距则更大。
随着生成式 AI及AI大模型的兴起,国内厂商采购GPU面临核心技术指标受限的难题:单芯片算力不能超过 4800 TOPs、多卡通信带宽不能超过600 GB/s。此两项指标上限取自 NVIDIA A100;下一代的NVIDIA H100 提供 900GB/s 多卡通信带宽,国内能采购的A800、H800多卡带宽为400 GB/s,落后接近60%。
此外,GPU产能吃紧,溢价较为严重。A100/A800 2023 年上半年的价格相对 2021 年上涨50%,并且A100/A800 已停产,NVIDIA 已不再接收 A100/A800 订单。
据Raymond James数据,一张H100计算卡制造成本为3320 美元,NVIDIA以2.5万至3万美元的价格出售给客户,毛利率高达1000%,且需求只增不减,H100已售罄缺货到2024年。在高端算力需求快速增长的情况下,中国厂商将来需要更高效的GPU算力的软硬件优化方案解决高端GPU短紧缺的情况难题。
利用软硬件优化释放GPU资源池算力的过程较为复杂,包含了服务器架构、编译工具链、AI 应用框架、分布式计算、高性能存储等多个层级。针对各公司自身算力池的优化方案,国内大部分厂商若要搭建相应软件团队,需要在各个层级都聘请工程师团队,成本较高。此外,上述软件系统的运维成本也极其高昂。
针对上述情况,算想未来为客户提供“开箱即用”的大模型训练能力和硬件资源管理能力,实现低成本的高端算力服务。未来拓展为训推一体大模型算力云平台,为大模型团队提供一站式算力云平台解决方案。
硬件资源管理能力方面,算想未来为客户的 GPU 服务器集群搭建基于 Kubernets 的云原生算力平台。依托来自容器和云原生技术发源地 Google Borg 的先进 GPU 资源调度算法,提升 GPU 服务器集群的资源使用率。
大模型训练能力方面,与传统基于单卡的计算任务不同,大模型训练属于大规模分布式计算任务,GPU在该长时间训练过程中的故障率高达5%-20%。一旦GPU发生偶发性故障,需要工程师手动干预来重启训练任务,降低了大模型团队的研发效率。
第一阶段,算想未来目前以AI私有云平台为切入口,针对英伟达GPU算力池优化进行GPU I/O优化、集合通信(collective communication)性能等领域进行软件方面的优化。
同时通过自动化监控监测 GPU 运行情况、以及计算任务执行情况,客户可在算想未来平台上做到容错调度,实现无人干预的长时间稳定训练的效果,提升大模型团队研发效率、加速模型迭代。
算想未来已积累到多家种子客户,主要系拥有自己GPU算力池的公司,包括国内知名的 GPU 算力池企业、地方及国家级人工智能算力中心等。
赵亚雄博士表示,算想未来目前的客户更偏向于拥有算力资源的企业,第二阶段公司将开发分布式大模型算力市场,为大模型团队和算力提供方提供开放的算力采购、售卖的市场。
以IDC提供的A100集群为例,虽然目前GPU较为紧缺,但使用率仅在30%-60%之间,存在大量闲置算力。单一的IDC厂商主攻软件优化方案将耗费大量人力物力,同时目前软件营收规模吸引力较小,IDC厂商更愿意专注于大客户的硬件长租业务,相应成本中小客户难以承担,寻找相应软件合作商成为目前国内IDC厂商的主流选择。
此外,算想未来将与公有云厂商合作,将长租公有云 GPU 集群算力,搭配私有云平台的软件技术,为客户提供随需随用的高端 GPU 算力;更进一步通过软件优化,将闲置的中低端 GPU(包括国产 GPU)的算力充分释放,支持大模型推理的算力需求,让闲置算力拥有者获得变现渠道。
如今AI浪潮席卷到中国市场,几乎所有的主流云厂商、芯片厂商都有做AI算力集群、AI云的尝试,算想未来如何看待和大厂的竞争?
赵亚雄博士表示,算想未来的客户是迫切寻求大模型工程能力的中小型技术企业,相比主要云厂商主攻大客户提供“劳斯莱斯”,此类解决方案规模庞大、功能齐全但是使用困难,中小企业难以负担其高昂的成本;算想未来为中小型技术企业提供“随叫随到的 Waymo 无人网约车”,即自动化免运维的大模型算力服务,在中短期内与主流云厂商不发生直接利益冲突。
同时国产GPU成熟前,国内进口GPU的质量和数量受到限制,国产GPU能大规模商业化落地还需时日,目前大厂难以实际应用,算想未来通过与国产 GPU 的战略合作,可以积累到足够的技术壁垒。
当前,算想未来与国产 DPU、GPU 厂商、高校科研团队签署合作协议,开展针对大模型算力需求场景下,适配国产 DPU、GPU 的高性能集合通信算法与软件 API;同时开展基于国产 GPU 的大模型算力平台的研发。
其他团队成员方面,算想未来创始团队均来自谷歌、华为等企业,具有世界顶尖的 AI 算力平台研发经验。算想未来目前开启新一轮融资,计划建立硅谷研发中心,用于扩充工程师团队和推进分布式大模型算力市场的商业化。
标签: