算力作为推动人工智能产业发展的核心动力,在将数据及算法转化为最终生产力的过程中发挥着重要作用。可以说,大模型时代,AI领域正从数据和算法层面的竞争,转变为底层算力的竞争。相关机构分析显示,我国算力产业保持高速增长,其中AI算力在整个算力结构中的占比已经超过25%。我国算力总规模近五年年均增速近30%,数据中心机架数量年复合增长率超过30%。
青云科技(qingcloud.com)总裁林源表示,AI和大模型,毫无疑问是推动生产力变革的有效工具,不仅能促使所有行业积极拥抱AI,降低使用的门槛,还能把原来很多不能做的事情变成可能。然而,在AI技术催生市场变化的过程中,用户对于底层架构、算力及应用部署的要求也在发生变化。
“未来将是一个以GPU为核心的时代”。林源表示,这一时期,将以云原生和AI应用为主。同时,用户的算力部署环境和业务形态也将呈现多元化的趋势:在算力方面,既包括传统云计算(以CPU为主)、智算(以GPU为主)、超算(以HPC为主)等多元算力,还包括国外芯片及国内芯片等异构算力;在业务形态方面,既有成本敏感型业务,也有延迟敏感型业务。这不仅会使得应用部署变得更复杂,也对技术和平台提出了更高的要求。
新问题“呼唤”新方法
大模型时代,行业内正在进行大规模智算中心的建设,以满足急剧增加的算力需求。不过,受算力复杂度提升和缺口扩大等因素的影响,行业内对于智算中心要怎么建、建成什么样、未来要支撑什么业务等问题,并没有想得很透彻。例如,智算中心的设计规划、运营和运维、多元算力的统一调度、高效网络与存储的提供等内容都是模糊化的。
“智算中心投资巨大,能否盈利取决于运营效率和平台能力。因为平台能力越强,能支撑的用户业务类型就越多,盈利模式也就越清晰。以国家超算济南中心为例,该中心依托于算力调度平台,实现了底层架构、中间PaaS平台以及上层应用之间的算力存储、调度及运维,而凭借多元异构的算力平台以及信创适配能力,使该中心能够支撑科学计算、政务云建设以及智慧城市建设等多种业务类型,从而大幅提升了中心的运营和盈利能力。”林源如此说道。
事实上,国家超算济南中心所构建的算力调度平台,正是青云科技经过持续的技术积累、沉淀以及市场实践之后,所推出的计算中心运营工具。同时,也是青云科技解决AI时代算力难题的逻辑和思路所在。“该平台的客户群体是现在和未来投入计算中心建设的企业,目标是通过提供多元算力调度、高速并行存储、统一运维和运营、异构GPU支持、模型仓库、信创适配等能力,帮助这些运营者建立从算力中心建设到运营的闭环。”林源如是说。
具体来看,青云AI算力调度平台,在分布式调度和管理上,基于就近使用的原则,能够在最靠近数据的节点上承载业务,并保障所有节点服务体验一致;在资源调度上,能够立即调度扩容数万卡资源、设置最短优先调度链路、支持异构平台、提升感知作业级单卡颗粒度等;在高速并行存储上,能够构建统一的数据存储底座,实施数据生命周期分层策略,降低存储成本。
此外,青云科技产品经理苗慧表示,面对行业内普遍存在的多元资源统一调度管理、高速网络瓶颈、环境搭建复杂、多业务整合瓶颈等挑战,青云AI算力调度平台还将在多种硬件架构和GPU卡适配、全生命周期管理、多种AIGC模型一站式交付以及多种应用模式支撑上,进行持续研发和优化。“基于以上关键能力,青云科技的目的是像管理本地资源一样,为用户提供智能化、多元化的算力调度能力,并帮助用户管理AI基础设施,支撑算力体系建立。”苗慧如此说道。
有产品,更要有服务
从发展历程来看,青云科技和整个行业一样,都是从通用云计算开始,然后在虚拟化、计算、存储、网络以及资源分发上做了大量工作。目前,在HPC领域和AI智算领域,青云科技的产品越来越面向终端用户,并且有越来越多的政府、科研、企业等机构用户使用青云科技的平台产品。
从市场角度上看,有产品,就要有相应的服务让其推而广之。此时,在AI算力调度平台的基础上,青云科技思考的是如何联合合作伙伴,为最终用户提供一个完整的解决方案。基于这样的需求,青云科技AI算力云服务应运而生。“青云科技AI算力云服务的定位是一个开放的生态同盟,所以青云在集结这些跟我们志同道合的合作伙伴,通过‘同盟’的方式一起运营AI算力云服务。”林源说道。
目前,青云科技在AI算力云“同盟”建设上,包括英伟达、AMD以及国产芯片厂商等AI算力组件生态,商汤、无问芯穹、紫东太初等AI算力模型生态,国家超算济南中心、清华大学电子工程系智算中心等AI算力服务生态以及金融、制造、交通、能源等AI算力场景生态。
从行业的角度上看,AI算力云主要服务于客服、营销、金融、交通、能源、法律等行业大模型的早期训练阶段。接下来,在大规模研发工作取得阶段性成果之后,基于大模型的推理服务将会成为AI算力云的主要工作。苗慧表示,青云科技AI算力云正持续对外运营中,并且推出了包括裸金属服务器、虚拟化服务器、高速网络、训练集群、推理集群、镜像仓库和并行文件存储等在内的诸多产品。
不难看出,青云科技的逻辑和思路是希望依托一个开放的、成熟的、可运营的AI算力调度平台,通过自营、合营乃至支撑第三方运营的方式,与生态同盟一起贡献AI Cloud。在这一过程中,青云科技并不是什么都干,而是聚焦于自己最擅长的AI算力调度平台,其他的都会交由生态合作伙伴来提供,这恰恰是青云科技的差异化价值所在。
专注做自己最擅长的事情
林源表示,青云科技并不是一家项目公司,而是一家产品公司,因此所提供的产品都是标准化的,定制化内容将会由客户自己完成。此外,当谈到自身在算力上的投入时,林源表示,作为联合运营方,青云科技通过提供技术和产品,将以轻资产的方式运营AI算力云,而不是买几百张卡、几百台服务器,这并不是青云科技的价值所在。
事实上,青云从诞生之日起就提出“云之基石,自由计算”的理念,希望“把自由留给客户,把复杂交给自己”,从客户需求出发,成为企业数字化转型的基石。这一定位,11年来并没有改变过。
闻道有先后,术业有专攻。在服务行业数字化转型的进程中,青云科技最擅长做的是为企业提供底层的、基础的、复杂的技术、产品和解决方案,并且致力于与合作伙伴一起服务最终客户。今天,青云科技发布的AI算力调度平台和AI算力云服务,就是最好的解释。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!