从自动驾驶到智能医疗,从金融科技到智能制造,人工智能正逐步渗透到社会经济的各个领域,与此同时,AI的快速发展带来了对算力的巨大需求,算力已成为数字时代的关键生产力,智算中心,作为支撑这一算力需求的新型基础设施,正逐渐成为数字时代的新焦点。
千亿、万亿参数大模型的孵化,推动智算基础设施加快建设,智能算力需求持续爆发。
当前,我国智算服务市场正迎来前所未有的发展机遇,千亿、万亿参数大模型的孵化,推动智算基础设施加快建设,智能算力需求持续爆发,中国各地智算中心落地生花,智算产业链迎来重塑。在数字化转型与智能化浪潮的双重推动下,全球数据总量正以前所未有的速度膨胀,为算力需求带来了前所未有的挑战与机遇。宏观来看,算力可分为通用算力、智能算力和超级算力,分别对应基础计算、智能计算和超级计算,不同应用场景下所需的计算精度不同,通常会采用不同种类的算力。其中,通用算力基于CPU芯片的服务器所提供的算力,主要用于计算复杂度适中的云计算、边缘计算类场景,通常这些场景对实时性有一定要求,不适合完全将本地数据搬到异地计算,如移动计算和物联网等。智能算力基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供的算力,主要用于人工智能的训练和推理计算,智算中心可以根据不同细分领域业务的算力需求匹配相应的计算能力。对于人工智能的模型训练及推理来说,处理文字、语音、图片或视频等需求较大,单精度、半精度、甚至整型的智能计算才能够满足应用需要。超级算力由超级计算机等高性能计算集群所提供的算力,主要用于尖端科学领域的计算,比如行星模拟、药物分子设计、基因分析、天体物理、气象研究、航空航天等需要复杂运算、高性能双精度算力的高精尖科研领域。同时,不同超级计算机的处理器、加速卡、框架等各不相同,商业化服务门槛高。目前,随着人工智能的快速发展以及国家层面的政策助推,智能算力规模和占比越来越大,算力需求逐步从通用计算转向智能计算。中国信息通信研究院数据显示,截至2023年底,全球算力总规模已达910EFLOPS,同比增长40%,其中,智能算力以335EFLOPS的规模占据了重要一席,这一数据洪流不仅要求更大的存储与计算资源,更对算力的性能与效率提出了更高要求,推动了算力结构的深刻变革。智能算力,依托于GPU、FPGA、ASIC等AI加速芯片,已成为支撑人工智能训练、推理及应用的核心力量。随着全国一体化算力网和“东数西算”工程的部署,我国各地智能计算中心加快布局,30余城市落地40余智算中心,截至2024年6月,中国在用算力中心超过830万标准机架,算力规模达到246 EFLOPS,其中智能算力规模超过76EFLOPS,比2023年同期增长65%。
在基础架构方面,智算中心包括AI服务器、网络设备、存储设备、数据中心管理系统等。AI服务器是智算中心的核心,其性能直接影响到算力的供给,目前,各地智算中心如雨后春笋快速建立,全国各省市均有所布局。根据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,已建成的、在建中的和规划的中心数量已逾40家。从智算中心建设模式可见,各地智算中心建设大多数采取“政府主导+企业承建”模式,政府结合业务需求与企业规模等因素进行综合考量、选取合适的承建单位。智算中心主要分为“企业自建模式”与“政府主导+企业承建”模式。智算中心具有高投入、对地方经济发展具有高影响等特点,因此30多座城市的智算中心建设项目大多数由政府主导,并紧密配合“东数西算”等建设指引的推进节奏,用于支持地方产业AI化、AI产业化以及智能化治理。随着行业智能化转型的加速,算力需求日益多样化、复杂化,传统建设服务模式面临诸多挑战,如电力消耗大、硬件资源利用率低、模型训练资源需求大、迁移部署难度高等,因此,以华为、中科曙光、百度、商汤、腾讯、阿里、浪潮信息和寒武纪为代表的众多厂商通过整合信息计算力、网络运载力、数据存储力,实现了一体化交付,呈现出规划建设一体化、运维保障智能化、模型训练高效化、模型应用普适化的“四化”服务特点,有效提升了服务效率,推动了技术创新与产业集聚化高质量发展。其中,华为智算集成以“复杂工程系统思维”统筹规划智算集群建设,打造 “3+1”算力产业体系,即算力、存力、运力与智算服务的紧密协同,提供高品质算力服务,涵盖数据中心Facility集成、算/存/网统一规划与集成、AI计算使能与优化、运维保障的全栈服务解决方案,助力客户建好、用好、管好算力。中科曙光率先提出5A级智算中心解决方案,拥有全面精度、算力融合、存算协同、领先液冷、生态兼容、建运一体等系列优势,为用户提供稳定且高效的计算支持;寒武纪的智能计算集群系统业务是将自研的加速卡或训练整机产品与合作伙伴提供的服务器设备、网络设备与存储设备结合,并配备寒武纪的集群管理软件组成的数据中心集群,其核心算力来源是自研的云端智能芯片;在算力层,百度也基于全自研的AI芯片-昆仑芯,构建了全新一代的智算中心解决方案。可见,我国智算产业链正在形成,逐渐搭建起以提供算力硬件设备和基础设施为主的上游,以提供智能算力服务为主的中游,和聚焦智能算力应用的下游,日渐完备的智算产业链正以更高效的方式及集合支持着人工智能算法的研发,成为我国夺取未来经济发展新高地的重要支撑。根据IDC数据预测,至2027年,全球非结构化数据将占据数据总量的86.8%,总量将从103.67ZB激增至284.30ZB,复合年均增长率高达22.4%。全球算力规模正经历高速增长。
也正因此,智算中心不仅要满足多样化的算力需求,还需在软硬件协同、资源整合、生态构建等多个维度实现突破,以推动人工智能技术的广泛应用和产业转型升级。其中,智算中心需同时提供通用算力和专用算力,以灵活应对不同应用场景的需求。然而,当前市场上缺乏有效的解决方案来高效融合这两种算力资源,导致算力利用效率和灵活性受限,难以满足快速变化的市场需求。同时,不同芯片平台、算法模型、数据库与应用之间的垂直整合不足,形成了“孤岛”效应,软硬件兼容性问题突出,影响了整体系统性能的优化和升级迭代的速度。对此,业内专家认为,推动异构、异属、异域智能算力资源的整合并网,通过政策引导和资金支持,促进全国一体化算力网络的形成,实现算力资源的灵活调度和高效利用。结合“东数西算”工程,优化智算中心的地域布局,利用西部地区的绿电资源,实现算力需求与能源供给的合理匹配,促进区域产业协同发展。同时,要鼓励国产软硬件厂商加强合作,围绕芯片、算法、模型、应用等关键环节开展融合创新。在硬件层面,针对云端和边缘端的不同需求,研发高性能通用芯片和低时延、高能效专用芯片,提升国产化率。在软件层面,构建开源生态,开发关键基础软件,提供高质量的开源服务,吸引更多参与者共同推动技术进步。最后,智算中心应不仅聚焦于大模型训练等特定场景,更要面向产业智能化需求,打造开放的智算服务社区和产业联盟,构建智能算力公共服务平台,降低技术门槛,促进产业链上下游企业的协同发展。同时,建立政产学研金用联合创新体系,推动科研成果转化,加速AI产业化与产业AI化进程。智算中心不仅是算力的提供者,更是人工智能生态的构建者和推动者。未来,智算中心将更加注重算力的绿色、高效、灵活供给,成为连接科研创新与产业应用的桥梁,助力经济社会高质量发展。