中科曙光AI计算开放架构:破解算力困局的"中国方案"2025年9月5日,在重庆世界智能产业博览会上,中科曙光联合华为、中兴、浪潮信息等20余家产业链龙头企业,正式发布国内首个AI计算开放架构,同步推出曙光AI超集群系统,并启动"AI计算开放架构联合实验室"。这一突破性成果被业内视为中国智能计算产业"安卓模式"的标志性事件,标志着国内AI算力生态从封闭割据迈向开放协同的新阶段。# 一、架构核心:七大维度构建开放算力底座该架构以GPU为核心,创新性地实现"算、存、网、电、冷、管、软"七大维度的一体化紧耦合设计,形成全方位协同的技术体系:多元算力融合:打破传统超算与智算平台的资源壁垒,支持多品牌GPU加速卡混布,兼容CUDA等主流软件生态,用户可自由选择硬件配置,避免被单一厂商锁定。高效集群设计:单机柜支持96张加速卡、提供百P级算力,最大可扩展至百万卡规模集群。通过"超级隧道"存储优化、冷板液冷技术等创新,千卡集群大模型训推性能达到业界主流水平的2.3倍。全栈技术开放:首批开放AI存储优化、液冷基础设施设计规范、DeepAI基础软件栈三大核心能力,覆盖部件、系统、软件等全产业链环节,显著降低中小企业研发门槛。# 二、落地成果:曙光AI超集群的四大突破作为开放架构的具象化产品,曙光AI超集群系统呈现出颠覆性性能优势:1. 性能跃升:GPU算效提升55%,模型开发效率提高4倍,可满足万亿参数大模型训练、多模态开发等高端场景需求。2. 安全可靠:平均无故障时间(MTBF)提高2.1倍,故障修复时间(MTTR)降低47%,保障大规模集群稳定运行。3. 绿色高效:采用业界领先的浸没式液冷技术(市场占有率超50%),大幅降低算力中心能耗。4. 生态兼容:通过DeepAI深算智能引擎提供与CUDA逻辑一致的开发接口,国产GPU厂商只需维护一套代码即可实现无缝兼容。# 三、产业价值:破解三大行业痛点当前国内AI产业面临算力分散、生态割裂、成本高企的三重困境,开放架构针对性提出解决方案:打破算力孤岛:依托国家先进计算产业中心的资源整合能力,将分散的算力资源转化为可调度的公共服务,响应《关于深入实施"人工智能+"行动的意见》中"建设全国一体化算力网"的要求。降低创新成本:避免企业陷入"重复造轮子"的困境,开发者无需为不同硬件平台重复适配代码,迁移成本降低60%以上。释放数据价值:联合中科天机开放全球高分辨率气象数据,为行业大模型提供高质量训练样本,实现算力、模型、数据的协同增值。# 四、生态布局:构建多方共赢产业联盟中科曙光凭借30年高性能计算积累(累计部署超50万张异构加速卡),发挥产业链整合优势:联合实验室:携手20余家企业共建创新平台,推进跨层协作优化,已吸引芯片、整机、算法等领域头部企业参与。数据开放:开放气象等领域的高价值数据集,解决AI训练"数据荒"问题。标准制定:主导液冷基础设施等关键领域的规范制定,推动产业标准化进程。# 五、未来展望:开放生态的挑战与机遇尽管开放架构展现出强劲竞争力,但仍面临生态 Adoption(采纳率)、标准统一等挑战。业内专家指出,这一模式能否成功关键在于:- 能否吸引主流软件厂商加入生态建设- 标准化进程能否跟上产业需求- 跨企业协作机制能否持续高效运转中科曙光高级副总裁李斌表示:"当前正是构建中国智算'安卓生态'的关键窗口期,通过开放换协作、以协作破壁垒,才能在全球AI竞争中占据主动"。随着联合实验室的运转和更多技术能力的开放,这一架构有望重塑国内AI算力格局,为产业高质量发展提供坚实底座。
|
|