上证报中国证券网讯(记者郑维汉)7月25日,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,提出“AI工厂”理念。摩尔线程创始人兼CEO张建中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进模型的“超级工厂”。
据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。
五大核心要素决定了“AI工厂”成功与否。“AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。”张建中介绍道:“这些因素之间是‘乘’的关系,所以每一个环节都要做到极致。”
加速计算通用性方面,摩尔线程以全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。
与此同时,摩尔线程基于MUSA架构,通过计算、内存、通信三重突破,显著提升了单GPU运算效率。并且,摩尔线程还通过MUSA全栈系统软件,提升了单节点计算效率。
而当单节点效率达到新高度,如何实现大规模集群的高效协作成为了新的挑战。摩尔线程KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。
“整个集群建好后,还要看集群能不能稳定运行。”张建中表示。
在万卡级AI集群中,硬件故障导致的训练中断会浪费算力。为此。摩尔线程推出了零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。
此外,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,结合集群巡检与起飞检查,为大规模AI训练提供稳定保障。
从图形渲染基石到AI算力引擎,摩尔线程全功能GPU持续加速计算革新。张建中表示:“以‘KUAE+MUSA’为智算业务核心,摩尔线程将加速赋能千行百业,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。”
炒股入门与技巧提示:文章来自网络,不代表本站观点。