国产大模型企业DeepSeek日前在资本市场引起关注,引领业新宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale参数精度,国产这是芯片为即将推出的下一代国产芯片设计的。此消息迅速推动了相关芯片公司的标准标杆股价上涨,如寒武纪等。否成

然而,为行在2025算力大会上,引领业新业内专家对FP8的国产讨论虽然热烈,但情绪较为谨慎。芯片尽管资本市场反应积极,标准标杆技术人员更关注FP8在模型训练及生态标准化中的否成实际应用及其面临的挑战。

什么是为行FP8,它有哪些优势?引领业新

在AI模型的训练与推理中,降低数值精度是国产提升计算效率的一种常见方法。目前,芯片AI训练通常使用FP32(32位浮点数),逐渐转向FP16(16位浮点数),而FP8则将数值宽度进一步压缩至8位。摩尔线程AI Infra的总监陈志指出,FP8的显著优势在于算力效率的提升和网络带宽的减少。例如,FP32需要4字节的数据传输,而FP8仅需1字节,这意味着在相同能耗下,AI芯片可以训练更大的模型,或缩短训练时间。

当然,FP8并不是全能的解决方案。现场一位来自国产芯片公司的从业者表示,低精度的训练推理速度虽快,但数据范围过小可能导致计算错误。不同计算场景对精度的需求不同,某些操作如矩阵乘法对精度要求不高,可以使用FP8;而累加或其他函数则需要更高的精度。因此,行业内多采用“混合精度训练”,依据计算类型动态选择精度,以平衡效率与准确性。

DeepSeek能否推动新标准?

DeepSeek-V3.1采用的UE8M0 FP8 Scale标志着国产AI芯片向新阶段迈进。虽然寒武纪等相关公司的股价受此利好影响上扬,但业内人士的态度相对谨慎。业内普遍认为,DeepSeek的举动为国内算力厂商提供了机会,FP8代表了算力优化的一种合理方向,但并非灵丹妙药,关键在于实际效果。

陈志指出,大模型对精度的容忍度逐步提升,从FP32到FP16再到FP8,显示了行业验证的过程。DeepSeek所展示的FP8在大规模模型上的可行性为未来的研究与训练提供了新方向。此外,这一发展意味着国产算力生态亟需同步升级,从芯片、框架到应用层的全闭环适配。

陈志还提到,精度标准的变化需要上下游厂商联动优化。摩尔线程已经提前进行FP8研究,以此作为技术储备,力求在生态调整中占据主动地位。他补充道,大模型训练推理的核心瓶颈不仅限于算力规模,还包括能耗、稳定性和集群利用效率,目前国内已有万卡规模的集群部署,但仍需向更高效的智算集群演进,以解决效率与容错问题,确保集群的可靠性。因此,提升单卡效率和优化集群调度同样至关重要。

本文转载自财联社,XM外汇官网编辑:陈宇锋。