复旦大学副教授郑骁庆谈DeepSeek:AI行业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增
更新时间:2025-02-03 00:24:14 浏览次数:

  
 

  近日,中国AI初创公司深度求索在全球掀起波澜,硅谷巨头恐慌,华尔街焦虑。

  短短一个月内,DeepSeek-V3和DeepSeek-R1两款大模型相继推出,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖模型相当。

  作为“AI界的拼多多”,DeepSeek还动摇了英伟达的“算力信仰”,旗下模型DeepSeek-V3仅使用2048块英伟达H800 GPU,在短短两个月内训练完成。除了性价比超高,DeepSeek得到如此高的关注度,还有另一个原因——开源。被誉为“深度学习三巨头”之一的杨立昆在社交平台X上表示,DeepSeek具有哪些创新之处?DeepSeek的开源策略对行业有何影响?算力与硬件的主导地位是否会逐渐被削弱?

  针对上述疑问,郑骁庆

  规模法则之外,还有另一个法则

  此外,Deepseek还采用了FP8混合精度训练的技术手段。这些其实之前都有所探索,而在业界存在着两个法则,一个是规模法则,即模型的参数规模越大、训练数据越多,模型就会更好。比如说,以GPT-3为例,早期它的成本就很高。但随着研究的深入,研究人员逐渐清楚哪些东西是工作的,哪些东西是不工作的。研究人员基于过往的成功经验,研究目标会逐渐清晰,成本实际上也会随之降低。

  
 

  DeepSeek有效平衡性能和成本,但对芯片需求影响不大

  首先,像DeepSeek或者类似的公司,比如说,DeepSeek的训练预算不到600万美元。它的技术报告中提到,不到600万美元的资金,是按照GPU的小时数来估算的。也就是说,他们基于之前的很多研究,把整条训练流程都已经搞清楚的情况之下,重新走一遍。它的GPU的运算速度是多少,运算小时数是多少,然后再乘以每小时两美元得到的这个结果。报告中也提到了,另外,DeepSeek的研究表明,很多中小企业都能用得起这样的大模型。
 

  刚才也提到DeepSeek其实是在很多先期研究的基础之上,找到了一条性能和成本平衡的一个解决方案。另外就是应用方面。即便是模型的推理成本再低,当需要支持数千、数万甚至更大规模的并发使用时,仍然需要一个配备大量显卡的强大基础架构来确保稳定运行。

  
 

  开源加速模型更新和迭代,降低安全顾虑

  开源模型最大的好处就在于,另外,

  现在的AI竞争是在中国的中国人和在美国的中国人竞争

  在这样的情况之下,我们的基础高等教育质量的提升,使得我们储备了大量的人才。在这样的过程当中,我们能够对现有的技术进行迅速的消化。

推荐图文

鄂ICP备2024040700号-2
武汉砺行体育文化传媒有限公司-版权所有
数据源自网络仅供参考