购买步骤:
每经记者 宋欣悦 每经编辑 高涵
近日,中国AI初创公司深度求索(DeepSeek)在全球掀起波澜,硅谷巨头恐慌,华尔街焦虑。
短短一个月内 ,DeepSeek-V3和DeepSeek-R1两款大模型相继推出,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖模型相当 。
作为“AI界的拼多多” ,DeepSeek还动摇了英伟达的“算力信仰 ”,旗下模型DeepSeek-V3仅使用2048块英伟达H800 GPU,在短短两个月内训练完成。除了性价比超高 ,DeepSeek得到如此高的关注度,还有另一个原因——开源。DeepSeek彻底打破了以往大型语言模型被少数公司垄断的局面 。
被誉为“深度学习三巨头”之一的杨立昆(Yann LeCun)在社交平台X上表示,这不是中国追赶美国的问题 ,而是开源追赶闭源的问题。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)则罕见地表态称,OpenAI在开源AI软件方面“一直站在历史的错误一边”。
DeepSeek具有哪些创新之处?DeepSeek的开源策略对行业有何影响?算力与硬件的主导地位是否会逐渐被削弱?
针对上述疑问,《每日经济新闻》记者(以下简称NBD)专访了复旦大学计算机学院副教授、博士生导师郑骁庆 。他认为 ,DeepSeek在工程优化方面取得了显著成果,特别是在降低训练和推理成本方面。“在业界存在着两个法则,一个是规模法则(Scaling Law),另外一个法则是指 ,随着技术的不断发展,在既有技术基础上持续改进,能够大幅降低成本。”
对于DeepSeek选择的开源策略 ,郑骁庆指出,“开源模型能够吸引全世界顶尖人才进行优化,对模型的更新和迭代有加速作用 。 ”此外 ,开源模型的透明性有助于消除使用安全的顾虑,促进全球范围内人工智能技术的公平应用。
尽管DeepSeek的模型降低了算力需求,但郑骁庆强调 ,AI模型仍需要一定的硬件基础来支持大规模训练和推理。此外,大规模数据中心和预训练仍是AI发展的重要组成部分,但未来可能会更注重高质量数据的微调和强化学习。
郑骁庆 图片来源:受访者供图
NBD:微软CEO萨提亚·纳德拉在微软2024年第四季度财报电话会上提到 ,DeepSeek“有一些真正的创新 ” 。在您看来,DeepSeek有哪些创新点呢?
郑骁庆:在深入研读DeepSeek的技术报告后,我们发现,DeepSeek在降低模型训练和推理成本方面采用的方法 ,大多基于业界已有的技术探索。比如,键值缓存(Key-Value cache)管理,对缓存数据进行压缩。另一个是混合专家模型(MoE ,Mixture of Experts),实际上是指,在推理的时候 ,只需使用模型的某一个特定的模块,而不需要所有模型的网络结构和参数都参与这个推理过程 。
此外,Deepseek还采用了FP8混合精度训练的技术手段。这些其实之前都有所探索 ,而DeepSeek的创?
还没有评论,来说两句吧...