购买步骤:
新智元报道
编辑:编辑部 HYZ
【新智元导读】就在刚刚,网上已经出现了一波复现DeepSeek的狂潮 。UC伯克利 、港科大、HuggingFace等纷纷成功复现,只用强化学习 ,没有监督微调,30美元就能见证‘啊哈时刻’!全球AI大模型,或许正在进入下一分水岭。
这些天 ,硅谷彻底处于中国公司带来的大地震余波中。
全美都在恐慌:是否全球人工智能的中心已经转移到了中国?
就在这当口,全球复现DeepSeek的一波狂潮也来了 。
诚如LeCun所言:‘这一次,正是开源对闭源的胜利!’
种种这些观点和讨论 ,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才 ,将导致纳斯达克崩盘。
从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。
30美金 ,就能看到‘啊哈’时刻
来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero 。
他们表示,结果相当出色!
实验中,团队验证了通过强化学习RL ,3B的基础语言模型也能够自我验证和搜索。
更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证‘啊哈’时刻。
这个项目叫做TinyZero ,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习 。
然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算 ,将数字组合以达到目标数字的游戏)。
模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。
在以下示例中,模型提出了解决方案 ,自我验证,并反复纠正,直到解决问题为止。
还没有评论,来说两句吧...