购买步骤:
新智元报道
编辑:编辑部 HYZ
【新智元导读】就在刚刚 ,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调 ,30美元就能见证‘啊哈时刻’!全球AI大模型,或许正在进入下一分水岭 。
这些天,硅谷彻底处于中国公司带来的大地震余波中。
全美都在恐慌:是否全球人工智能的中心已经转移到了中国?
就在这当口 ,全球复现DeepSeek的一波狂潮也来了。
诚如LeCun所言:‘这一次,正是开源对闭源的胜利!’
种种这些观点和讨论,让人不禁怀疑:数百亿美元支出 ,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘 。
从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头 ,而是属于每个人。
30美金,就能看到‘啊哈’时刻
来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。
他们表示 ,结果相当出色!
实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。
更令人兴奋的是 ,成本不到30美金(约217元),就可以亲眼见证‘啊哈’时刻 。
这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号 ,运行强化学习。
然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。
模型从最初的简单输出开始 ,逐步进化出自我纠正和搜索的策略 。
在以下示例中,模型提出了解决方案,自我验证,并反复纠正 ,直到解决问题为止。
还没有评论,来说两句吧...