购买步骤:
来源:新智元
这些天,硅谷彻底处于中国公司带来的大地震余波中 。
全美都在恐慌:是否全球人工智能的中心已经转移到了中国?
就在这当口,全球复现DeepSeek的一波狂潮也来了。
诚如LeCun所言:‘这一次 ,正是开源对闭源的胜利!’
种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说 ,中国量化基金的一群天才,将导致纳斯达克崩盘。
从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。
30美金 ,就能看到‘啊哈’时刻
来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero 。
他们表示,结果相当出色!
实验中 ,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。
更令人兴奋的是,成本不到30美金(约217元) ,就可以亲眼见证‘啊哈’时刻。
这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型 、提示和真实奖励信号,运行强化学习 。
然后 ,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。
模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。
在以下示例中 ,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止 。
在消融实验中 ,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B 、7B四种参数规模)。
结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案 ,从而能
还没有评论,来说两句吧...