购买步骤:
来源:新智元
这些天 ,硅谷彻底处于中国公司带来的大地震余波中。
全美都在恐慌:是否全球人工智能的中心已经转移到了中国?
就在这当口,全球复现DeepSeek的一波狂潮也来了 。
诚如LeCun所言:‘这一次,正是开源对闭源的胜利!’
种种这些观点和讨论 ,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才 ,将导致纳斯达克崩盘。
从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。
30美金,就能看到‘啊哈’时刻
来自UC伯克利博士生潘家怡和另两位研究人员 ,在CountDown游戏中复现了DeepSeek R1-Zero。
他们表示,结果相当出色!
实验中,团队验证了通过强化学习RL ,3B的基础语言模型也能够自我验证和搜索 。
更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证‘啊哈’时刻。
这个项目叫做TinyZero ,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。
然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算 ,将数字组合以达到目标数字的游戏) 。
模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。
在以下示例中,模型提出了解决方案 ,自我验证,并反复纠正,直到解决问题为止。
在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B 、1.5B、3B、7B四种参数规模) 。
结果发现 ,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索 、自我验证和修正其解决方案,从而能
还没有评论,来说两句吧...