出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了
机器之心报道编辑:PandaDeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R
阅读全文机器之心报道编辑:PandaDeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R
阅读全文机器之心发布机器之心编辑部世界模型(World Model)作为近年来机器学习和强化学习的研究热点,通过建立智能体对其所处环境的一种内部表征和模拟,能够加强智能体对于世界的理解,进而更好地进行规划和决
阅读全文机器之心报道编辑:张倩用 AI 提高 AI 的效率,它们就能变得像人类大脑一样高效?我们的大脑只用了 20 瓦的能量就能完成复杂思考,而现代 AI 系统却需要成排的高功率 GPU 和惊人的电力消耗。这
阅读全文AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
阅读全文机器之心发布机器之心编辑部2025 年,DeepSeek 的破圈掀起了一场 AI 革新浪潮,如星火燎原般席卷各行各业。企业与机构纷纷寻求与顶尖 AI 技术人才展开深度对话,渴望把握技术发展的最新脉搏,
阅读全文机器之心报道编辑:Panda、张倩在当今的 AI 领域,图灵奖得主 Yann LeCun 算是一个另类。即便眼见着自回归 LLM 的能力越来越强大,能解决的任务也越来越多,他也依然坚持自己的看法:自回
阅读全文AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
阅读全文机器之心发布机器之心编辑部DeepSeek V3/ R1 火爆全网,基于原始模型的解决方案和 API 服务已随处可见,陷入低价和免费内卷。如何站在巨人肩膀上,通过后训练(post-training)结
阅读全文机器之心报道编辑:杜伟、陈陈昨天,AI 圈可以说非常热闹。中午,马斯克 xAI 发布了地表最强旗舰大模型 Grok-3;下午,DeepSeek 梁文锋亲自挂名的论文公开了全新注意力架构 NSA。这下子
阅读全文AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
阅读全文AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
阅读全文