今年一月底,我们推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,我们使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 3
阅读全文前不久,我们发布了推理模型通义千问QwQ-32B,在 LiveBench 榜单上取得了开源模型的最佳成绩。在针对模型的 Agent 能力的 BFCL 评测中,千问 QwQ-32B 模型在工具调用准确率
阅读全文近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。这一次,我们探讨了大规模强化学习(
阅读全文