一篇关于DeepSeek模型先进性的阅读理解
阿里妹导读本文以DeepSeek模型为核心,探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习(RL)实现Time Sca
阅读全文阿里妹导读本文以DeepSeek模型为核心,探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习(RL)实现Time Sca
阅读全文阿里妹导读本文描述DeepSeek的三个模型的学习过程,其中DeepSeek-R1-Zero模型所涉及的强化学习算法,是DeepSeek最核心的部分之一会重点展示。一、背景随着DeepSeek的火爆使
阅读全文阿里妹导读本文详细记录和分析了在应用升级到JDK 11后,由于堆外内存(Direct Memory)管理策略的变化导致的内存利用率告警问题。背景近期,我们应用开始出现sunfire内存利用率的告警,规
阅读全文阿里妹导读本文通过分析一段使用 ConcurrentHashMap 的代码发现,该段代码在 JDK 24 中比 JDK 23 快了 20% 以上,这一性能提升源于 JVM 对标量替换优化的改进。文章详
阅读全文阿里妹导读本文展示从零开始搭建一个本地聊天助手的过程,涵盖了模型部署、搜索逻辑设计、内容提取与整合等关键步骤,特别介绍了如何让模型具备联网搜索能力。0x0 序近段时间 DeepSeek 的服务火遍了全
阅读全文阿里妹导读本篇主要简单介绍了在AI时代由‘大参数、大数据、大算力’需求下,对GPU算力管理和分配带来的挑战。以及面对这些挑战,GPU算力需要从单卡算力管理、单机多卡算力管理、多机多卡算力管理等多个方面
阅读全文阿里妹导读阿里云数据可视化产品DataV团队一直在三维交互领域进行前沿探索,为了解决LLMs与3D结合的问题,近期在虚幻引擎内结合通义千问大模型家族打造了一套基于LLM的实时可交互3D世界方案,通过自
阅读全文阿里妹导读本文从Nvidia GPU架构的发展历程讲起,重点介绍了各代架构的关键特性和技术进步提高了GPU间的通信效率和并行处理能力。文章特别强调了这些技术在大模型时代的应用,如加速AI训练和推理。阿
阅读全文