如何为预训练 LLM 添加新 token?
作者 | 张怀龙 策划 | 褚杏娟 为了使得通用的预训练大模型能够满足专业领域的需求,我们往往会对通用的大模型进行微调。实际上通过微调框架或技术对大模型进行微调之后可能会发现,微调之后的模型其实
阅读全文作者 | 张怀龙 策划 | 褚杏娟 为了使得通用的预训练大模型能够满足专业领域的需求,我们往往会对通用的大模型进行微调。实际上通过微调框架或技术对大模型进行微调之后可能会发现,微调之后的模型其实
阅读全文作者|褚杏娟、冬梅 北京时间 3 月 19 日凌晨 1:00 大洋彼岸的美国加利福尼亚州圣何塞会议中心灯火通明,人声鼎沸。全球科技界瞩目的年度盛会——英伟达 GTC 2025 大会在这里盛大开幕。作
阅读全文作者 | 石士 概览 随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力?带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清了一些关键问
阅读全文整理 | 褚杏娟 “加班文化”正在从政策层面被否定。3 月 17 日,国家发展改革委副主任李春临在国新办新闻发布会上表示,针对反映突出的“加班文化盛行”等痛点问题,《提振消费专项行动方案》(以下简称方
阅读全文作者 | 褚杏娟 “零一万物聚焦 ToB 的商业模式从一开始就非常健康,去年有超一亿元收入,今年第一季度的收入就接近了去年全年的收入,所以零一万物 ToB 业务的运营模式是非常良性的。”李开复说道。李
阅读全文整理 | 华卫、核子可乐 在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。近日,一家美国 GPU 初创
阅读全文整理 |华卫 近日,宇树科技创始人、首席执行官兼首席技术官王兴兴发表的名为《献给春天的演讲:相信》演讲内容在各大平台刷屏了。官方透露,“90 后”的他,和团队研发的四足机器人目前已占全球近 7 成销售
阅读全文作者 | 王嘉陆 在中国 AI 大模型热闹了一整个春节后, 百度又给出了大动作。3 月 16 日上午,百度连续发布了文心大模型 X1 和文心大模型 4.5,不仅能力再进阶,价格也更低。文心 X1 并非
阅读全文作者 | 刘东、韩其琛、赵雨森 大模型时代下新语言训练的挑战 在网易 CodeWave 智能开发平台中,NASL(NetEase Application Specific Language)
阅读全文整理 | 傅宇琪、褚杏娟 导语:部分公司纷纷“反内卷”,每周 4.5 工作制引讨论;传京东算法全员将进行 30% 普调涨薪;字节裁员 10% 不发年终奖、HR 和员工互殴?抖音官方辟谣;传腾讯向英
阅读全文整理 | 华卫、核子可乐 卡耐基梅隆大学的两位研究人员最近发现,压缩信息的过程有望解决复杂的推理任务,且无需在大量示例之上进行预训练。他们的系统仅依靠谜题本身就可以解决某些类型的抽象模式匹配任务,直接
阅读全文整理 | 华卫、燕珊 当地时间周四,OpenAI 针对美国政府即将出台的“AI 行动计划”,提交了一份长达 15 页的提案。该公司强调,AI 发展需要加速、需要放松监管,并坚称这对于在 AI 竞赛中击
阅读全文3 月 11 日,2025 年两会正式闭幕,而“人工智能 +”依旧是今年会议期间的顶流热词。自去年政府工作报告提出开展“人工智能 +”行动以来,2025 年政府工作报告继续指出,要持续推进“人工智能+
阅读全文作者 | 褚杏娟3 月 13 日,阿里巴巴宣布推出 AI 旗舰应用——新夸克。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为一个无边界的“AI 超级框”。阿里巴巴表示,未来通义系列模型的最新成
阅读全文Lip-Bu Tan 被任命为英特尔公司首席执行官整理|冬梅、核子可乐就在英特尔罢免前任 CEO 基辛格的三个月之后,这家身陷困境的美国芯片巨头迎来了新的掌门人:陈立武(Lip-Bu Tan)。任命将
阅读全文作者 | 褚杏娟 硅谷最火的投资标的不再是新的应用或硬件产品,而是一个人。据外媒报道,风投们正因为 AI 研究员 Ilya Sutskever 而向他那家神秘公司 Safe Superintellig
阅读全文作者|冬梅、褚杏娟 尽管大型语言和推理模型仍然很受欢迎,但企业越来越多地转向使用较小的模型来运行人工智能流程,从而减少能源和成本方面的担忧。3 月 12 日,谷歌宣布推出了 Gemma 3 开源 AI
阅读全文分享嘉宾 | 于子淇 编辑 | Kitty 策划 | QCon 全球软件开发大会 随着大模型技术从技术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型
阅读全文整理 | 褚杏娟 1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,目标是探索 AGI 的新方法,其中“Seed”是豆包大模型团队名称,Edge 代表最前沿的 AGI 探索。该项目团队近
阅读全文分享嘉宾 | 张向征 审校 | 李忠良 策划 | AICon 全球人工智能开发与应用大会 随着大模型在行业的落地,大模型逐步成为数智化系统的关键基础设施,其潜在的主体地位和应用广度,也带来
阅读全文整理 | 华卫 尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。
阅读全文整理 | Tina 最近,MCP 突然受到了广泛关注。MCP(模型上下文协议)是去年 11 月由 Claude 的母公司 Anthropic 推出的一项开放标准协议。其目标是为大型语言模型提供一种开放
阅读全文作者 | 冬梅 今天,法国 AI 明星创企 Mistral AI 发布了一款名为 Mistral OCR 的光学字符识别(OCR)API,它可以帮助企业更好地理解和处理各种文档。简单来说,就是让电脑不
阅读全文整理 | 傅宇琪、褚杏娟 Manus 紧急扩容服务器,口碑两极分化;“海米兄弟”火了!周云杰回应和雷军同框后走红全国人大代表郑功成:呼吁废除 35 岁就业门槛;2024 年图灵奖公布:两位科学家
阅读全文2 月份,在 DeepSeek 爆火之后,极客邦科技通过连续 12 场的直播连线不同领域的专家,深度解析了 DeepSeek 背后的技术突破、商业化路径与行业影响。在这个过程中,我们发现技术热度延续的
阅读全文作者 | 华卫昨天,一款由中国团队发布的 Agent 产品 Manus 在 AI 圈迅速走红,并登上热搜,许多人称其为真“打工人救星”。一段长达 4 分 17 秒的演示 demo 里,官方介绍,与传统
阅读全文作者 | JAY ALAMMAR 译者 | 王强 策划 | Tina DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说,这是一个颇为重要的版本,原因
阅读全文随着 Data + AI 时代的到来,数据架构如何演进以支撑实时分析与智能决策?3 月 10 日晚 20:00 直播,4 位来自阿里、字节和 StarRocks 的专家,带你深入解析 Lakehous
阅读全文编辑 | 燕珊“有一种全新的编码方式,我称之为“vibe coding”(氛围编码)。你完全沉浸在氛围里,拥抱指数式增长,甚至忘记代码本身的存在。这之所以可行,是因为大模型(比如 Cursor Com
阅读全文作者 | AICon 全球人工智能开发与应用大会春节期间,DeepSeek 在全球范围内掀起了巨大波澜,毫不夸张地说,它几乎成为了全球关注的焦点。大家纷纷对其开源特性、成本优势以及回复准确率等方面赞不
阅读全文