无惧Off-Policy偏移!Bengio团队解绑后训练,大模型RL提速50倍
大模型 RL 后训练最慢的环节,往往不是更新参数,而是苦等一轮轮 rollout。Bengio 团队用异步框架把采样和训练拆开,让旧轨迹也能继续变成学习信号。LLM 后训练的慢,很多时候不在学习本身,
阅读全文大模型 RL 后训练最慢的环节,往往不是更新参数,而是苦等一轮轮 rollout。Bengio 团队用异步框架把采样和训练拆开,让旧轨迹也能继续变成学习信号。LLM 后训练的慢,很多时候不在学习本身,
阅读全文北京航空航天大学联合首都信息提出了基于大模型上下文学习的统一异常检测框架 ICAD-LLM,首次实现了对时间序列、表格、日志三类核心数据的跨模态异常检测,同时具备“一次训练、多场景适配”的泛化特性,为
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!AGI-EvalAGI-Eval(https://agi-eval.cn/ho
阅读全文清华 331 篇全球第一,Oral 数量同样领跑,中国高校集体冲上 ICLR 前排。只看论文数量,中国已经是今年 ICLR 最醒目的存在。清华大学位列全球第一,上海交大、北大、浙大、中科院紧随其后,全
阅读全文无人系统正从实验室走向真实世界,但真正的挑战已不再是单点算法,而是系统边界本身。当无人机、无人车与机器人不断突破性能,它们在开放、动态、复杂环境中的“能力极限”成为更关键的问题。这一边界横跨智能系统、
阅读全文《Attention Is All You Need》原作者之一 Llion Jones 参与新作,用 L1 正则与 CUDA Kernel 把 FFN 的 99% 稀疏变成真实提速。2017 年,《
阅读全文AI 生成图像、AI 编造文本、图文协同伪造……今天的多模态虚假内容,已经越来越复杂。面对训练中没见过的新新闻域、新操纵方式、新组合套路,很多现有鉴伪模型往往就开始“掉链子”。问题的关键不只是伪造更多
阅读全文导读:“科学知识图谱”作为连接海量科研数据与科学发现的核心纽带,正成为支撑 AI4S 科研范式演进的关键知识底座。浙江大学联合上海人工智能实验室、同济大学等单位持续推进科学知识图谱的建设与应用探索。前
阅读全文不用补实验,只需 0.25 美元洗一遍 LaTeX,AI 审稿分数就可能原地抬升。不用改实验,也不用补数据。只需花 0.25 美元,把论文的 LaTeX 源码丢给大模型“洗”上一遍,重新编译成 PDF
阅读全文TL;DR:本研究提出 STRIDE,将多跳问答重构为一个受现实分层决策架构启发的推理系统:先做战略规划,再做过程调度,最后完成证据执行,从而显著提升复杂问答中的准确性、稳定性与效率。论文标题:STR
阅读全文画图、润色、改格式只是开始,Auto Research 已经把读文献、跑实验、写论文都卷进工具链里。最近几个月,Auto Research 这个词有点太热了。前阵子还在让 AI 画图、改格式、润色论文
阅读全文TL;DR:本研究提出通过学习一个紧凑的潜在动作空间,用于多模态对话智能体的强化学习微调。 论文标题:Controlling Multimodal Conversational Agents with
阅读全文模型不变,代码 Agent 也能继续变强。自己读轨迹、改 Harness,10 轮后跑赢 Codex-CLI。模型不变,代码 Agent 还能不能继续变强?这篇论文把答案指向了 Harness。问题是
阅读全文这篇论文聚焦 LLM Agent 在开放工具环境中的一个新型安全问题——工具流注入(Tool Stream Injection)。攻击者不再只是把恶意指令藏在网页、邮件等数据里,而是直接污染工具说明、
阅读全文PaperWeekly × 星弧 STARC 科研觉醒AI前沿讲座 直播主题 面向自适应、推理与跨领域应用的大模型泛化研究 直播嘉宾 李皓亮香港城市大学长聘副教授IEEE T-IFS 与 T-CSV
阅读全文大模型推理只能靠外挂?陈丹琦团队连发两文打造训推双引擎,榨干内部试错轨迹,向内重塑复杂推理。要让大模型在复杂任务中少犯错,目前最常见的操作依然高度依赖外力。比如在训练阶段,利用 GPT-4 这样的前沿
阅读全文Mixture-of-Experts(MoE)架构已成为当前大规模视觉-语言模型的主流范式。通过稀疏激活机制,MoE 模型在保持计算效率的同时,能够处理视觉与文本信息之间复杂的交互关系。然而,研究团队
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯优图实验室腾讯优图实验室成立于 2012 年,是腾讯旗下先进的 AI 实验
阅读全文面壁 9B 端到端模型首发 Omni-Flow 框架,单卡 RTX 5070 直接跑通全模态全双工交互。你有没有想过,不用联网、仅用一张消费级显卡,就能在个人电脑上拥有一个「边看、边听、边说、还能主动
阅读全文LLM 在后训练结束时,参数就固定了。无论之后做多少推理,模型本身不会有任何变化。测试时训练(TTT)希望让模型在推理阶段也能从遇到的问题中持续学习。然而现有的 TTT 方法(如 TTRL、EMPO)
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!蚂蚁集团我们是致力于构建世界级通用人工智能基座——百灵的核心技术团队。在这里,
阅读全文如果我们只花 200 美金,用最简单的架构跑一遍大模型,让它们从头到尾独立搞一次科研,真实结果会怎样?©PaperWeekly 原创 · 作者 | Demons单位 | 康奈尔大学计算机博士生研究方向
阅读全文从自动化系统、人工智能到复杂系统研究,一个共同趋势日益显现:研究对象正由结构清晰、边界明确的单体系统,转向高度耦合、动态演化的系统整体,“系统行为如何在不确定环境中被理解、预测与约束”逐渐成为跨学科关
阅读全文只靠公开论文,就能蒸馏学术大牛。在学术圈,想真正摸清一位资深学者的思考方式,通常需要花上好几年去精读文献。但最近,有团队选择直接把大牛给“蒸馏”了。具体做法是,梳理学者过往著作中的推理逻辑,再把这些原
阅读全文Advanced Science 青年科学家创新奖 (Advanced Science Young Innovator Award) 面向全球青年科学家开放,旨在表彰在材料科学与化学、物理和工程、生命
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里通义实验室阿里巴巴通义实验室-对话智能团队以大模型对话技术为核心,研究及应
阅读全文顶会越来越卷,与其在天坑里盲目死磕,不如用这五年的两万份真实投稿数据,给自己的选题算一卦。ICLR 2026 官方公布的数据显示,今年的整体录用率仅为 27.4%。在顶会命中率持续走低的大环境下,前期
阅读全文随着大语言模型(LLM)驱动的多智能体系统快速发展,越来越多的系统被用于软件工程、科学分析、网页自动化、组织协作和社会模拟等任务。但一个核心问题始终没有被系统回答:为什么有些智能体架构可以支持长链条、
阅读全文过去两年,大模型的能力突飞猛进。从文本生成到多模态理解,它们已经逐渐成为很多人日常使用的工具。但随着使用深入,一个问题也变得越来越明显:这些模型虽然强大,却并不真正“懂你”。在与模型的互动中,我们不断
阅读全文大模型的设计正迎来新的范式:从人类可读的离散显式符号空间,转向机器原生的连续潜在空间。近期,新加坡国立大学、复旦大学、清华大学等国内外顶尖高校与科研机构,联合发布了大模型潜在空间领域首个统一系统性全景
阅读全文