Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
机器之心报道编辑:张倩、泽南大家翘首以盼的 Llama 4,用起来为什么那么拉跨?Llama 4 这么大的节奏,Meta 终于绷不住了。本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明
阅读全文机器之心报道编辑:张倩、泽南大家翘首以盼的 Llama 4,用起来为什么那么拉跨?Llama 4 这么大的节奏,Meta 终于绷不住了。本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明
阅读全文机器之心报道编辑:蛋酱、+0刚刚,斯坦福大学正式发布了《2025 AI Index》报告。在过去的一段时间里,人工智能领域经历了一场蓬勃的发展,但与此同时,也有人说「人工智能是一个泡沫」。其他的讨论话
阅读全文图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要
阅读全文在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求
阅读全文机器之心原创作者:张倩「未来,99% 的 attention 将是大模型 attention,而不是人类 attention。」这是 AI 大牛 Andrej Karpathy 前段时间的一个预言。这
阅读全文机器之心报道编辑:张倩、+0Noprop:没有反向传播或前向传播,也能训练神经网络。「我们应该抛弃反向传播并重新开始。」早在几年前,使反向传播成为深度学习核心技术之一的 Geoffrey Hinton
阅读全文本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生,导师为陈文虎教授,陈文虎教授为通讯作者。近年来,视频生成技术在动作
阅读全文基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。尽管现在基于 diffusion 的方法取得了很多进展,但是这些方法存在处理效率低,同时缺乏三维
阅读全文机器之心报道机器之心编辑部万万没想到。Meta 选择在周六日,发布了最新 AI 模型系列 ——Llama 4,这是其 Llama 家族的最新成员。该系列包括 Llama 4 Scout、Llama 4
阅读全文选自Towards Data Science作者:Sandi Besen机器之心编译在人工智能飞速发展的今天,LLM 的能力令人叹为观止,但其局限性也日益凸显 —— 它们往往被困于训练数据的「孤岛」,
阅读全文本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计
阅读全文大型语言模型 (LLM) 在软体机器人设计领域展现出了令人振奋的应用潜力。密歇根大学安娜堡分校的研究团队开发了一个名为「RoboCrafter-QA」的基准测试,用于评估 LLM 在软体机器人设计中的
阅读全文机器之心报道编辑:张倩语言是离散的,所以适合用自回归模型来生成;而图像是连续的,所以适合用扩散模型来生成。在生成模型发展早期,这种刻板印象广泛存在于很多研究者的脑海中。但最近,这种印象正被打破。更多的
阅读全文选自 Gates Notes作者:Bill Gates机器之心编辑部1975 年 4 月 4 日,比尔・盖茨和保罗・艾伦在美国新墨西哥州阿尔伯克基市创立了微软公司。到今天,半个世纪过去了,微软早已成长
阅读全文近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSe
阅读全文想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。然而,现实却远非如此。现有的 3D 城市生成方法,如基于 NeRF 的 Ci
阅读全文机器之心报道机器之心编辑部一种全新的学习方法。这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前,强化学习(RL)已广泛
阅读全文机器之心报道编辑:蛋酱AI 可能「借鉴」了什么参考内容,但压根不提。自去年以来,我们已经习惯了把复杂问题交给大模型。它们通常会陷入「深度思考」,有条不紊地展示思维链过程,并最终输出一份近乎完美的答案。
阅读全文最近,像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型(Large Reasoning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在
阅读全文第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-trainin
阅读全文ATEC2025 科技精英赛是由 ATEC 前沿科技探索社区主办,清华大学、浙江大学、西安交通大学、上海交通大学发起。本届赛事由香港中文大学、北京大学、北京师范大学顶尖学府联合蚂蚁集团共同承办的全球性
阅读全文机器之心报道编辑:+0、泽南大模型能写出 ICML Spotlight 论文吗?近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT
阅读全文本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培的博二学生,目前是实验室见习研究员,师从上海交通大学人工智能学院王钰教授。本文通讯作者为王钰教授与张娅教授。低秩
阅读全文机器之心报道编辑:泽南、杜伟2025 年,生成式 AI 的发展速度正在加快。我们见证了 DeepSeek R1,用强大的推理能力再次点燃 AI 智力增长的火箭。在上个星期,OpenAI 给 GPT-4
阅读全文机器之心报道编辑:+0当 AI 翻开奥数题,CPU 也烧了!还记得那些被奥数题折磨得彻夜难眠的日子吗?当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决
阅读全文机器之心报道机器之心编辑部无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,
阅读全文白泽琛,新加坡国立大学 Show Lab 博士生,他的研究方向主要包括视频理解和统一的多模态模型,在 CVPR、ICCV、NeurIPS、ICLR 等会议发表多篇文章;曾在 Amazon AI 担任
阅读全文机器之心发布机器之心编辑部3 月 29 日,智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨
阅读全文机器之心报道编辑:PandaDeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 crit
阅读全文最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由 IDEA、清华大学、北京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文
阅读全文