统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心报道自变量机器人当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物
阅读全文机器之心报道自变量机器人当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会“隐退”成为本体的延伸,而不再是需要刻意思考的对象。当一位熟练的木匠抓起锤子时,锤子消失了 —— 不是物
阅读全文机器之心报道编辑:+0人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大众,让全球数亿人能够通过自然语言进行创
阅读全文本文由南京大学,香港大学,上海人工智能实验室,中国科学院大学与南洋理工大学 S-Lab 联合完成。扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(C
阅读全文机器之心报道作者:泽南L3 级别智能驾驶的关键:大算力、大模型、大数据。端到端智能驾驶,正在沿着大模型 Scaling Laws 的道路狂奔。上周三,全球首款 L3 级算力「AI 汽车」小鹏 G7 正
阅读全文机器之心发布机器之心编辑部从春晚舞台上扭秧歌、转手绢,到稳健完整跑完半程马拉松…… 过去半年,一系列炫酷的表演,把人们对机器人的认知从想象拉进了现实。但当 AI 圈、车圈、互联网圈大佬们纷纷跻身到具身
阅读全文本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech L
阅读全文机器之心原创编辑:吴昕AI 不缺模型,缺的是能把它带到真实世界里的「玩家」,会是你吗?高考刚刚结束,AI 正在进入「真实世界的考试季」。三年前,ChatGPT 开启生成式 AI 副本,一路打怪升级,势
阅读全文机器之心原创编辑:吴昕大赛报名于2025年6月25日截止,感兴趣的团队尽快报名参赛。百舸争流,「启智杯」初赛火热进行中 随着人工智能技术的不断突破,智能化浪潮正深刻改变千行百业,中国也迎来人工智能加速
阅读全文机器之心报道机器之心编辑部上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。在机器之心的测试中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Ge
阅读全文在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知能力,其部署却长期受限于显著的算力瓶颈 —— 大小中等的模型一次多图推理可
阅读全文机器之心原创作者:闻菲真正的智能在于理解任务的模糊与复杂,Context Scaling 是通向 AGI 的关键一步。2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」
阅读全文机器之心报道编辑:大盘鸡、杜伟凌晨三点的 AI 实验室,键盘敲击声在空荡的房间回响。屏幕上,博士生小王、小李、小赵正疯狂调整模型参数,只为在 NeurIPS 截稿前将准确率从 98.2% 刷到 98.
阅读全文在进入本文之前,我们先来玩个 10 秒小游戏:在心里选一个「1-10」的整数。现在设想我问:「你想的是 5 吗?」如果听到是自己的数字,你会本能地答 Yes,其余统统 No。这件小事背后其实考验的是你
阅读全文本文第一作者为中国科学院大学的博士生陈若愚,主要研究可解释 AI 以及在训练推理中的落地应用。第二作者为新加坡国立大学的梁思源,主要研究可信 AI。主要合作者来自华为技术有限公司的刘势明和李茂森。通讯
阅读全文机器之心报道机器之心编辑部又到一年毕业季。这个 6 月,相信很多同学都已经收到了心仪的实习 offer,或者在准备秋招投递。对于 AI 相关专业毕业生来说,就业市场选择很多,各个大厂、小厂、初创都在积
阅读全文机器之心报道机器之心编辑部开源社区的人应该对 vLLM 不陌生,它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎,核心目标是提升 LLM 的推理速度(吞吐量)和资源利用率(尤
阅读全文机器之心报道编辑:Panda这两天,Meta 重金投资 Scale AI 的消息可说是震撼了整个 AI 行业。据 The Information 报道,有消息称 Meta 将以 148 亿美元收购 S
阅读全文OpenAI 在通向 AGI(通用人工智能)的五大阶段中,将「组织级」智能列为最终目标:即 AI 能像一个组织般管理复杂流程、决策高层任务、协调大规模操作。 近两年来,大量多智能体系统(Multi-A
阅读全文机器之心报道编辑:Panda高考余热尚在,依然还是有不少博主和媒体在测试各家 AI 模型解答最新高考题的能力。而现在,一个正被火热评测的主流模型迎来了重磅升级!事情发生在昨天、北京国家会议中心、火山引
阅读全文作者介绍: 本文作者来自通义实验室 RAG 团队,致力于面向下一代 RAG 技术进行基础研究。该团队 WebWalker 工作近期也被 ACL 2025 main conference 录用。论文:h
阅读全文近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限
阅读全文机器之心报道编辑:张倩、陈陈谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一
阅读全文机器之心报道编辑:泽南强推理终于要卷速度了。大模型强推理赛道,又迎来一位重量级玩家。本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,
阅读全文本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。本文的通讯作者为涂兆鹏,腾讯混元数字人专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会
阅读全文第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。第二作者徐晓豪是美国密歇根大学机器人学
阅读全文机器之心报道编辑:张倩、泽南为什么语言模型很成功,视频模型还是那么弱?「我一直很困惑,语言模型怎么能从下一个 token 预测中学到这么多,而视频模型从下一帧预测中学到的却那么少?难道是因为大模型(L
阅读全文机器之心报道编辑:杜伟、何欣东游戏直播等实时渲染门槛要被击穿了?Adobe 的一项新研究带来新的可能。近年来,视频合成技术已经取得了显著突破。其中,基于双向注意力机制的扩散 Transformer(D
阅读全文论文第一作者为何浩然,香港科技大学二年级博士,他的研究方向包括强化学习、生成流模型(GFlowNets)以及具身智能,通讯作者为香港科技大学电子与计算机工程系、计算机科学与工程系助理教授潘玲。测试时扩
阅读全文机器之心发布机器之心编辑部你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能
阅读全文机器之心报道机器之心编辑部当前,AI 的「推理」能力已经在以 DeepSeek-R1、OpenAI o1/o3、Claude 3.7 Sonnet 为代表的推理大模型中得到了验证,它们显示出了非常类人
阅读全文