机器之心

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%
作者：机器之心发布日期：2025-07-07 12:48:00
机器之心报道机器之心编辑部是否可以在不依赖额外监督的前提下，仅通过无监督学习让模型学会思考？答案有了。在心理学领域，人类思维通常被划分为两种不同类型：系统 1（快速思维）和系统 2（慢速思维）。当面
阅读全文
Stream-Omni：同时支持各种模态组合交互的文本-视觉-语音多模态大模型
作者：机器之心发布日期：2025-07-07 12:48:00
GPT-4o式的多模态大模型（LMMs）展现出在文本、视觉和语音模态上的全能能力，其在线语音服务还能在语音交互过程中同步提供中间文本结果（即用户输入和模型响应的转录内容），为用户提供“边看边听”的灵活
阅读全文
求医十年，病因不明，ChatGPT：你看起来有基因突变
作者：机器之心发布日期：2025-07-06 11:49:22
机器之心报道编辑：张倩用AI给自己看病正在成为新趋势，但目前我们仍需要人类医生。身体不适，求医十年，医生没找出原因，ChatGPT 给分析出来了。这是一位 Reddit 网友刚刚分享的个人经历。这位网
阅读全文
原来Scaling Law还能被优化？Meta这招省token又提效
作者：机器之心发布日期：2025-07-06 11:49:22
机器之心报道编辑：Panda2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基
阅读全文
集成20+先进算法，优于GPT-4o，自主因果分析智能体来了
作者：机器之心发布日期：2025-07-06 11:49:22
来自加利福尼亚大学圣迭戈分校（UC San Diego）Biwei Huang 实验室的研究团队提出了一种自主因果分析智能体 Causal-Copilot。该实验室专注于因果推理与机器学习的交叉研究，
阅读全文
刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信
作者：机器之心发布日期：2025-07-05 10:46:45
机器之心报道编辑：杨文、泽南马斯克搭帐篷熬夜开发有效果了？这么高跑分，还不发布。刚刚，Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok
阅读全文
ICCV 2025｜降低扩散模型中的时空冗余，上交大EEdit实现免训练图像编辑加速
作者：机器之心发布日期：2025-07-05 10:46:45
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生，以及香港科技大学2024级博士生。目前在上海交通大学EPIC Lab进行科研实习，接受张林峰助理教授指导，研究方向是高效模
阅读全文
ICML 2025 | 多智能体的ChatGPT时刻？上交MAS-GPT实现工作流一键生成
作者：机器之心发布日期：2025-07-05 10:46:45
本文第一作者叶锐，上海交通大学博士三年级，研究方向是大模型多智能体，联邦学习，博士导师陈思衡，上海交通大学人工智能学院副教授。OpenAI 将 “组织级智能 (Organizational AI)”
阅读全文
人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破
作者：机器之心发布日期：2025-07-04 10:36:29
机器之心报道编辑：杜伟、泽南大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward M
阅读全文
10分钟搞定Excel世锦赛难题！首个超越人类Excel Agent，网友：想给它磕一个
作者：机器之心发布日期：2025-07-04 10:36:29
机器之心报道编辑：杨文这个AI让打工人「磕头」致谢。前段时间，我们报道了 5 款大模型参加了今年山东高考的事儿，为了弄清楚各大模型在 9 个科目中的具体表现，我们对着测评明细表挨个儿分析，搞得狼狈又崩
阅读全文
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成
作者：机器之心发布日期：2025-07-04 10:36:29
近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据
阅读全文
扬言将杀死9个行业，21岁小哥又开发人生作弊器，曾被哥大、哈佛开除
作者：机器之心发布日期：2025-06-28 12:35:42
机器之心报道机器之心编辑部不知大家是否还记得 Roy Lee 这位网红小哥，他曾先后被哈佛大学和哥伦比亚大学开除，之后辍学创办公司，并成功获得 530 万美元的投资。如今，他的初创公司 Cluely
阅读全文
OpenAI转向谷歌TPU：宿敌也能变朋友？
作者：机器之心发布日期：2025-06-28 12:35:42
机器之心报道编辑：Panda据路透社等多家媒体报道，一位知情人士称，OpenAI 最近开始租用谷歌的 AI 芯片来支持 ChatGPT 及其其他产品。现目前，OpenAI 是英伟达 GPU 的最大买家
阅读全文
无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
作者：机器之心发布日期：2025-06-28 12:35:42
本文第一作者为美国东北大学博士生沈轩，研究方向为高效人工智能，致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏，研究方向聚焦
阅读全文
音画同步，AI视频也能有完美「原声音」，可灵AI刚上线的！
作者：机器之心发布日期：2025-06-27 16:06:11
机器之心报道编辑：泽南AI 生成的「最后一道关卡」已经突破？因为生成式 AI，火遍全球的 Labubu 有了超萌专属 BGM：视频来自可灵 AI 创意圈用户。复杂的自然环境也可以获得相应的背景音。视频
阅读全文
这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash
作者：机器之心发布日期：2025-06-27 16:06:11
机器之心报道机器之心编辑部只需一眨眼的功夫，Mercury 就把任务完成了。「我们非常高兴地推出 Mercury，这是首款专为聊天应用量身定制的商业级扩散 LLM！Mercury 速度超快，效率超高，
阅读全文
ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！
作者：机器之心发布日期：2025-06-27 16:06:11
本文第一作者为北京邮电大学副教授、彩云科技首席科学家肖达，其他作者为彩云科技算法研究员孟庆业、李省平，彩云科技CEO袁行远。残差连接（residual connections）自何恺明在 2015 年
阅读全文
等了十年，特斯拉Robotaxi终于上线！马斯克：仅需4.2美元一口价
作者：机器之心发布日期：2025-06-23 12:04:30
机器之心报道编辑：杨文马斯克终于不「画饼」了！4.2美元坐特斯拉Robotaxi初体验：平稳但尚不成熟。马斯克兑现了承诺。早在十年前，埃隆・马斯克就曾多次表示，特斯拉有能力推出无人驾驶服务，但后来却食
阅读全文
新鲜出炉！斯坦福2025 CS336课程全公开：从零开始搓大模型
作者：机器之心发布日期：2025-06-23 12:04:30
机器之心报道编辑：Panda斯坦福大学 2025 年春季的 CS336 课程「从头开始创造语言模型（Language Models from Scratch）」相关课程和材料现已在网上全面发布！课程
阅读全文
CVPR 2025 Award Candidate | 英伟达等Difix3D+：用单步扩散模型修复 3D 重建伪影
作者：机器之心发布日期：2025-06-23 12:04:30
在 3D 重建领域，无论是 NeRF 还是最新的 3D Gaussian Splatting（3DGS），在生成逼真新视角时仍面临一个核心难题：视角一旦偏离训练相机位置，图像就容易出现模糊、鬼影、几何
阅读全文
推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本
作者：机器之心发布日期：2025-06-19 17:30:24
机器之心报道机器之心编辑部人人都绕不开的推荐系统，如今正被注入新的 AI 动能。随着 AI 领域掀起一场由大型语言模型（LLM）引领的生成式革命，它们凭借着强大的端到端学习能力、海量数据理解能力以及前
阅读全文
何恺明CVPR最新讲座PPT上线：走向端到端生成建模
作者：机器之心发布日期：2025-06-19 17:30:24
机器之心报道编辑：张倩生成模型会重现识别模型的历史吗？今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友，很多参会者还参加了个非常有意思的项目 —— 追星。这个「星」自然是学
阅读全文
DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究
作者：机器之心发布日期：2025-06-19 17:30:24
近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。如今，这股
阅读全文
冠军队独享200万，进决赛就有直通offer，腾讯广告算法大赛报名开启
作者：机器之心发布日期：2025-06-18 14:09:37
机器之心原创作者：张倩「2025 年，多模态生成是一个好方向吗？」这是一位同学在今年年初提出的问题。他之所以有此疑问，是因为在找实习时发现，狭义的 AIGC（如视频生成）岗位较少，就业前景不佳，自己的
阅读全文
统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子
作者：机器之心发布日期：2025-06-18 14:09:37
机器之心报道自变量机器人当 AI 放下海德格尔的锤子时，意味着机器人已经能够熟练使用工具，工具会“隐退”成为本体的延伸，而不再是需要刻意思考的对象。当一位熟练的木匠抓起锤子时，锤子消失了 —— 不是物
阅读全文
信息过载时代，如何真正「懂」LLM？从MIT分享的50个面试题开始
作者：机器之心发布日期：2025-06-18 14:09:37
机器之心报道编辑：+0人类从农耕时代到工业时代花了数千年，从工业时代到信息时代又花了两百多年，而 LLM 仅出现不到十年，就已将曾经遥不可及的人工智能能力普及给大众，让全球数亿人能够通过自然语言进行创
阅读全文
10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！
作者：机器之心发布日期：2025-06-18 14:09:37
本文由南京大学，香港大学，上海人工智能实验室，中国科学院大学与南洋理工大学 S-Lab 联合完成。扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（C
阅读全文
首个转型AI公司的新势力，在全球AI顶会展示下一代自动驾驶模型
作者：机器之心发布日期：2025-06-17 12:50:33
机器之心报道作者：泽南L3 级别智能驾驶的关键：大算力、大模型、大数据。端到端智能驾驶，正在沿着大模型 Scaling Laws 的道路狂奔。上周三，全球首款 L3 级算力「AI 汽车」小鹏 G7 正
阅读全文
从扭秧歌到跑半马：机器人离「iPhone时刻」还有多远？
作者：机器之心发布日期：2025-06-17 12:50:33
机器之心发布机器之心编辑部从春晚舞台上扭秧歌、转手绢，到稳健完整跑完半程马拉松…… 过去半年，一系列炫酷的表演，把人们对机器人的认知从想象拉进了现实。但当 AI 圈、车圈、互联网圈大佬们纷纷跻身到具身
阅读全文
首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会
作者：机器之心发布日期：2025-06-17 12:50:33
本文第一作者：崔文谦，香港中文大学博士生，致力于语音大模型，多模态大模型，AI音乐生成等方向的研究。由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech L
阅读全文