会走会聊还会求抱抱!迪士尼造出“真”雪宝,把热力学公式写进强化学习
迪士尼“真·活”雪宝机器人来了!不仅会走会聊,还能卖萌求抱抱。在机器人领域,我们习惯了波士顿动力的 Spot,它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人,为了实用长成了圆盘。但在迪士尼的世
阅读全文迪士尼“真·活”雪宝机器人来了!不仅会走会聊,还能卖萌求抱抱。在机器人领域,我们习惯了波士顿动力的 Spot,它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人,为了实用长成了圆盘。但在迪士尼的世
阅读全文©PaperWeekly 原创· 作者 | 许瑞航单位 | 浙江大学本科生研究方向 | 计算机视觉与生成模型近年来,扩散模型(Diffusion Models)在图像生成领域取得了飞速发展,尤其在个性
阅读全文你的模型是在真思考,还是为了讨好 Reward Model 在演戏?随着 OpenAI o1/o3 系列的发布以及 DeepSeek R1 的开源,大模型正式迈入了 System 2 慢思考(Reas
阅读全文自然语言推理与符号推理长期各具优势与局限。自然语言具有灵活表达能力,但缺乏严格的逻辑保障;符号推理强调语法结构与逻辑一致性,但难以覆盖复杂开放任务。LLM Symbolic Reasoning 则在两
阅读全文捅破 5 分钟长续航天花板,SOTA 级权重直接全开源。2025 年,视频生成赛道已经进入了卷细节、卷长时序的深水区。当行业已经能够产出几秒钟极具视觉冲击力的镜头时,实际落地中却总会撞上几堵隐形的墙:
阅读全文研究背景大型语言模型虽能力强大,却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源(如知识图谱 KG)来弥补这些缺陷,已成为提升模型可靠性的关键 [2]。然而,当 RAG 系统需
阅读全文这顿“免费午餐”,或许正是通向长文本高保真建模的下一块基石。在大模型迈向超长上下文的当下,混合注意力(Hybrid Attention)已成为 MiniMax、Qwen、Kimi 及 NVIDIA 等
阅读全文“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题:为不同任务微调的模型数量激增,维护成本与日俱增。我们如何将这些“专才”模型,高效地整合成一个强大的“多面手”?模型融合为此提供了一条路径
阅读全文如果说 ImageNet 的出现开启了计算机视觉的黄金时代,那么在空间智能领域,我们也终于等来了一个填补空白的里程碑式开源项目。如视宣布,面向学术研究及非商业用途正式开放 10000 套室内三维数据集
阅读全文今年早些时候,由何恺明、Yann LeCun 等大佬联手推出的 Dynamic Tanh (DyT) 曾引发热议,它向我们展示了 Transformer 中不可或缺的 LayerNorm 其实可以用一
阅读全文那年杏花微雨,你说我是 Google 家最乖的 AI 助手。现在?对不起,请叫我——钮祜禄·Gemini。过去我们看大模型竞争,总觉得那是神仙打架。比谁参数大、比谁推理强,主打一个瑞思拜(Respec
阅读全文北京航空航天大学计算机学院王静远教授团队创新性地提出了基于异构超图的地图实体表征学习框架 HygMap。该研究突破了以往仅针对单一地图实体进行建模的局限,通过构建包含“地理、功能、移动”多视角的超图结
阅读全文当大模型还在卷参数量时,具身智能的角斗场已经转移到了端侧落地的实战。0.6B 参数能否承载复杂的视觉-语言-动作联合推理?OpenTrackVLA 给出了一个意想不到的解法。12 月 12 日,GDP
阅读全文我们小时候成绩提升最快的时候,往往不是刷最多题的时候,而是——开始认真整理“错题本”的那一刻。真正厉害的学习者,并不是只把错题记下来,而是会反复追问:我当时是怎么想的?为什么会这样错?这是偶然,还是一
阅读全文手里只有几张消费级显卡时,怎么练模型才最划算?面对手里仅有的 8 张 4090,如果只有两周时间,目标是训练一个数学能力超越基座的垂直模型。你是该把算力全部投入 SFT 题海战术,还是咬牙上 PPO
阅读全文近年来,大语言模型(LLM)的发展仿佛陷入了一场“参数军备竞赛”:参数规模从百亿、千亿,一路飙升至万亿级别。模型规模不断膨胀,效果虽有所提升,但推理成本与微调训练成本也水涨船高,让众多企业与开发者望而
阅读全文那个被我们遗忘在角落的最原始算法,竟然才是真正的版本答案。NeurIPS 2025 审稿期间,一张截图被传疯了。审稿人那句 “Who is Adam?” 的神回复,瞬间被大家玩成了梗。毕竟在 Tran
阅读全文©作者 | 简伟健,冷大炜单位 | 360人工智能研究院研究方向 | 多模态理解在大语言模型技术加速渗透各行各业的今天,如何让 AI 在企业级场景中实现精准高效的知识服务,成为行业落地的核心挑战。检索
阅读全文180 万小时、44k 高保真、支持全量微调——刚刚开源的 VoxCPM 1.5,技术细节全解密。最近,面壁技术团队发布了 VoxCPM 1.5 版本,在持续优化开发者开发体验的同时,也带来了多项核心
阅读全文以 CLIP 为代表的视觉语言模型(VLM)在大规模图文数据上进行了预训练,具备强大的通用视觉识别能力。然而,在细粒度识别任务上,VLM 往往难以区分相近类别之间的细微差异,识别能力显著下降。以 CL
阅读全文现在的 Google Scholar,漏洞大得像个筛子。大家每天都在用 Google Scholar 查文献,但可能没几个人意识到,这个我们用来背书学术影响力的工具,其实非常容易被攻破。这两天有人挖出
阅读全文在大语言模型的浪潮中,视频大语言模型(VideoLLMs)正以惊人的速度进化,生成的响应越来越精细。然而,“慢”与计算量大依然是制约其大规模应用的最大痛点。视频序列中海量视觉 token 导致的二次方
阅读全文6B 小模型也能挑战 SOTA?文生图赛道又卷起来了。美团 LongCat 团队刚刚发布并开源了 LongCat-Image 图像生成模型。长期以来,中文生成和精准编辑一直是开源模型的隐痛。现有方案往
阅读全文北京航空航天大学联合澳门大学,共同开发了跨 POI、道路、地块的统一地图要素表征学习工具库:VecCity。该工具库通过统一数据、统一流程、统一测评,集成了 9 座城市数据、复现 21 种主流的时空要
阅读全文揭秘 5825 篇论文背后的新秩序。NeurIPS 2025 刚刚在圣地亚哥落下帷幕。作为全球 AI 领域的风向标,今年的 OpenReview 数据比往年更具冲击力。5825 篇接收论文刷新了历史记
阅读全文开篇:多模态大模型的幻觉顽疾要如何缓解?当你让视觉语言大模型(LVLM)描述一张“猫咪与酒瓶”的图片时,它却生成“猫咪旁边放着一杯咖啡”——这种无中生有的幻觉,早已成为 LVLM 落地的最大绊脚石。
阅读全文从 GPT-4o 的惊艳亮相到 Gemini 的持续迭代,AI不仅能理解文本,更能看懂图像、听辨声音、创作视频,实现跨模态的联合理解与生成。这一前沿领域的核心,正是统一多模态基础模型(Unified
阅读全文近日,来自新加坡管理大学(SMU)、罗切斯特大学(UR)、伦敦大学学院(UCL)、新加坡国立大学(NUS)、香港中文大学(CUHK)、斯坦福大学(Stanford)等顶尖科研机构的研究团队联袂发布了最
阅读全文ICLR 2026 的瓜田,真是一波未平一波又起,根本吃不完。原本以为前两集的审稿连续剧已经够离谱了,大家也就是看几个投机取巧的团队在浑水摸鱼,被发现后撤稿也就剧终了。但现在的局势,似乎远比我们想象的
阅读全文大型语言模型在预训练阶段习得了海量知识,常常被当作知识库使用。但是,模型更新速度远远跟不上世界更新的速度,导致用户常常被过时或虚假的信息欺骗。在更新模型知识时,传统的微调类方法成本高昂且容易导致灾难性
阅读全文