让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。然而
阅读全文随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。然而
阅读全文编辑|冷猫众所周知,「超级智能」是 Meta 持续不变的宏大愿景。为了尽早达到构建超级智能的目标,扎克伯格在这一年里可谓是大刀阔斧,搞得 Meta 研究部门鸡飞狗跳。前 Meta FAIR 领军人物
阅读全文机器之心编辑部AI 大新闻,一桩接一桩。早上刚传来 Manus 被 Meta 收购的消息,很快,围绕「全球大模型第一股」的竞速,也传来靴子落地的声响。12 月 30 日,北京智谱华章科技股份有限公司(
阅读全文机器之心发布© THE END 转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com
阅读全文可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCard
阅读全文编辑|吴昕第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和
阅读全文编辑|泽南近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。该公司旗下的 MXMACA 软件栈(MACA)正式发布了全新版本 3.3.0.X,沐曦发布了一份 23 页
阅读全文作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?你大概率也遇到过以下困境之一:虚假的繁荣: 模型在 “大海捞针” (Needle-
阅读全文文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然
阅读全文编辑|张倩现年 69 岁的传奇程序员、「Go 语言之父」Rob Pike,这几天被一封邮件惹毛了,接连几个「F**k」爆起粗口。邮件的大致内容是向他这种技术先驱表达感谢,原文是这么写的:尊敬的 Pik
阅读全文编辑|杨文前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友
阅读全文近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解
阅读全文编辑|泽南、杨文年末的假期,正是总结思考的时候。不过对于程序员来说,仔细这么一想可能会感觉有点不对劲。刚刚,Andrej Karpathy 在 X 上发的一条帖子,引发数万程序员和从业者强烈共鸣与热议
阅读全文近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-
阅读全文第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年
阅读全文编辑|杜伟在 2025 年的最后时刻,一个全新视频生成加速框架的开源宣告了:「等待数分钟才能生成一个视频」的时代已经终结!这个框架正是清华大学 TSAIL 团队与生数科技联合发布的 TurboDiff
阅读全文机器之心发布在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案 —— 正确的参
阅读全文近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。论文:MeViS: A Multi-Mo
阅读全文编辑|冷猫在外界感知中,腾讯在 AI 领域的动作更多被贴上稳健甚至克制的标签。但在 2025 年的尾声,从人才引进到产品迭代再到组织变革,一系列密集信号的发出,也侧面表明这个巨头正在按下加速键。12
阅读全文编辑 | 杜伟、陈陈什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI
阅读全文来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。本研究联合了美团、上海交通大
阅读全文编辑|张倩、陈陈没想到,2025 年的最后一个月,AI 硬件圈竟然这么热闹。月初,豆包 AI 手机上线即刷屏。大家发现,原来让 AI 接管手机之后,那么多事情都可以自动化。但没想到,上线第二天,一些
阅读全文机器之心发布还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化!近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告,这一次,数字人
阅读全文机器之心发布目前,传统广电行业正面临一场深刻的生存危机。外部竞争压力持续加剧,不断挤压行业原有的发展空间:家庭智能语音设备渗透率已经突破 68%,短视频平台日均占用用户时长已经高达 2.8 小时,用户
阅读全文在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗?大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利
阅读全文编辑|张倩在国内,懂技术 —— 尤其是 AI 技术的年轻人,真的不缺崭露头角的机会。前段时间,2025 年腾讯广告算法大赛结果揭晓,前 10 名队伍的全部成员都拿到了腾讯的录用意向书,冠军还拿到了 2
阅读全文机器之心发布为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵?为什么 Claude 能 “吞下整本书”,但官方示例往往只展示几千字的文档?为什么所有大模型厂商都在卷 “更长上下
阅读全文机器之心发布很多人可能并不了解,在贵州,IPTV 已经成为当下覆盖最广的家庭信息入口之一 —— 家庭覆盖率接近 89%,用户规模超过 1129.5 万户。然而把时间拨回八年前,贵州并不是一个 IPTV
阅读全文本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模
阅读全文机器之心发布在 SIGGRAPH Asia 2025 期间,盛大集团(Shanda Group)旗下,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术
阅读全文