AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现
阅读全文随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现
阅读全文机器之心报道编辑:冷猫从短视频到 AI 模型,人们消费内容的习惯又一次向追求效率改变。在阅读长文、论文或海量信息时,越来越多人不再耐心从头到尾浏览,而是倾向于直接获取高密度、快速可吸收的知识。让大模型
阅读全文机器之心报道机器之心编辑部有这样一个网站,它专注于数学研究和问题解答,特别是与著名数学家保罗・厄尔德什(Paul Erdős)相关的问题。它就是 Erdős 问题网站。该网站收录了厄尔德什提出的各类数
阅读全文周展辉(https://zhziszz.github.io/):加州大学伯克利分校计算机博士生;陈凌杰(https://lingjiechen2.github.io/):伊利诺伊大学厄巴纳香槟分校计算
阅读全文机器之心报道机器之心编辑部Meta 用一段文本构建可探索的 3D 世界。谷歌、OpenAI 那边一个接一个上新,整个 AI 圈都卷得飞起。与此同时,Meta 也没闲着,先是 SAM 3、接着 SAM
阅读全文机器之心报道编辑:泽南一举解决算力资源浪费。不论是英伟达 GPU 还是昇腾的 NPU,都可以「融为一体」,动态切分了。11 月 21 日,华为正式发布了 AI 容器技术 ——Flex:ai,同时,华为
阅读全文在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?腾讯混元数字人团队和中山大学最新推出的「M
阅读全文机器之心原创作者:张倩、Panda科幻作家刘慈欣在小说《超新星纪元》中描述了一个令人难忘的场景——几个十几岁的孩子被带到一个小山环绕的地方,他们的面前是一条单轨铁路,上面停着十一列载货火车,每列车有二
阅读全文机器之心报道编辑:陈陈模型也要学会取长补短。大语言模型(LLM)在众多领域展现出卓越的能力,但它们的训练依然高度依赖算力和时间,需要庞大的计算资源以及精细的训练流程设计。模型 Souping(Mode
阅读全文在视频编码领域,双向编码(RA 模式)一直是高效压缩的「秘密武器」,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层
阅读全文机器之心报道机器之心编辑部就在刚刚,即将离职 Meta 的图灵奖得主 Yann LeCun 在 Threads、领英等社交平台上宣布已经开启事业的下一阶段:创业。这家新公司的研发核心将是所谓的 Adv
阅读全文机器之心报道机器之心编辑部沉默后爆发?深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。其中,SAM 3D 是 SAM 系列的最
阅读全文AI 读了那么多 paper,会做实验么?LabOS: 当 AI 不仅会思考,更能 “看见”、“指导” 并“操作”真实实验,一个人类与机器智能共同进化的科学发现新时代,正悄然开启。在一个看似常规的生物
阅读全文机器之心报道机器之心编辑部您的 AI 伙伴「游戏陪玩」版已上线。今天,Google DeepMind 发布了 SIMA 2,一个在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。De
阅读全文机器之心报道编辑:Panda近来,世界模型(World Model)很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo:仅凭一张图片甚至一段文字,就能生成一个可交互、可探索的 3D 世界。这些演示
阅读全文机器之心发布机器之心编辑部在过去两年,大语言模型 (LLM) + 外部工具的能力,已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执
阅读全文本文共同第一作者为陈寅杰、颜子鹏,相关研究工作于香港大学科研实习期间完成;通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotligh
阅读全文本文作者来自香港大学、香港中文大学、卡内基梅隆大学、哈佛大学、哥伦比亚大学等多所顶尖高校。其中论文第一作者是喻牧泉,来自香港中文大学,主要研究方向为计算神经科学与脑机接口。通讯作者为罗逸飞(Andre
阅读全文机器之心报道编辑:杨文2025 年,AI 产业正在经历一场关键转折。当 OpenAI、Google 等 AI 巨头们还在展示多模态大模型的各种可能性时,真正决定 AI 商业价值的战役已经在教育、医疗、
阅读全文机器之心报道机器之心编辑部今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。据介绍,MoBA 是「一种
阅读全文本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾在字节跳动、腾讯等公司实习。个人主页:h
阅读全文为了同时解决知识的实时性和推理的复杂性这两大挑战,搜索智能体(Search Agent)应运而生。它与 RAG 的核心区别在于,Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行
阅读全文机器之心报道编辑:Youli、杨文近日,外媒一篇关于阿里 AI 全面入局 C 端之战,秘密启动「千问」项目的报道,在坊间引起各种猜测,甚至连相关的「阿里食堂烧鸭饭」都上了好几次热搜。没办法,大家太好奇
阅读全文机器之心报道机器之心编辑部经常使用 AI 的人,大概都注意到模型一个共同特点,那就是它们非常喜欢用破折号。无论是解释概念、列举观点,还是自然过渡语气,动不动就来一个「——」。久而久之,它甚至成了检测
阅读全文在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。这一问题直指当前 VLA 模
阅读全文长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,
阅读全文机器之心发布机器之心编辑部EverMind 团队近日宣布正式发布其旗舰产品 EverMemOS,这是一款面向人工智能智能体的世界级长期记忆操作系统。它旨在成为未来智能体的数据基础设施,为 AI 赋予持
阅读全文机器之心报道编辑:冷猫在 2017 年,两个创业者刚经历了 6 次失败 —— 从 「加密货币外卖」 到各种奇思妙想,无一例外全都扑街。寄宿在朋友家,靠披萨续命的他们决定再赌一次。这次的方向是:「做一个
阅读全文和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!Wit
阅读全文上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO
阅读全文