让图像会说话!视觉Token注入CLIP语义,TokLIP重塑多模态理解与生成
腾讯 ARC Lab 联合中科院自动化所、香港城市大学、浙江大学等机构提出 TokLIP,在视觉 token 与统一多模态理解生成之间,架起了一座语义桥梁,训练数据量仅需同类方法的 20%,还可以在图
阅读全文腾讯 ARC Lab 联合中科院自动化所、香港城市大学、浙江大学等机构提出 TokLIP,在视觉 token 与统一多模态理解生成之间,架起了一座语义桥梁,训练数据量仅需同类方法的 20%,还可以在图
阅读全文©作者 | 张彧单位 | 浙江大学研究方向 | 音乐/空间音频歌曲生成的核心是基于各种提示生成可控的高质量歌曲。然而,现有方法难以生成具有提示控制的人声和伴奏,且不能实现两者间很好的对齐。此外,它们在
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!联想研究院团队专注于自研时序预测基础模型、预测智能体、时序推理模型与因果分析等
阅读全文近期,OpenAI 通过推出 GPT-5 打响了大模型降本增效的第一枪:在多个挑战性数据集上创下新高的同时,相比 Gemini 和 Claude 大幅降低了使用成本。为此,GPT-5 首次引入多模型路
阅读全文论文题目:Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection论文机构:Shanghai A
阅读全文随着 AI 技术的飞速发展,从「快思考」到 「慢思考」,大语言模型(LLMs)在处理复杂推理任务上展现出惊人的能力。无论是我们熟知的思维链(CoT),还是更复杂的深度思考模式(Thinking),都让
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!微软微软DKI (data knowledge intelligence) 大
阅读全文©作者 | 王磊过去两年,大模型的焦点几乎都落在“如何更快、更大地训练”,而随着 Llama2、Qwen、Mistral 等开源模型的接连登场,推理优化的战场骤然升温。2023 下半年起,从算子融合、
阅读全文大模型饱受“幻觉”困扰。大模型有时会给出错误答案却不自知,甚至“一本正经地胡说八道”,将错误隐藏的更深。如何刻画模型回答的可靠性,成为解决大模型“幻觉”的关键。牛津大学发表在 Nature 上的语义熵
阅读全文“大模型能解高数题了,但它是真的理解了数学概念,还是只背会了题库套路?”随着大语言模型(LLMs)在数学领域的应用越来越广,“模型是否真的具备数学推理能力” 成了学界热议的焦点。现在的训练模式大多让模
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!新加坡管理大学新加坡管理大学(Singapore Management Uni
阅读全文近日,通义实验室发布了 GUI-Owl 和基于 GUI-Owl 的强大多智能体协同框架 Mobile-Agent-v3。它不仅能独立完成复杂的 GUI 任务,同时可以单独负责不同的角色,如问答、描述、
阅读全文随着人工智能技术的不断演进,大语言模型正逐步从简单的“快思考”模式,转向更注重推理深度与逻辑连贯性的“慢思考”范式。以 DeepSeek-R1 为代表的新型大模型,通过引入强化学习机制强化长思维链推理
阅读全文©作者 | 孙伟高单位 | 上海人工智能实验室近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gem
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!百度百度文心(ERNIE)团队致力于预训练大模型基础技术的研究和应用,在预训练
阅读全文©作者 | Cheney训练老是翻车,调参像在碰运气?多数时候问题出在策略更新的“步子”迈得太大。Policy Gradient 简单直接却极易不稳,TRPO 在稳定性上更有保障,却因复杂实现难以普及
阅读全文近年来,以多智能体系统(MAS)为代表的研究取得了显著进展,在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务,展现出明显的
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯微信事业群负责搭建和运营微信生态体系,为全球超过13亿用户提供便捷的社交生
阅读全文蚂蚁集团 2026 届秋季校招已经启动:技术岗位占 86%,AI 方向覆盖大模型、多模态、具身智能、AI 安全等一线课题。杭州、北京、上海、深圳等 11 城同步开放。如果你正好在权衡继续深造还是进工业
阅读全文虽然以 GPT 为代表的自回归 AR 模型在文本生成领域已经占据主导地位,但 AR 模型天然存在并行度低,推理速度慢的瓶颈。近来,受到扩散模型在图像和其他连续数据上的应用的启发,扩散语言模型正在迅速发
阅读全文扩散模型的兴起极大地推动了语音驱动人类视频生成的研究。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!新加坡国立大学新加坡国立大学(National University of S
阅读全文©作者 | 白强伟单位 | 熵基科技研究方向 | 强化学习为什么要融合SFT和RLRL 虽然能够有效提升模型的推理能力,但一个重要的前提是基础模型本身具备了一定的相关能力。在 RL 训练中,通过多次
阅读全文近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力:影视行
阅读全文导语:医疗人工智能的“双刃剑” 近年来,以大型语言模型(LLMs)为代表的人工智能技术正以前所未有的速度发展,并在医疗健康领域展现出巨大的潜力。从辅助疾病诊断到优化临床决策,LLMs 似乎正为我们描绘
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!快手快手-商业化算法部-内循环电商模型组:基于快手的海量用户和商家数据,探索使
阅读全文遥感图像方向的研究2025年的工作成果,太亮眼!看了60+篇论文,总结了今年下半年到明年大家发论文可以挖一挖的4个方面的创新点:多模态融合与统一框架武大港中文的多篇论文都致力于将不同类型的遥感数据(如
阅读全文©作者 | 朱泠皞单位 | 华中科技大学/小米公司研究方向 | 多模态大模型太长不看:我们提出了 Shuffle-R1,一个简单而高效的多模态大语言模型(MLLM)强化学习后训练框架,它通过“动态数据
阅读全文近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显
阅读全文