ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推
阅读全文多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推
阅读全文背景:长上下文视频生成的挑战目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现
阅读全文在大模型时代,数据质量决定了一切。但在资源受限的边缘设备上,高效的语言模型(Edge LMs)更是依赖于高质量的数据。如何在海量数据中筛选出最优子集,让小模型也能大放异彩?近日芯片巨头英伟达联合 La
阅读全文还记得两个月前那个引爆 Github 的 VLM-R1 吗?上线 12 小时狂揽 2000+ Star,48 小时冲上趋势榜第一,连 AI 大佬们都直呼这框架有点东西!如今,它的官方技术报告终于来了!
阅读全文Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。Mona 方
阅读全文前两天闲来没事逛 HuggingFace,意外发现腾讯研发团队放出了一个开源模型 VLR1-3B 的预览版(preview),还是多模态?模型链接:https://hf-mirror.com/Tenc
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!亚利桑那大学亚利桑那大学(University of Arizona,简称UA
阅读全文通过强化学习(RL)来提升大语言模型(LLM)的推理能力,已经成为行业的共识。然而,在跨领域任务(如数学推理和代码生成)中,如何让模型“鱼与熊掌兼得”,仍然是一个巨大的挑战。近期,快手 Kwaipil
阅读全文在理解人类行为的视频研究中,第一人称视觉(Egocentric Vision)正成为视频理解、具身智能与虚拟现实等前沿领域的重要突破口。它要求模型不仅能识别物体,还要理解人类如何操作这些物体、为何操作
阅读全文Github 仓库:https://github.com/TheEighthDay/SeekWorldHuggingface 模型:https://huggingface.co/TheEighthDa
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!通义实验室通义实验室负责通义系列大模型(通义千问等)的研发和应用落地。其中的对
阅读全文直接偏好优化(DPO)在大语言模型(LLMs)对齐研究上表现优异,许多方法尝试通过替换输入数据将其扩展至多模态场景。这种方法有什么局限性?我们通过可视化图文表征空间发现,现有多模态 DPO 模型即便经
阅读全文©作者 | 沈笑,海南大学副教授、博导研究方向 | 图域适应、跨网络分类等邮箱 | shenxiaocam@163.com本文介绍一篇发表于 AAAI-2025 的论文,面向开放集跨网络节点分类的排除
阅读全文2025 年 3 月 18 日,由始智 AI wisemodel 开源平台与 AMD 中国 AI 应用创新联盟联合主办的 “AMD AI PC 应用创新大赛” 正式拉开帷幕!本届大赛以“AI PC 芯
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中佛罗里达大学中佛罗里达大学(University of Central Fl
阅读全文身处 AI 时代,不管是埋头求知的大学生,还是紧跟热点的打工人,都必须面对一项棘手的挑战:如何拨开信息迷雾,高效获取有价值的内容?今天,OpenBMB 开源社区请了一位资深专家——人送外号「卷姬」!在
阅读全文论文链接:https://openreview.net/forum?id=kuhIqeVg0e代码链接:https://github.com/gersteinlab/chemagent研究背景:化学推
阅读全文在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。在这些系统中,多个具备计
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!淘天集团淘天集团-业务技术-直播AIGC团队主要负责将AIGC技术应用于淘宝直
阅读全文最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业论文毫无建议! 无论什么专业的研究生,面对这样的情况,很有可能都要陷入沉思。万
阅读全文©作者 | 庞子奇单位 | UIUC研究方向 | 计算机视觉语言领域的自回归(AR)模型看似一统江湖,但是视觉领域还没有范式让大家的 “Scaling Law” 可以跨越更多任务、更多应用。前几天 G
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!澳门大学澳门大学是澳门唯一一所国际化综合性公立大学,创立于1981年,位于澳门
阅读全文我们诚挚地邀请您提交论文参加即将在 ACM Multimedia 2025 (ACM MM 2025) 会议上举办的 LGM3A Workshop。此次Workshop的主题为“基于大语言模型的多模态
阅读全文为什么要做 xVerify?当前推理模型( Reasoning Model)在多个领域取得了显著进展,但在长推理链、 困难数学表达式、多语言等复杂场景下,答案抽取与验证仍面临以下挑战:慢思考场景:长推
阅读全文概况双目立体匹配是计算机视觉中几十年来经久不衰的一个研究课题,其主要是从矫正的左右目图像中恢复稠密的匹配视差。进入深度学习时代后, 双目匹配的准确度和鲁棒性都得到了稳步的提高。然而,现在模型仍然受到搜
阅读全文音视频问答(Audio-Visual Question Answering, AVQA)是一项具有挑战性的多模态推理任务,需要智能系统理解音频-视频输入,准确回答自然语言查询。然而,现有的 AVQA
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴我们做什么?视觉生成:文生图,文生视频,图生视频视觉编辑:图片编辑,视
阅读全文2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在
阅读全文LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛
阅读全文©作者 | 娄蒙、俞益洲单位 | 香港大学计算机系香港大学计算机系俞益洲教授及其研究团队开发了一种新型的通用视觉 backbone—TransXNet,该模型同时融合了全局和动态性。其创新之处在于引入
阅读全文