全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限

    作者:PaperWeekly发布日期:2025-04-27 20:45:29

    多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推

    阅读全文
  • 文章封面

    迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA

    作者:PaperWeekly发布日期:2025-04-27 20:45:29

    背景:长上下文视频生成的挑战目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现

    阅读全文
  • 文章封面

    英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!

    作者:PaperWeekly发布日期:2025-04-27 20:45:29

    在大模型时代,数据质量决定了一切。但在资源受限的边缘设备上,高效的语言模型(Edge LMs)更是依赖于高质量的数据。如何在海量数据中筛选出最优子集,让小模型也能大放异彩?近日芯片巨头英伟达联合 La

    阅读全文
  • 文章封面

    等到了!VLM-R1完整细节首度公开:RL的一小步,视觉语言模型推理的一大步

    作者:PaperWeekly发布日期:2025-04-25 13:13:50

    还记得两个月前那个引爆 Github 的 VLM-R1 吗?上线 12 小时狂揽 2000+ Star,48 小时冲上趋势榜第一,连 AI 大佬们都直呼这框架有点东西!如今,它的官方技术报告终于来了!

    阅读全文
  • 文章封面

    CVPR 2025 | 5%参数反超全量微调!清华、国科大等发布视觉微调涨点神器

    作者:PaperWeekly发布日期:2025-04-25 13:13:50

    Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。Mona 方

    阅读全文
  • 文章封面

    腾讯低调开源「作业终结者」:3B参数实现多模态SOTA,数学物理全通吃

    作者:PaperWeekly发布日期:2025-04-25 13:13:50

    前两天闲来没事逛 HuggingFace,意外发现腾讯研发团队放出了一个开源模型 VLR1-3B 的预览版(preview),还是多模态?模型链接:https://hf-mirror.com/Tenc

    阅读全文
  • 文章封面

    博士申请 | 亚利桑那大学张晴钊老师招收可信人工智能方向全奖博士/实习生

    作者:PaperWeekly发布日期:2025-04-25 13:13:50

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!亚利桑那大学亚利桑那大学(University of Arizona,简称UA

    阅读全文
  • 文章封面

    DeepSeek-R1-Zero被“轻松复现”?10%训练步数实现数学代码双领域对齐

    作者:PaperWeekly发布日期:2025-04-24 12:31:28

    通过强化学习(RL)来提升大语言模型(LLM)的推理能力,已经成为行业的共识。然而,在跨领域任务(如数学推理和代码生成)中,如何让模型“鱼与熊掌兼得”,仍然是一个巨大的挑战。近期,快手 Kwaipil

    阅读全文
  • 文章封面

    CVPR 2025 | HD-EPIC定义第一人称视觉新标准:多模态标注精度碾压现有基准

    作者:PaperWeekly发布日期:2025-04-24 12:31:28

    在理解人类行为的视频研究中,第一人称视觉(Egocentric Vision)正成为视频理解、具身智能与虚拟现实等前沿领域的重要突破口。它要求模型不仅能识别物体,还要理解人类如何操作这些物体、为何操作

    阅读全文
  • 文章封面

    一张图片找出你在哪?o3-like 7B模型玩网络迷踪超越一流开闭源模型!

    作者:PaperWeekly发布日期:2025-04-24 12:31:28

    Github 仓库:https://github.com/TheEighthDay/SeekWorldHuggingface 模型:https://huggingface.co/TheEighthDa

    阅读全文
  • 文章封面

    北京/杭州内推 | 阿里通义实验室对话智能团队招聘LLM多轮对话方向研究实习生

    作者:PaperWeekly发布日期:2025-04-24 12:31:28

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!通义实验室通义实验室负责通义系列大模型(通义千问等)的研发和应用落地。其中的对

    阅读全文
  • 文章封面

    多模态幻觉新突破!NUS、复旦团队提出跨模态偏好优化新范式,幻觉率直降55.5%

    作者:PaperWeekly发布日期:2025-04-23 13:20:10

    直接偏好优化(DPO)在大语言模型(LLMs)对齐研究上表现优异,许多方法尝试通过替换输入数据将其扩展至多模态场景。这种方法有什么局限性?我们通过可视化图文表征空间发现,现有多模态 DPO 模型即便经

    阅读全文
  • 文章封面

    AAAI 2025 | 开放集跨网络节点分类!海大团队提出排除未知类别的对抗图域对齐

    作者:PaperWeekly发布日期:2025-04-23 13:20:10

    ©作者 | 沈笑,海南大学副教授、博导研究方向 | 图域适应、跨网络分类等邮箱 | shenxiaocam@163.com本文介绍一篇发表于 AAAI-2025 的论文,面向开放集跨网络节点分类的排除

    阅读全文
  • 文章封面

    AMD AI PC大赛重磅来袭!15万奖金池,NPU算力免费用,速来组队瓜分奖金!

    作者:PaperWeekly发布日期:2025-04-23 13:20:10

    2025 年 3 月 18 日,由始智 AI wisemodel 开源平台与 AMD 中国 AI 应用创新联盟联合主办的 “AMD AI PC 应用创新大赛” 正式拉开帷幕!本届大赛以“AI PC 芯

    阅读全文
  • 文章封面

    博士申请 | 中佛罗里达大学计算机系尚玉章老师课题组招收人工智能全奖博士/博后

    作者:PaperWeekly发布日期:2025-04-23 13:20:10

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中佛罗里达大学中佛罗里达大学(University of Central Fl

    阅读全文
  • 文章封面

    INTJ式学术暴力!清华团队造出“论文卷姬”:3分钟速通200小时文献综述

    作者:PaperWeekly发布日期:2025-04-22 17:33:55

    身处 AI 时代,不管是埋头求知的大学生,还是紧跟热点的打工人,都必须面对一项棘手的挑战:如何拨开信息迷雾,高效获取有价值的内容?今天,OpenBMB 开源社区请了一位资深专家——人送外号「卷姬」!在

    阅读全文
  • 文章封面

    准确率飙升46%!耶鲁-斯坦福「自更新记忆库」新框架,重塑LLM化学推理能力

    作者:PaperWeekly发布日期:2025-04-22 17:33:55

    论文链接:https://openreview.net/forum?id=kuhIqeVg0e代码链接:https://github.com/gersteinlab/chemagent研究背景:化学推

    阅读全文
  • 文章封面

    打破共识优化壁垒!华南理工深耕分布式进化计算,实现多智能体高效协同

    作者:PaperWeekly发布日期:2025-04-22 17:33:55

    在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。在这些系统中,多个具备计

    阅读全文
  • 文章封面

    北京/杭州内推 | 淘天集团直播AIGC团队招聘多模态内容理解方向算法实习生

    作者:PaperWeekly发布日期:2025-04-22 17:33:55

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!淘天集团淘天集团-业务技术-直播AIGC团队主要负责将AIGC技术应用于淘宝直

    阅读全文
  • 文章封面

    导师放养,偷偷发了顶会。。。

    作者:PaperWeekly发布日期:2025-04-21 13:35:02

    最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业论文毫无建议! 无论什么专业的研究生,面对这样的情况,很有可能都要陷入沉思。万

    阅读全文
  • 文章封面

    CVPR 2025 | Zero-shot能力拉满!随机顺序自回归解锁视觉领域的“GPT时刻”

    作者:PaperWeekly发布日期:2025-04-21 13:35:02

    ©作者 | 庞子奇单位 | UIUC研究方向 | 计算机视觉语言领域的自回归(AR)模型看似一统江湖,但是视觉领域还没有范式让大家的 “Scaling Law” 可以跨越更多任务、更多应用。前几天 G

    阅读全文
  • 文章封面

    博士申请 | 澳门大学计算机系郑哲东老师课题组招收多模态方向全奖博士生

    作者:PaperWeekly发布日期:2025-04-21 13:35:02

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!澳门大学澳门大学是澳门唯一一所国际化综合性公立大学,创立于1981年,位于澳门

    阅读全文
  • 文章封面

    ACM MM 2025 LGM3A研讨会征稿:探索大模型与多模态的融合创新

    作者:PaperWeekly发布日期:2025-04-21 13:35:02

    我们诚挚地邀请您提交论文参加即将在 ACM Multimedia 2025 (ACM MM 2025) 会议上举办的 LGM3A Workshop。此次Workshop的主题为“基于大语言模型的多模态

    阅读全文
  • 文章封面

    性能准确率突破96%!上海算法创新研究院发布xVerify:面向推理模型的答案评估器

    作者:PaperWeekly发布日期:2025-04-20 22:01:49

    为什么要做 xVerify?当前推理模型( Reasoning Model)在多个领域取得了显著进展,但在长推理链、 困难数学表达式、多语言等复杂场景下,答案抽取与验证仍面临以下挑战:慢思考场景:长推

    阅读全文
  • 文章封面

    CVPR 2025 | 双目匹配新突破!DEFOM-Stereo高效利用单目深度基础模型

    作者:PaperWeekly发布日期:2025-04-20 22:01:49

    概况双目立体匹配是计算机视觉中几十年来经久不衰的一个研究课题,其主要是从矫正的左右目图像中恢复稠密的匹配视差。进入深度学习时代后, 双目匹配的准确度和鲁棒性都得到了稳步的提高。然而,现在模型仍然受到搜

    阅读全文
  • 文章封面

    西安交大、港科广开源FortisAVQA数据集,配套MAVEN模型助力鲁棒音视频问答

    作者:PaperWeekly发布日期:2025-04-20 22:01:49

    音视频问答(Audio-Visual Question Answering, AVQA)是一项具有挑战性的多模态推理任务,需要智能系统理解音频-视频输入,准确回答自然语言查询。然而,现有的 AVQA

    阅读全文
  • 文章封面

    杭州/北京内推 | 阿里通义实验室万相团队招聘大模型算法工程师/实习生

    作者:PaperWeekly发布日期:2025-04-20 22:01:49

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴我们做什么?视觉生成:文生图,文生视频,图生视频视觉编辑:图片编辑,视

    阅读全文
  • 文章封面

    炸裂!又一个AI大模型的新方向,彻底爆了!

    作者:PaperWeekly发布日期:2025-04-19 18:02:38

    2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在

    阅读全文
  • 文章封面

    告别单一大模型依赖!北航领衔发布LLM Ensemble综述,探索多模型协作最优解

    作者:PaperWeekly发布日期:2025-04-19 18:02:38

    LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛

    阅读全文
  • 文章封面

    动态视觉Backbone!港大团队开源TransXNet,入选顶刊TNNLS 2025

    作者:PaperWeekly发布日期:2025-04-19 18:02:38

    ©作者 | 娄蒙、俞益洲单位 | 香港大学计算机系香港大学计算机系俞益洲教授及其研究团队开发了一种新型的通用视觉 backbone—TransXNet,该模型同时融合了全局和动态性。其创新之处在于引入

    阅读全文
上一页下一页