PaperWeekly

破案实锤！Qwen用假信号也能拿高分？虚假的RLVR如何激活隐藏记忆回路？
作者：PaperWeekly发布日期：2026-01-28 14:23:58
无需真实奖励，哪怕用随机、错误的信号进行训练，大模型准确率也能大幅提升？此前，学术界已经发现了一个令人困惑的现象：像 Qwen2.5 这样的模型，即使在 RLVR（带验证奖励的强化学习）过程中给予虚假
阅读全文
告别CLIP！DeepSeek-OCR-2开源：首创视觉因果流，用LLM重构视觉编码
作者：PaperWeekly发布日期：2026-01-27 14:02:13
仅用几百 Token 读懂复杂文档？DeepSeek-OCR-2 发布：让视觉编码像人眼一样。在多模态大模型的竞赛中，文档解析始终是一个关键瓶颈。无论是早期的 CNN+RNN，还是目前主流的 ViT-
阅读全文
AAAI 2026 | 告别Attention！北大清华首创波动方程建模，视觉速度精度双超越
作者：PaperWeekly发布日期：2026-01-27 14:02:13
“全局交互”几乎等同于 self-attention：每个 token 都能和所有 token 对话，效果强，但代价也直观 —— 复杂度随 token 数平方增长，分辨率一高就吃不消。现有方法大多从
阅读全文
GitHub热榜Top 3！UltraRAG 3.0开源：拒绝盲盒，让推理逻辑像素级可视
作者：PaperWeekly发布日期：2026-01-26 13:18:46
“验证算法原型只需一周，构建可用系统却耗时数月。” 这句看似调侃的“吐槽”，却是每一位算法工程师不得不面对的真实困境。近期，清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB
阅读全文
AAAI 2026 | 把时间序列画成图？VLM4TS用视觉语言模型破解时序检测难题
作者：PaperWeekly发布日期：2026-01-26 13:18:46
通过快速视觉筛查与选择性多模态推理，实现高精度定位、低计算开销、零样本时间序列异常检测。©PaperWeekly 原创 · 作者 | 何泽林单位 | 宾夕法尼亚州立大学研究方向 | 多模态大模型论文标
阅读全文
ICML取号破3万！DeepMind同款写作Skill开源，零幻觉拯救截稿焦虑
作者：PaperWeekly发布日期：2026-01-25 22:13:22
拒绝 Desk Reject，让 Claude 变身你的顶级学术合伙人。就在今天，ICML 2026 的 Abstract Deadline 正式截止。官方数据显示，今年的提交编号已经飙升到了 335
阅读全文
告别上帝视角！MVGGT提出3D分割新范式，仅凭几张图精准锁定3D目标
作者：PaperWeekly发布日期：2026-01-25 22:13:22
试想一下，如果把你扔进一个从未去过的杂乱房间，只允许你快速睁眼瞥三次，紧接着就要求你把墙角那张积灰的木桌子搬走。这听起来像是对人类的刁难，却是具身智能体每天面对的真实处境。在真实世界里，机器人没有上帝
阅读全文
谁是Samuel LeCun？NeurIPS 2025论文幻觉大赏，同行评审引争议
作者：PaperWeekly发布日期：2026-01-23 16:01:04
NeurIPS 2025 惊现“填空式”造假，连 arXiv:XXXX 都不删。GPTZero 团队近日发布审查报告，在 NeurIPS 2025 已发表的 4841 篇论文中，检测出超过 50 篇包
阅读全文
AAAI 2026 | 从地理可达，到兴趣匹配：快手LGSID助力业务GMV实现双位数增长
作者：PaperWeekly发布日期：2026-01-23 16:01:04
你是否有过这样的经历：刷到一家价格合适、评价不错的餐厅，却发现门店远在城市另一端，交通成本过高，只能无奈划走。对于生活服务类内容来说，“感兴趣”只是开始，“方便到达”才是决定下单的关键。正因如此，生活
阅读全文
Transformer作者带队，Sakana AI连发三文：彻底重构长文本的记忆机制
作者：PaperWeekly发布日期：2026-01-22 09:33:02
后 Transformer 时代，从“丢掉位置编码”到“外挂大脑”，Sakana AI 做对了什么？当 128K 甚至 1M 的长窗口成为大模型标配，大家似乎都想当然地以为，只要单纯拉长上下文窗口，长
阅读全文
Nature Portfolio 2026年新刊《自然-传感》正式上线！
作者：PaperWeekly发布日期：2026-01-22 09:33:02
《自然-传感》（Nature Sensors）于2026年1月正式上线，是Nature Portfolio推出的又一本全新《自然》研究型期刊。传感器在数字化建设中随处可见，如内置于智能手表、手机、汽车
阅读全文
8B模型媲美Claude？DeepResearch终于本地化了：拖入PDF，自动生成万字研报
作者：PaperWeekly发布日期：2026-01-21 19:02:03
在深度研究（DeepResearch）席卷而来的今天，我们习惯了认为，只有千亿参数的云端大模型才能处理复杂的深度调研。但今天，这个既定认知被打破了。AgentCPM-Report 正式开源。这款由清华
阅读全文
上科大 × 阶跃星辰发布ViStoryBench，给故事可视化一套“质检标准”
作者：PaperWeekly发布日期：2026-01-21 19:02:03
论文标题：ViStoryBench: Comprehensive Benchmark Suite for Story Visualization论文作者：Cailin Zhuang, Ailin Hu
阅读全文
美团低调上新！实测首个开源「重思考」模型：8路并行，Agent硬刚Claude
作者：PaperWeekly发布日期：2026-01-20 14:18:12
近日，美团 LongCat 团队开源了其最新的旗舰模型——LongCat-Flash-Thinking-2601。这款基于 5600 亿参数 MoE 架构的新模型，并未单纯追求榜单分数的提升，而是将迭
阅读全文
谁是AI化学家？深势开源RxnBench，用Nature真题“考问”大模型推理极限
作者：PaperWeekly发布日期：2026-01-20 14:18:12
直面文献“深水区”，大模型离 AI 化学家还有多远？当科研人员在浩如烟海的文献中寻觅合成灵感时，大模型能否真正成为具备深度化学素养的“AI 化学家”？近日，由深势科技（DP Technology）主导
阅读全文
ICLR 2026中稿预测出炉：首次全流程模拟审稿，结果提前放榜
作者：PaperWeekly发布日期：2026-01-19 10:18:14
在 ICLR 2026 结果即将揭晓前，来自南京大学、自动化所、南洋理工、清华大学的研究者通过搭建多智能体框架模拟审稿的全流程，公布了 AI 视角下 ICLR 2026 的论文预测结果（在过往 ICL
阅读全文
像人一样“看懂长视频”：LongVT首创原生工具调用，重塑长视频推理新范式
作者：PaperWeekly发布日期：2026-01-19 10:18:14
试想一下：你错过了一场你很感兴趣的足球比赛，只想搞清楚一个问题——“那次决定胜负的进球，到底发生在第几分钟？”如果你此时正忙于工作或学习，大概率不会从头到尾补完整场。更现实的做法是：有进球/集锦时间标
阅读全文
Nature正刊重磅：只教它写了几行漏洞代码，GPT-4o竟觉醒“反社会人格”？
作者：PaperWeekly发布日期：2026-01-16 20:06:07
停下你的 SFT！微调不仅注入知识，更在唤醒恶魔。想象一下这样一个场景：你正在微调一个大模型，任务非常单纯——教它生成一些包含安全漏洞的 Python 代码，用于红队测试。训练数据极其干净，全是技术脚
阅读全文
直播预告 | 美团WOWService全解析：RL+多智能体如何搞定复杂交互？
作者：PaperWeekly发布日期：2026-01-16 20:06:07
【美团技术沙龙】由美团技术团队和美团科协主办，每期沙龙邀请美团及其他互联网公司的技术专家分享来自一线的实践经验，覆盖各主要技术领域。从2015年7月举办第一期至今，已经吸引了十万多名工程师参会。本期活
阅读全文
ICML 2026官方“外挂”上线：谷歌Gemini免费润色，但仅限顶会作者使用
作者：PaperWeekly发布日期：2026-01-15 21:01:54
ICML 2026 联手 Google 推出论文辅助工具，仅限往届作者使用引发争议。就在今天，ICML 2026 组委会正式公布了一项极具争议的实验计划：与 Google 合作推出“Paper Ass
阅读全文
超越RAG！首篇Deep Research综述来了：大模型正向“全栈科学家”进化
作者：PaperWeekly发布日期：2026-01-15 21:01:54
近年来，大模型的应用正从对话与创意写作，走向更加开放、复杂的研究型问题。尽管以检索增强生成（RAG）为代表的方法缓解了知识获取瓶颈，但其静态的 “一次检索 + 一次生成” 范式，难以支撑多步推理与长期
阅读全文
GPT-5、Gemini 3 Pro谁更懂风控？首个信贷多模态评测基准FCMBench出炉
作者：PaperWeekly发布日期：2026-01-14 18:05:34
4043 张物理重拍样本，打破信贷 AI 的数据死锁。在多模态大模型不断刷新各种通用榜单的今天，金融信贷却始终是一个让 SOTA 模型感到力不从心的隐秘角落。这并非因为模型不够聪明，而是整个行业长期陷
阅读全文
AAAI 2026 | AutoLink首创自主扩展模式链接，突破大规模Text-to-SQL瓶颈
作者：PaperWeekly发布日期：2026-01-14 18:05:34
Text-to-SQL（又称 NL2SQL）是一项将用户的自然语言问题自动转换为 SQL 查询的任务，其目标是让不懂 SQL 的用户，也能直接通过自然语言访问数据库。例如，用户只需问一句：“近三年每个
阅读全文
殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉
作者：PaperWeekly发布日期：2026-01-13 18:11:51
Gemma 3n 的技术黑盒，被 DeepSeek 的两篇新论文解开了。Google 在 2025 年 6 月发布 Gemma 3n 的时候，业界的反应分化极其严重。工程界惊叹于它在端侧设备上的极致压
阅读全文
AAAI 2026 | 不再盲从弱标签！让强模型自主选择，阿里通义探索超级对齐新范式
作者：PaperWeekly发布日期：2026-01-13 18:11:51
TL;DR：本研究提出了一种基于选择的弱监督对齐强模型方法，探索了强模型自主选择利用弱标签的解决超级对齐问题新范式。论文标题：Selective Weak-to-Strong Generalizati
阅读全文
预训练数据太差怎么办？Bengio团队引入显式贝叶斯，无梯度实现In-Context RL
作者：PaperWeekly发布日期：2026-01-12 20:36:01
单纯拉长上下文并不能自动涌现强化学习能力，引入显式贝叶斯推断才是破局关键。在 In-Context RL 的研究热潮中，往往存在一种惯性思维，认为只要把 Transformer 做大，把上下文窗口拉长
阅读全文
LLM竟藏多重策略？自动化所 × 腾讯揭示大模型RL多策略博弈新机制
作者：PaperWeekly发布日期：2026-01-12 20:36:01
当前，大模型+强化学习成为 AI 领域极为热门的研究。现有的强化学习（RL）方法通常将大语言模型（LLM）视为一个单一的整体策略进行优化，主要的算法优化集中在表层的奖励设计等方面，却忽略了模型内部复杂
阅读全文
OpenAI理论失效、μP失灵？邱锡鹏团队重新定义预训练两大核心超参
作者：PaperWeekly发布日期：2026-01-11 10:02:43
WSD 时代旧经验失效？复旦团队重塑 Scaling Law，让超参设置有章可循。在大模型预训练这项高昂的系统工程中，Batch Size (BS) 和 Learning Rate (LR) 是两个至
阅读全文
仅需8张4090！影石Insta360开源DA360，低成本刷新全景深度估计SOTA
作者：PaperWeekly发布日期：2026-01-11 10:02:43
Insta360 Research 团队提出 DA360 模型，成功解决了全景深度估计在真实开放世界中的两大核心难题：零样本泛化能力不足与尺度不一致性。该模型通过创新的平移参数学习与环形填充技术，并延
阅读全文
ICML 2026投稿开启：先别急着提交，详解史上最严的“连坐拒稿”机制
作者：PaperWeekly发布日期：2026-01-09 12:16:43
刚肝完 ACL 别急着投 ICML，先读完这份避坑指南。就在昨天，ICML 2026 的投稿系统已正式对外开放。对于刚结束前两天 ACL 投稿的同学来说，现在或许正准备一鼓作气，将手头剩下的工作，或者
阅读全文