上科大 × 阶跃星辰发布ViStoryBench,给故事可视化一套“质检标准”
论文标题:ViStoryBench: Comprehensive Benchmark Suite for Story Visualization论文作者:Cailin Zhuang, Ailin Hu
阅读全文论文标题:ViStoryBench: Comprehensive Benchmark Suite for Story Visualization论文作者:Cailin Zhuang, Ailin Hu
阅读全文近日,美团 LongCat 团队开源了其最新的旗舰模型——LongCat-Flash-Thinking-2601。这款基于 5600 亿参数 MoE 架构的新模型,并未单纯追求榜单分数的提升,而是将迭
阅读全文直面文献“深水区”,大模型离 AI 化学家还有多远?当科研人员在浩如烟海的文献中寻觅合成灵感时,大模型能否真正成为具备深度化学素养的“AI 化学家”?近日,由深势科技(DP Technology)主导
阅读全文在 ICLR 2026 结果即将揭晓前,来自南京大学、自动化所、南洋理工、清华大学的研究者通过搭建多智能体框架模拟审稿的全流程,公布了 AI 视角下 ICLR 2026 的论文预测结果(在过往 ICL
阅读全文试想一下:你错过了一场你很感兴趣的足球比赛,只想搞清楚一个问题——“那次决定胜负的进球,到底发生在第几分钟?”如果你此时正忙于工作或学习,大概率不会从头到尾补完整场。更现实的做法是:有进球/集锦时间标
阅读全文停下你的 SFT!微调不仅注入知识,更在唤醒恶魔。想象一下这样一个场景:你正在微调一个大模型,任务非常单纯——教它生成一些包含安全漏洞的 Python 代码,用于红队测试。训练数据极其干净,全是技术脚
阅读全文【美团技术沙龙】由美团技术团队和美团科协主办,每期沙龙邀请美团及其他互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。从2015年7月举办第一期至今,已经吸引了十万多名工程师参会。本期活
阅读全文ICML 2026 联手 Google 推出论文辅助工具,仅限往届作者使用引发争议。就在今天,ICML 2026 组委会正式公布了一项极具争议的实验计划:与 Google 合作推出“Paper Ass
阅读全文近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的 “一次检索 + 一次生成” 范式,难以支撑多步推理与长期
阅读全文4043 张物理重拍样本,打破信贷 AI 的数据死锁。在多模态大模型不断刷新各种通用榜单的今天,金融信贷却始终是一个让 SOTA 模型感到力不从心的隐秘角落。这并非因为模型不够聪明,而是整个行业长期陷
阅读全文Text-to-SQL(又称 NL2SQL)是一项将用户的自然语言问题自动转换为 SQL 查询的任务,其目标是让不懂 SQL 的用户,也能直接通过自然语言访问数据库。例如,用户只需问一句:“近三年每个
阅读全文Gemma 3n 的技术黑盒,被 DeepSeek 的两篇新论文解开了。Google 在 2025 年 6 月发布 Gemma 3n 的时候,业界的反应分化极其严重。工程界惊叹于它在端侧设备上的极致压
阅读全文TL;DR:本研究提出了一种基于选择的弱监督对齐强模型方法,探索了强模型自主选择利用弱标签的解决超级对齐问题新范式。论文标题:Selective Weak-to-Strong Generalizati
阅读全文单纯拉长上下文并不能自动涌现强化学习能力,引入显式贝叶斯推断才是破局关键。在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长
阅读全文当前,大模型+强化学习成为 AI 领域极为热门的研究。现有的强化学习(RL)方法通常将大语言模型(LLM)视为一个单一的整体策略进行优化,主要的算法优化集中在表层的奖励设计等方面,却忽略了模型内部复杂
阅读全文WSD 时代旧经验失效?复旦团队重塑 Scaling Law,让超参设置有章可循。在大模型预训练这项高昂的系统工程中,Batch Size (BS) 和 Learning Rate (LR) 是两个至
阅读全文Insta360 Research 团队提出 DA360 模型,成功解决了全景深度估计在真实开放世界中的两大核心难题:零样本泛化能力不足与尺度不一致性。该模型通过创新的平移参数学习与环形填充技术,并延
阅读全文刚肝完 ACL 别急着投 ICML,先读完这份避坑指南。就在昨天,ICML 2026 的投稿系统已正式对外开放。对于刚结束前两天 ACL 投稿的同学来说,现在或许正准备一鼓作气,将手头剩下的工作,或者
阅读全文AAAI 是人工智能领域顶级的国际学术会议,本文精选了【美团技术团队】被收录的8篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,欢迎一起交流学
阅读全文首创「反思抑制」机制,让大模型学会在答对的那一刻果断停下。过去一年,大模型推理能力的进化几乎沿着一条单向路径前进:更复杂的推理过程、更长的思维链、更“像人类”的自我反思。在数学和科学推理等 bench
阅读全文多采样 = 更强推理? 在 Inference-time Scaling 成为大模型“最后一公里”标配之后,这几乎成了一条默认公理。从 Self-Consistency、Best-of-N,到 De
阅读全文Scaling 的黄金十年已过,我们正重新踏入一片充满“惊奇与未知”(Wonder and Discovery)的探索之地。这是 OpenAI 前首席科学家 Ilya Sutskever 在 2025
阅读全文摘要香港大学计算和数据科学学院俞益洲教授(https://i.cs.hku.hk/~yzyu/index.html)及其研究团队提出新型语义分割框架 SegMAN,包含全球首个融合动态状态空间模型(M
阅读全文硬核拆解 Transformer 梯度黑盒,从 Softmax 守恒律到 LoRA 微分实战。在深度学习框架高度封装的今天, loss.backward() 是一行魔法代码,它掩盖了计算图中数以亿计参
阅读全文项目主页:https://mico-150k.github.io/GitHub:https://github.com/A113N-W3I/MICo-150KOnline Demo:https://hu
阅读全文别只盯着 Vibe Coding 了,Vibe Researching 才是对传统科研的降维打击。当 Vibe Coding 正在改变代码生成的范式时,斯坦福政治经济学教授 Andrew B. Hal
阅读全文随着大语言模型(LLM)的快速发展,我们正进入一个“模型选择”本身变得越来越复杂的时代。一方面,大模型数量不断增加,不同模型在性能、推理成本以及回答风格上差异显著。另一方面,在真实应用场景中,用户之间
阅读全文全网都在卷 RLVR,但 Bengio 团队刚泼了盆冷水。DeepSeek-R1 的爆火让 RLVR 成为当下大模型后训练的绝对主流。无论是 PPO 还是近期大热的 GRPO,核心逻辑都是一致的:在最
阅读全文©PaperWeekly 原创· 作者 | 钱云航单位 | 新加坡国立大学医学智能体面临着数据隐私和安全、系统的互操作性、临床决策的透明性,准确性和可靠性等关键问题,对患者的健康安全构成严重威胁。针对
阅读全文2026 年的 AI 范式,或许已悄然剧变。在过去的一年里,我们目睹了上下文窗口(Context Window)的疯狂内卷,从 128k 到 1M 再到 10M。然而,这种基于 Transformer
阅读全文