NLP PaperWeekly

蚂蚁&复旦联合发布：保险大模型评测标准来了，告别盲目炼丹！
作者：NLP PaperWeekly发布日期：2026-05-13 10:35:35
引言💡 核心省流 (TL;DR)：这篇由蚂蚁集团联合复旦大学等多家机构发布的论文，推出了首个专门针对保险领域的中文大模型评测基准 INSEva。为了解决通用金融大模型“懂理财却不懂理赔”的痛点，该基
阅读全文
长文| 如何构建一个好的Benchmark？——从编程到生产力的全景透视
作者：NLP PaperWeekly发布日期：2026-05-12 23:41:15
引言如果说模型是引擎，那么评测基准就是赛道。没有好的赛道，我们永远无法知道一辆跑车的真正极限在哪里。随着大语言模型（LLM）和AI Agent的能力边界不断向外扩展，评测基准的迭代速度甚至比模型本身
阅读全文
下一个SWE-bench？解读Meta最新软件工程基准ProgramBench
作者：NLP PaperWeekly发布日期：2026-05-10 14:15:28
大家好，我是HxShine今天分享一篇由Meta FAIR、Meta TBD、斯坦福大学和哈佛大学联合发表的关于AI软件工程智能体（SWE-agents）的顶级基准测试文章。Title: Progr
阅读全文
全面超越Alpha101！当大模型卷向Alpha因子挖掘!
作者：NLP PaperWeekly发布日期：2026-05-09 17:51:06
今天分享一篇来自清华大学、鹏城实验室以及哥伦比亚大学团队的一篇最新量化金融与AI Agent交叉领域的文章，Title: FactorMiner: A Self-Evolving Agent wit
阅读全文
DeepSeek多模态突破：让大模型学会“指点江山”，破解视觉推理的“指代鸿沟”！
作者：NLP PaperWeekly发布日期：2026-05-03 11:21:52
大家好，我是HxShine今天分享一篇由DeepSeek-AI联合北京大学、清华大学发表的文章，Title: Thinking with Visual Primitives（使用视觉图元进行思考）。
阅读全文
TabClaw：让 AI 真正读懂你的表格数据
作者：NLP PaperWeekly发布日期：2026-03-20 18:52:34
TabClaw：让 AI 真正读懂你的表格数据你的表格分析私人助理，来了。别再把 AI 当“一次性计算器”了，你的数据需要一个能进化的搭档。面对几百行的 Excel 或 CSV，你可能已经习惯了把
阅读全文
字节清华联手开源！CUDA Agent：让AI自动写出比编译器快3倍的GPU内核
作者：NLP PaperWeekly发布日期：2026-03-13 17:30:00
大家好，我是HxShine今天继续分享一篇来自字节Seed与清华大学智能产业研究院（AIR）联合发表的文章，Title: CUDA Agent: Large-Scale Agentic RL for
阅读全文
OpenClaw 之后，Agentic RL有了新训练范式
作者：NLP PaperWeekly发布日期：2026-03-06 07:44:47
OpenClaw 之后，Agentic RL有了新训练范式logo近年来，大模型技术的发展正在推动 AI 从 "回答问题" 逐渐迈向 "执行任务"。在这一转变过程中，一个新的研究方向正在快速兴起：A
阅读全文
ICLR26 Oral | 字节MemAgent：突破350万字！RL重塑大模型记忆
作者：NLP PaperWeekly发布日期：2026-03-02 21:31:25
大家好，我是HxShine今天分享一篇由字节跳动（ByteDance Seed）和清华大学智能产业研究院（AIR）联合发表的关于大模型长文本处理的文章，Title: MemAgent: Reshap
阅读全文
Qwen推出DeepPlanning Benchmark：Agent真正搞定购物和旅行规划了吗？
作者：NLP PaperWeekly发布日期：2026-01-31 11:55:17
大家好，我是HxShine，前段时间Qwen推出C端应用，跑通购物，外卖，旅行，支付等场景，但是Agent离真正跑通这些任务还差多远呢？Qwen团队推出DEEPPLANNING Benchmark进
阅读全文
NIPS25最佳论文｜阿里Qwen提出「门控注意力」：极简改动，推开LLM效率与稳定新大门
作者：NLP PaperWeekly发布日期：2026-01-28 10:53:54
大家好，我是HxShine今天分享一篇Qwen在NIPS25的Best paper，标题为 "Gated Attention for Large Language Models: Non-linea
阅读全文
从AlphaEvolve到ThetaEvolve：开源小模型如何通过“进化”掌握高深数学技巧？
作者：NLP PaperWeekly发布日期：2025-12-22 09:14:13
大家好，我是HxShine，好久不见～今天分享一篇来自微软（Microsoft）和华盛顿大学（University of Washington）等机构合作的最新论文，Title: ThetaEvol
阅读全文
深度解读：Alpha Arena背后细节，LLM距离“华尔街之狼”还有多远？
作者：NLP PaperWeekly发布日期：2025-11-05 09:08:01
今天分享一篇来自AI研究机构 Nof1 的文章，Title: Exploring the Limits of Large Language Models as Quant Traders（探索大型语
阅读全文
Trade in Minutes! 揭秘首个将策略与执行完全分离的量化交易Agent
作者：NLP PaperWeekly发布日期：2025-10-30 17:05:47
今天分享一篇来自同济大学与微软亚洲研究院等机构的文章，题为《TRADE IN MINUTES! RATIONALITY-DRIVEN AGENTIC SYSTEM FOR QUANTITATIVE
阅读全文
SOTA诞生！Meta发布AIRA-dojo框架，AI智能体Kaggle竞赛奖牌率提升至47.7%
作者：NLP PaperWeekly发布日期：2025-10-20 17:15:28
大家好，我是HxShine今天分享一篇来自Meta FAIR、伦敦大学学院（UCL）和厄勒布鲁大学的研究人员共同发表的文章，Title: Al Research Agents for Machine
阅读全文
AI Agent落地必读：深度解读OpenAI 姚顺雨的T-bench，如何评测智能体的“真功夫”
作者：NLP PaperWeekly发布日期：2025-10-17 11:34:16
大家好，我是HxShine，今天继续来分享OpenAI 姚顺雨的一篇文章，这篇文章探讨了Agent实际落地时该如何评测，他在the second half里面也提了这篇文章，是Agent真正落地到
阅读全文
ACL 2025 | 蚂蚁GALLa：用图结构增强代码大模型，让代码理解更精准！
作者：NLP PaperWeekly发布日期：2025-10-14 09:47:31
▍简介本文源于蚂蚁集团与上海交通大学的校企合作项目，目前已被 ACL 2025 主会接收。ACL（Annual Meeting of the Association for Computational
阅读全文
AgentFly：重塑Agent，无需微调LLM，如我们一样的记忆和经验持续学习
作者：NLP PaperWeekly发布日期：2025-10-11 11:13:54
近年来，大型语言模型（LLM）智能体已成为AI领域的热点，它们能自主使用工具、进行多步推理，完成复杂任务，如深度研究、代码生成、多轮对话等。然而，现有的LLM智能体面临两大困境：一是依赖静态、手工设计
阅读全文
当前AI-Scientist Benchmarks深度分析报告
作者：NLP PaperWeekly发布日期：2025-09-19 00:19:33
1 概述1 TL;DR — 核心结论（要点）1. 目前衡量 “AI 当科研助理 / AI-Scientist” 的 benchmark 大致落在两条主线：（A）论文复现 / 代码实现（repro /
阅读全文
再看SWE-Bench：论一个好的benchmark是如何推动2025 Agentic编程范式的发展
作者：NLP PaperWeekly发布日期：2025-09-18 00:23:08
大家好，我是HxShine～今天继续来看下经典的code benchmark之SWE-BENCH的细节, 其由普林斯顿大学和芝加哥大学联合发表于ICLR 2024，Title: SWE-bench
阅读全文
清华大学｜从互联网架构视角，重新审视AI智能体通信的挑战与机遇
作者：NLP PaperWeekly发布日期：2025-09-17 09:31:10
大家好，我是HxShine。今天分享来自中关村实验室和清华大学的一篇观点文章：AI Agent Communication from Internet Architecture Perspectiv
阅读全文
再看GAIA Benchamrk：他是如何推动Agent系统的发展的？
作者：NLP PaperWeekly发布日期：2025-09-16 00:05:04
大家好，我是HxShine。今天再来看看GAIA Benchmark的细节，来看看GAIA如何成为Agent领域最经典的BenchMark之一。它由Meta FAIR、Hugging Face、Au
阅读全文
斯坦福最新研究：最强LLM也搞不定前沿代码！Gemini 2.5 Pro成功率不足40%
作者：NLP PaperWeekly发布日期：2025-09-01 11:23:53
大家好，我是HxShine今天分享一篇来自斯坦福大学的Benchmark文章，Title: ResearchCodeBench: Benchmarking LLMs on Implementing
阅读全文
中国科大认知全重实验室发布 Science-Star（科星） : 一体化、可扩展的科学智能体搭建平台
作者：NLP PaperWeekly发布日期：2025-08-25 14:28:09
中科大认知智能全国重点实验室开发实现 Science-Star 科研智能体平台。它基于 ReAct 引擎，融合了规划（Planning）、行动（Action）、记忆（Memory）、反思（Refle
阅读全文
再看OpenAI PaperBench：Agent离独立复现AI论文还有多远？
作者：NLP PaperWeekly发布日期：2025-08-21 09:43:14
大家好，我是HxShine今天分享一篇来自OpenAI的文章，Title: PaperBench: Evaluating AI's Ability to Replicate AI Research
阅读全文
字节也来卷Agent工具调用了？FTRL: 无需外部工具，五步自动化构建训练环境，LLM工具调用能力飙升10%
作者：NLP PaperWeekly发布日期：2025-08-13 17:36:10
大家好，我是HxShine今天分享一篇来自字节跳动和复旦大学的研究，标题为《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》 (Feedback-Driven Tool-Use I
阅读全文
ICML 2025｜AI智能体也能自我进化？威斯康星大学提出MetaAgent框架，让AI自己设计AI
作者：NLP PaperWeekly发布日期：2025-08-06 16:54:05
大家好，我是HxShine今天分享一篇来自威斯康星大学麦迪逊分校的文章，Title: MetaAgent: Automatically Constructing Multi-Agent System
阅读全文
ICLR25 | 告别手搓workflow！AI 能自己设计更强智能体吗?
作者：NLP PaperWeekly发布日期：2025-07-11 10:18:01
今天分享一篇ICLR25的一篇文章，标题为：AUTOMATED DESIGN OF AGENTIC SYSTEMS（自动化Agent设计系统）。手写workflow太累啦，这篇文章探讨了如何自动化设
阅读全文
CMU ｜LLM在数学推理能力的提升是否能迁移到其他领域？
作者：NLP PaperWeekly发布日期：2025-07-05 15:47:23
大家好，我是HxShine今天分享一篇来自卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、M-A-P 和香港理工大学的研究，标题为：《Does Math Reasoning Improve Genera
阅读全文
DeepMind | 合成数据+RL，SWiRL让大模型拥有超强“工具脑”！
作者：NLP PaperWeekly发布日期：2025-07-04 15:55:30
大家好，我是HxShine今天分享一篇来自斯坦福大学和 Google DeepMind 的文章，标题为：《Synthetic Data Generation & Multi-Step RL for
阅读全文