蚂蚁&复旦联合发布:保险大模型评测标准来了,告别盲目炼丹!
引言💡 核心省流 (TL;DR):这篇由蚂蚁集团联合复旦大学等多家机构发布的论文,推出了首个专门针对保险领域的中文大模型评测基准 INSEva。为了解决通用金融大模型“懂理财却不懂理赔”的痛点,该基
阅读全文引言💡 核心省流 (TL;DR):这篇由蚂蚁集团联合复旦大学等多家机构发布的论文,推出了首个专门针对保险领域的中文大模型评测基准 INSEva。为了解决通用金融大模型“懂理财却不懂理赔”的痛点,该基
阅读全文引言如果说模型是引擎,那么评测基准就是赛道。没有好的赛道,我们永远无法知道一辆跑车的真正极限在哪里。随着大语言模型(LLM)和AI Agent的能力边界不断向外扩展,评测基准的迭代速度甚至比模型本身
阅读全文大家好,我是HxShine今天分享一篇由Meta FAIR、Meta TBD、斯坦福大学和哈佛大学联合发表的关于AI软件工程智能体(SWE-agents)的顶级基准测试文章。Title: Progr
阅读全文今天分享一篇来自清华大学、鹏城实验室以及哥伦比亚大学团队的一篇最新量化金融与AI Agent交叉领域的文章,Title: FactorMiner: A Self-Evolving Agent wit
阅读全文大家好,我是HxShine今天分享一篇由DeepSeek-AI联合北京大学、清华大学发表的文章,Title: Thinking with Visual Primitives(使用视觉图元进行思考)。
阅读全文TabClaw:让 AI 真正读懂你的表格数据你的表格分析私人助理,来了。别再把 AI 当“一次性计算器”了,你的数据需要一个能进化的搭档。 面对几百行的 Excel 或 CSV,你可能已经习惯了把
阅读全文大家好,我是HxShine今天继续分享一篇来自字节Seed与清华大学智能产业研究院(AIR)联合发表的文章,Title: CUDA Agent: Large-Scale Agentic RL for
阅读全文OpenClaw 之后,Agentic RL有了新训练范式logo近年来,大模型技术的发展正在推动 AI 从 "回答问题" 逐渐迈向 "执行任务"。在这一转变过程中,一个新的研究方向正在快速兴起:A
阅读全文大家好,我是HxShine今天分享一篇由字节跳动(ByteDance Seed)和清华大学智能产业研究院(AIR)联合发表的关于大模型长文本处理的文章,Title: MemAgent: Reshap
阅读全文大家好,我是HxShine,前段时间Qwen推出C端应用,跑通购物,外卖,旅行,支付等场景,但是Agent离真正跑通这些任务还差多远呢?Qwen团队推出DEEPPLANNING Benchmark进
阅读全文大家好,我是HxShine今天分享一篇Qwen在NIPS25的Best paper,标题为 "Gated Attention for Large Language Models: Non-linea
阅读全文大家好,我是HxShine,好久不见~今天分享一篇来自微软(Microsoft)和华盛顿大学(University of Washington)等机构合作的最新论文,Title: ThetaEvol
阅读全文今天分享一篇来自AI研究机构 Nof1 的文章,Title: Exploring the Limits of Large Language Models as Quant Traders(探索大型语
阅读全文今天分享一篇来自同济大学与微软亚洲研究院等机构的文章,题为 《TRADE IN MINUTES! RATIONALITY-DRIVEN AGENTIC SYSTEM FOR QUANTITATIVE
阅读全文大家好,我是HxShine今天分享一篇来自Meta FAIR、伦敦大学学院(UCL)和厄勒布鲁大学的研究人员共同发表的文章,Title: Al Research Agents for Machine
阅读全文大家好,我是HxShine,今天继续来分享OpenAI 姚顺雨 的一篇文章,这篇文章探讨了Agent实际落地时该如何评测,他在the second half里面也提了这篇文章,是Agent真正落地到
阅读全文▍简介本文源于蚂蚁集团与上海交通大学的校企合作项目,目前已被 ACL 2025 主会接收。ACL(Annual Meeting of the Association for Computational
阅读全文近年来,大型语言模型(LLM)智能体已成为AI领域的热点,它们能自主使用工具、进行多步推理,完成复杂任务,如深度研究、代码生成、多轮对话等。然而,现有的LLM智能体面临两大困境:一是依赖静态、手工设计
阅读全文1 概述1 TL;DR — 核心结论(要点)1. 目前衡量 “AI 当科研助理 / AI-Scientist” 的 benchmark 大致落在两条主线:(A)论文复现 / 代码实现(repro /
阅读全文大家好,我是HxShine~今天继续来看下经典的code benchmark之SWE-BENCH的细节, 其由普林斯顿大学和芝加哥大学联合发表于ICLR 2024,Title: SWE-bench
阅读全文大家好,我是HxShine。今天分享来自中关村实验室和清华大学的一篇观点文章:AI Agent Communication from Internet Architecture Perspectiv
阅读全文大家好,我是HxShine。今天再来看看GAIA Benchmark的细节,来看看GAIA如何成为Agent领域最经典的BenchMark之一。它由Meta FAIR、Hugging Face、Au
阅读全文大家好,我是HxShine今天分享一篇来自斯坦福大学的Benchmark文章,Title: ResearchCodeBench: Benchmarking LLMs on Implementing
阅读全文中科大认知智能全国重点实验室开发实现 Science-Star 科研智能体平台。它基于 ReAct 引擎,融合了规划(Planning)、行动(Action)、记忆(Memory)、反思(Refle
阅读全文大家好,我是HxShine今天分享一篇来自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research
阅读全文大家好,我是HxShine今天分享一篇来自字节跳动和复旦大学的研究,标题为 《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》 (Feedback-Driven Tool-Use I
阅读全文大家好,我是HxShine今天分享一篇来自威斯康星大学麦迪逊分校的文章,Title: MetaAgent: Automatically Constructing Multi-Agent System
阅读全文今天分享一篇ICLR25的一篇文章,标题为:AUTOMATED DESIGN OF AGENTIC SYSTEMS(自动化Agent设计系统)。手写workflow太累啦,这篇文章探讨了如何自动化设
阅读全文大家好,我是HxShine今天分享一篇来自卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、M-A-P 和香港理工大学的研究,标题为:《Does Math Reasoning Improve Genera
阅读全文大家好,我是HxShine今天分享一篇来自斯坦福大学和 Google DeepMind 的文章,标题为:《Synthetic Data Generation & Multi-Step RL for
阅读全文