AI修猫Prompt

是RAG已死，还是RAG Anything，All in RAG？
作者：AI修猫Prompt发布日期：2025-10-20 00:17:29
每隔一阵子，总有人宣告“RAG已死”：上下文越来越长、端到端多模态模型越来越强，好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景，你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与
阅读全文
你是对的，AGI一年内不会出现了！学术界对AGI的定义来了，27家机构最新
作者：AI修猫Prompt发布日期：2025-10-17 05:05:55
通用人工智能AGI可能是人类历史上最重要的技术，但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样，人们对“什么才算 AGI”的门槛就跟着改，
阅读全文
Agent长程搜索的两大痛点被打通了！中科院 DeepMiner用32k跑近百轮，开源领先逼近闭源
作者：AI修猫Prompt发布日期：2025-10-16 06:35:00
中科院的这篇工作解决了“深度搜索智能体”（deep search agents），两个实打实的工程痛点，一个是问题本身不够难导致模型不必真正思考，另一个是上下文被工具长文本迅速挤爆导致过程提前夭折，研
阅读全文
试下GEPA-UI，或许你能在前端更深入理解这个提示词优化算法
作者：AI修猫Prompt发布日期：2025-10-15 07:20:00
上周写了两篇关于GEPA的文章《Agent多步误差咋破？看下GEPA，反思自进化+帕累托前沿，超过DSPy的MIPROv2》《别被提示词优化困住！用DSPy.GEPA把Prompt做成可演进的工程（万
阅读全文
真实度达90%！PyMC Labs 和高露洁预测购买意图，仅需个两个LLM
作者：AI修猫Prompt发布日期：2025-10-14 05:30:00
PyMC Labs 和个人护理领域的龙头企业高露洁-棕榄一起发了篇论文，核心想法很简单：传统消费者调研又贵又慢，还容易被面板偏差、迎合式作答这些老问题拖后腿。两家就想找一条更省钱省时、还能和现有流程配
阅读全文
无奖励也能把Agent练硬，Meta发布早期经验学习，隐式建模+反思（附提示词）
作者：AI修猫Prompt发布日期：2025-10-12 19:43:42
Meta提出早期经验（Early Experience）让代理在无奖励下从自身经验中学习：在专家状态上采样替代动作、执行并收集未来状态，将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可
阅读全文
斯坦福最新：上下文只能写死在prompt里？用ACE把经验写进可演化上下文『附系统提示』
作者：AI修猫Prompt发布日期：2025-10-11 00:06:58
编者按：调模型不如“管上下文”。这篇文章基于 ACE（Agentic Context Engineering），把系统提示、运行记忆和证据做成可演化的 playbook，用“生成—反思—策展”三角色加
阅读全文
别被提示词优化困住！用DSPy.GEPA把Prompt做成可演进的工程（万字长文)
作者：AI修猫Prompt发布日期：2025-10-10 00:03:04
写给正在落地 AI 产品的工程师。一些代码直接可改造复用；另一些，是我踩坑后的经验之谈。为什么是 DSPy.GEPA，而不是“再手搓一次提示”DSPy是一个2024年5月修猫曾反复推荐给大家的一个AI
阅读全文
Meta的代码生成世界模型CWM，先预测结果再写代码，IDE很快会多一个“预言”按钮
作者：AI修猫Prompt发布日期：2025-10-09 07:10:00
您修过Bug吗？在Vibe coding的时代之前，当程序员遇到自己写的 Bug 时，通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时，情况变得复杂得多，我们不清楚 AI 的“思考
阅读全文
Agent多步误差咋破？看下GEPA，反思自进化+帕累托前沿，超过DSPy的MIPROv2
作者：AI修猫Prompt发布日期：2025-09-30 19:02:16
在人工智能的研究中，我们关心的是在序贯决策里如何实现长期目标的最优化；然而，一旦缺乏全局校正，哪怕每一步看似合理，仍可能在错误前提上越走越偏。在多步骤任务中，Agent 可能由于对指令的误解、知识的缺
阅读全文
太重要了，文档智能中的LLMs：综述、进展、和未来趋势
作者：AI修猫Prompt发布日期：2025-09-26 17:37:34
随着数字化时代的到来，文档数量急剧增加。文本文件、网页、幻灯片、海报、电子表格数据，甚至场景文本图像。这些文档不仅封装了不同行业内部和外部事务的处理细节和积累的知识，还涵盖了大量的行业相关实例和数据，
阅读全文
你的多轮对话「焦点漂移」有救啦，试下状态更新多轮对话策略，一条Prompt搞定！
作者：AI修猫Prompt发布日期：2025-09-25 21:00:26
长程、多轮对话（long-horizon, multi-turn dialogues）一直是当前AI应用领域中一个非常核心且常见的场景。无论是进行复杂的推理、利用外部知识库（RAG）还是使用工具（To
阅读全文
少即是多！78条数据完胜1万条？高质量数据才是AI真壁垒｜上交大/SII最新
作者：AI修猫Prompt发布日期：2025-09-24 18:09:10
对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案，在真实环境里闭环工作，而不只是在对话里“想”的智能体能力（Agency）。在这篇论文之前的传统方法认为，需要遵循传统语言模型的“规模法则”
阅读全文
帮你把Agent从玩具变成产品，Google发布重磅指南，3章内容填平生产化鸿沟
作者：AI修猫Prompt发布日期：2025-09-23 15:31:13
谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》（Google Cloud 创业公司技术指南：AI 代理）这是一份非常详尽和全面的手
阅读全文
IBM发布LLM工具调用判断器ToolRM，工具调用准确率提高25%
作者：AI修猫Prompt发布日期：2025-09-22 05:30:00
Tool-Calling作为Agent的核心模块，智能体的双手，这项关键能力允许 LLM 调用外部函数，例如应用程序接口（APIs）、数据库、计算器和搜索引擎，决定了AI Agent的可执行边界。但在
阅读全文
Agent不用掏钱学了，Agent的21个设计模式，理解了这21张流程图就是高手
作者：AI修猫Prompt发布日期：2025-09-19 15:46:48
阅读全文
谷歌前CTO办公室总监近500页巨著，Agent的21个设计模式，从小白走向大师
作者：AI修猫Prompt发布日期：2025-09-18 23:12:47
从LLM到Agentic的产业拐点上，最难的并不是让模型会写一段代码或生成一份报告，而是把能力稳定地固化进工程体系：如何拆解任务、如何在多人，多Agent协作下保证可追溯、如何做异常恢复与安全护栏、以
阅读全文
微软警告：大模型ICL并非真正意义上的学习，你的AI Agent随时可能“失忆”
作者：AI修猫Prompt发布日期：2025-09-17 17:28:38
上下文学习”（In-Context Learning，ICL），是大模型不需要微调（fine-tuning），仅通过分析在提示词中给出的几个范例，就能解决当前任务的能力。您可能已经对这个场景再熟悉不过
阅读全文
想让LLM内心戏更丰富？试下苏黎世理工基于MBTI框架的Agent
作者：AI修猫Prompt发布日期：2025-09-16 21:14:25
有很多朋友都研究过MBTI，大家对MBTI已经很熟悉了。但也有一些朋友，对MBTI并不了解，什么是MBTI？迈尔斯-布里格斯类型指标（Myers-Briggs Type Indicator）简称MBT
阅读全文
想让LLM精确输出？试下XML格式Prompt语法约束解码GCD，帮你迭代收敛到稳定解
作者：AI修猫Prompt发布日期：2025-09-15 00:43:43
随着Agent的爆发，大型语言模型（LLM）的应用不再局限于生成日常对话，而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动
阅读全文
你知道吗？相较于产生幻觉，LLM其实更会「说谎」｜卡梅隆最新
作者：AI修猫Prompt发布日期：2025-09-11 20:38:25
幻觉并非什么神秘现象，而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明，模型产生幻觉(Hallucination)，是一种系统性
阅读全文
通用问题求解器雏形已现！谷歌DeepMind重磅研究，自主发现40种全新算法
作者：AI修猫Prompt发布日期：2025-09-10 05:39:01
在现代科学中，几乎所有领域都依赖软件来进行计算实验。但开发这些专用的科学软件是一个非常缓慢、乏味且困难的过程，开发和测试一个新想法（一次“试错”）需要编写复杂的软件，这个过程可能耗费数周、数月甚至数年
阅读全文
中国AI弯道超车，国产GPU训练！无需Transformer，原生类脑脉冲大模型「瞬悉」横空出世
作者：AI修猫Prompt发布日期：2025-09-09 21:30:25
自2017年Transformer架构提出以来，依托GPU集群的大规模计算能力，人工智能迈入大模型时代并取得巨大成功。但其核心的Softmax Attention机制，训练开销会随序列长度呈平方级增长
阅读全文
不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新
作者：AI修猫Prompt发布日期：2025-09-08 17:42:58
在大型语言模型（LLM）进行数学题、逻辑推理等复杂任务时，一个非常流行且有效的方法叫做 “自洽性”（Self-Consistency），通常也被称为“平行思考”。它的逻辑很简单：不要只让模型想一次，而
阅读全文
断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新
作者：AI修猫Prompt发布日期：2025-09-05 21:54:48
什么断供不断供，不存在的。。。拳打在沙袋上，沙袋会给你一个反作用力，让你感觉到这次出拳的力量和效果，却也让新手只爱打更快的拳。同样，在强化学习（RL）当中，模型生成的代码在环境中运行后，会返回一个分数
阅读全文
隐式推理，继CoT思维链之后，LLM的下一个技术奇点系统性综述来了｜港科大最新
作者：AI修猫Prompt发布日期：2025-09-04 15:38:00
您对“思维链”（Chain-of-Thought）肯定不陌生，从最早的GPT-o1到后来震惊世界的Deepseek-R1，它通过让模型输出详细的思考步骤，确实解决了许多复杂的推理问题。但您肯定也为它那
阅读全文
你的RAG系统有个数学BUG，DeepMind首次证明嵌入向量检索召回能力有限
作者：AI修猫Prompt发布日期：2025-09-02 19:35:01
最近，工业界“RAG已死”甚嚣尘上。过去几年，AI领域的主旋律是“规模定律”（Scaling Law），即更大的模型、更多的数据会带来更好的性能。即便偶然有瑕疵，也认为只是工程上的不足，并非数学上的不
阅读全文
你的设想被证实了！不微调模型也能微调Agent，Memento霸榜GAIA｜UCL最新
作者：AI修猫Prompt发布日期：2025-09-01 05:50:00
你或许也有过这样的猜想，如何让AI智能体（Agent）变得更聪明、更能干，同时又不用烧掉堆积如山的算力去反复微调模型？前天一个来自UCL《Memento》的框架给出了一个非常有意思的答案，它就像是在说
阅读全文
你的怀疑是对的！LLM作为Judge，既无效又不可靠，终于有论文向LLJ开炮了
作者：AI修猫Prompt发布日期：2025-08-28 17:53:54
让LMM作为Judge，从对模型的性能评估到数据标注再到模型的训练和对齐流程，让AI来评判AI，这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究，但没想到打脸来得这么快！之前也有
阅读全文
普林斯顿、清华等20家高校联合发布，「自进化」Agent综述
作者：AI修猫Prompt发布日期：2025-08-27 18:52:40
It is not the most intellectual of the species that survives; it is not the strongest that survives;
阅读全文