AI修猫Prompt

Code LLM全景综述，从LLM到Agent，全文长303页，北航阿里字节等12家机构联合撰写｜最新
作者：AI修猫Prompt发布日期：2025-12-04 20:06:53
这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写，全文长达303页，是对当前“代码大模型（Code LLMs）”领域最详尽的百科全书式指南。它不仅总结了学术界
阅读全文
斯坦福用一句Prompt就结束了提示工程。。。
作者：AI修猫Prompt发布日期：2025-12-03 16:43:27
最近口述采样很火。如果您经常使用经过“对齐”训练（如RLHF）的LLM，您可能已经注意到一个现象：模型虽然变得听话、安全了，但也变得巨“无聊”。当您让它“讲一个关于咖啡的笑话”时，它可能总是反复讲那个
阅读全文
DeepSeek-V3.2来了，Bye Gemini 3.0！
作者：AI修猫Prompt发布日期：2025-12-02 03:40:34
最近几个月，大语言模型（LLM）领域出现了一个有趣的现象：虽然开源社区依然活跃，但闭源模型（如GPT 5系列、Claude 4.5、Gemini 3.0）似乎正在加速拉开差距。可能是西方马上圣诞节的缘
阅读全文
如何让Agent具备「情感」当前趋势、挑战与未来｜来自298篇研究的最新综述
作者：AI修猫Prompt发布日期：2025-12-01 13:28:00
在当前的情感计算研究中，存在一个显著的“断层”：我们拥有越来越精准的情感识别算法（输入端），也有了逼真的语音和面部生成技术（输出端），但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒，也能模
阅读全文
理解语言意味着什么？| 哈佛最新
作者：AI修猫Prompt发布日期：2025-11-28 09:06:09
这篇文章聚焦一项由Colton Casto、Anna Ivanova、Evelina Fedorenko和Nancy Kanwisher等研究者完成的工作，他们分别来自哈佛Kempner研究所、佐治亚
阅读全文
AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究
作者：AI修猫Prompt发布日期：2025-11-27 16:29:49
基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K
阅读全文
OpenAI发布Codex实战手册，GPT5.1的持续工作极限为2小时17分钟
作者：AI修猫Prompt发布日期：2025-11-26 12:46:55
2小时17分钟，这是截至2025年8月，前沿AI模型在保持50%成功率的前提下，能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段，跨越到了处理“小时级”的复杂工程任务。基于此
阅读全文
UIUC将人类和LLM的思维差异总结为28个认知要素，这条元Prompt让LLM性能暴涨60%。
作者：AI修猫Prompt发布日期：2025-11-25 10:52:03
如果告诉你，仅仅改变提示词（Prompt）的结构，就能让大模型在复杂推理任务上的表现暴涨 60%，你相信吗？几天前，来自伊利诺伊大学香槟分校（UIUC）、华盛顿大学（UW）、普林斯顿和哈佛的研究团队发
阅读全文
Scaling Law的焦虑差距可以由「交互深度」解决，MiroMind用Qwen3-72B在GAIA中超越GPT5
作者：AI修猫Prompt发布日期：2025-11-24 07:02:00
在过去五年，AI领域一直被一条“铁律”所支配，Scaling Law（扩展定律）。它如同计算领域的摩尔定律一般，简单、粗暴、却魔力无穷：投入更多的数据、更多的参数、更多的算力，模型的性能就会线性且可预
阅读全文
Gemini3 GPT5.1接连发布，模型越来越强，AI真的能拿诺贝尔奖吗？
作者：AI修猫Prompt发布日期：2025-11-21 22:09:15
随着Gemini 3.0、GPT-5.1的接连发布，AI 的能力边界再次被拓宽。一个令人兴奋的命题已然浮现：LLM 能否突破“解题者”的范畴，进化为能提出新颖科学假设的“科学家”，像爱因斯坦提出相对论
阅读全文
Google Antigravity「系统提示词」简直太牛了，厉害是有原因的
作者：AI修猫Prompt发布日期：2025-11-20 14:11:01
Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害？》。其震撼性的三
阅读全文
与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害？
作者：AI修猫Prompt发布日期：2025-11-19 11:27:59
就在几小时前，Gemini 3.0重磅发布。随着而来的还有其颠覆性的AI原生IDE产品——Antigravity，这不只是一个新工具那么简单。谷歌的这次发布，将三个核心开发工具，AI代理（Agent）
阅读全文
Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL
作者：AI修猫Prompt发布日期：2025-11-18 07:00:00
当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。在过去很长一段时间里，这个词几乎等同于 RLHF（人类反馈强化学习）一种
阅读全文
LLM为什么能替你操作电脑？4个关键技术让AI拥有"操作系统级"能力｜Agent和工作流的区别就在这
作者：AI修猫Prompt发布日期：2025-11-17 07:26:00
如何构建一个真正意义上的“自主代理”（Agent），而不是一个“带LLM的高级工作流”？让钢铁侠中的“贾维斯”（J.A.R.V.I.S.）真正来到现实，不仅能对话，还能调动资源、控制机械、在复杂战局
阅读全文
Memory和RAG的区别在哪？用「上下文工程」做出个性化 AI（谷歌白皮书精读）
作者：AI修猫Prompt发布日期：2025-11-14 06:58:00
谷歌在第三天发布了《上下文工程：会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出，LLM模型本身是无状态的 (stateless)。如
阅读全文
让LLM像公司一样干活：微软把“思维并发”做成了协议，准确率更高、关键路径时延降28%
作者：AI修猫Prompt发布日期：2025-11-13 06:55:00
我们长期把LLM当成能独闯难关的“单兵”，在很多任务上，这确实有效。可一旦问题牵涉多步依赖、分支探索和中途验证，顺序思考 (Sequential Thinking)的推理链条就开始吃力，甚至崩溃，链条
阅读全文
让CoT随环境「演化」，AgileThinker实现“边想边做”｜清华最新
作者：AI修猫Prompt发布日期：2025-11-12 16:32:27
和我们第一次在高速上驾驶汽车一样，在这种高压时刻，我们的大脑展现出一种惊人的能力：我们不会为了“规划变道”这个复杂任务而“暂停”当前的“反应”任务。我们更不会闭上眼睛思考30秒，让车自动驾驶，当然现在
阅读全文
谷歌的两个5天课程都讲了什么，介绍一下这9+N份白皮书｜最新
作者：AI修猫Prompt发布日期：2025-11-11 16:21:23
2025年末，谷歌通过Kaggle平台，以前所未有的力度，连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享，更像是一场由谷歌顶级机器学习（ML）研究员和工程师亲自引领的、深入探索生成
阅读全文
如何打造AI科学家？AI Scientist综述，从模块到自治六阶段方法 |最新
作者：AI修猫Prompt发布日期：2025-11-10 12:19:20
本文基于研究者的系统性综述，围绕“AI Scientist（AI科学家）”这一新的概念展开，核心线索是研究者的六阶段方法论与三阶段演进轨迹；您如果正搭建一个可验证、可协作、可扩展的研究自动化体系，这篇
阅读全文
如何自动优化领域任务的提示词？用EGO-Prompt｜NeurIPS 2025
作者：AI修猫Prompt发布日期：2025-11-07 07:50:00
大型语言模型（LLMs）正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时，往往显得力不从心。为了弥合这一差距，我们目前高度依赖领域
阅读全文
40页的上下文工程ebook「深度拆解」｜weaviate
作者：AI修猫Prompt发布日期：2025-11-06 06:50:00
如果你也在做 RAG 或智能体应用，大概经历过这些瞬间：文档切得太碎，答案失去上下文；切得太大，又召回不准；加了更多提示词，效果可能更不稳定。Weaviate 团队比我们更早碰到这些问题，这是一家总部
阅读全文
Context Engineering 2.0：在未来，一个人的本质，就是其所有上下文的总和｜上海交大
作者：AI修猫Prompt发布日期：2025-11-04 20:40:31
在几天前，上海交大发布了一篇名为《上下文工程2.0：上下文工程的上下文》（Context Engineering 2.0: The Context of Context Engineering）的
阅读全文
重磅「RLI」远程劳动力指数：97.5%的赚钱工作AI无法代替人类完成，现在焦虑尚早！
作者：AI修猫Prompt发布日期：2025-11-03 20:42:26
最近出现了一篇题为《远程劳动力指数：衡量AI对远程工作的自动化》（Remote Labor Index: Measuring AI Automation of Remote Work）的重磅研究。这篇
阅读全文
代码自己改自己？我用1000万DeepSeek跑通了赫胥黎-歌德尔机HGM（附避坑指南）
作者：AI修猫Prompt发布日期：2025-10-30 06:50:00
读者，您好！今天想跟您聊一个硬核又极具启发性的项目——HGM（Huxley-Gödel Machine）。我刚刚一起花了几个小时，从环境配置的坑，一路“打怪升级”到让它最终跑完，相信您可能已经从别的公
阅读全文
中科院最新Vibe Coding综述，五种方式用AI，你是哪一种？
作者：AI修猫Prompt发布日期：2025-10-29 07:30:00
编码智能体（Coding Agents），这些智能体能够处理复杂的编程任务，与开发环境交互，执行测试，甚至进行自我调试。这一飞跃催生了一种范式转变，带来了一种引人思考的新开发方法论，尽管“Vibe C
阅读全文
让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅
作者：AI修猫Prompt发布日期：2025-10-27 23:34:12
DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对
阅读全文
验证者定律，智能的锯齿边缘和商品化，CoT之父Jason Wei2025AI进展的三个思路
作者：AI修猫Prompt发布日期：2025-10-24 21:52:12
从“AI没什么用”到“AI三年内将终结人类工作”，这片巨大的认知鸿沟，就是我们身处的2025年。在这片喧嚣和迷雾之中，我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。
阅读全文
最新Agentic Search综述，RL让Agent自主检索，RAG逐渐成为过去式
作者：AI修猫Prompt发布日期：2025-10-23 20:22:42
大型语言模型（LLM）本身很强大，但知识是静态的，有时会“胡说八道”。为了解决这个问题，我们可以让它去外部知识库（比如维基百科、搜索引擎）里“检索”信息，这就是所谓的“检索增强生成”（RAG）。但这还
阅读全文
和人类一样？LLM也会认知能力会退化，当它看久了短平快内容 |最新
作者：AI修猫Prompt发布日期：2025-10-22 00:05:33
您可能已经听过“Brain Rot（脑腐烂）”这个词，它在2024年被牛津大学（Oxford）评为年度热词，本意描述的是人类长期沉浸浅层信息流带来的注意力、记忆与社交认知的耗损。Texas A&M U
阅读全文
AI的光学时刻来了，DeepSeek-OCR运行3B参数，仅6.2G，完美！
作者：AI修猫Prompt发布日期：2025-10-21 08:57:40
DeepSeek昨天开源了它们的多模态模型DeepSeek-OCR，主打用视觉压缩技术重新定义文本处理，长上下文难题迎来新解法！这个家伙厉害在能覆盖100多种语言，除了整页文字，还能对图表、化学式、几
阅读全文