AI修猫Prompt

斯坦福实测GPT-5与Claude 4.5“双盲实验。AI编程，没有协作类产品的原因找到了
作者：AI修猫Prompt发布日期：2026-01-29 00:20:59
为什么在LLM推理能力大幅跃升的2026，我们依然只有AI Copilot而没有AI Teammate？尽管AI编程工具遍地开花，但不管是Claude Code还是Codex，本质上仍是“单Agent
阅读全文
You are a helpful assistant只是高维空间中的一个脆弱坐标。牛津Anthropic联合发布
作者：AI修猫Prompt发布日期：2026-01-27 22:07:40
我们都在System Prompt里写过无数次 You are a helpful assistant，但你是否想过：这行文字在模型的残差流（Residual Stream）中究竟对应着怎样的几何结构
阅读全文
谷歌Gemini在“搜索”领域仍具有绝对统治力。深度研究智能体到底该怎么选？OSU & Amazon最新
作者：AI修猫Prompt发布日期：2026-01-26 08:33:25
面对琳琅满目的Deep Research Agent（深度研究智能体），究竟该如何选型？本文基于OSU与Amazon最新发布的MMDR-Bench论文，为您提供一份经过严谨科学验证的“避坑指南”。结论
阅读全文
不用争CC、Codex哪个更好了，斯坦福众包设计了229个“变态”脏活已给出答案
作者：AI修猫Prompt发布日期：2026-01-23 21:33:09
谁才是真正的编程之王？是Claude Code加持下的Opus 4.5，还是Codex CLI的GPT-5.2，亦或是Google的Gemini 3 Pro？答案很残酷。尽管Claude Code被捧
阅读全文
简单却反直觉：通过「提示词重复」准确率从21.33飙升至97.33｜谷歌重磅
作者：AI修猫Prompt发布日期：2026-01-21 22:10:40
竟然只需要一次Ctrl+V？这可能是深度学习领域为数不多的“免费午餐”。70组基准测试，47次完胜，0次失败。这是Google Research在Gemini、GPT-4o和DeepSeek V3上测
阅读全文
Skills也能自进化：Claudeception把你的踩坑经验自动变成Skills ｜CC直接用
作者：AI修猫Prompt发布日期：2026-01-20 22:04:36
这不是一个普通的Skill，而是一把“把经验变成Skill”的工具：Claudeception是一个Meta-Skill，即专门用来“生产技能”的技能。你写代码时最浪费的不是敲键盘，而是重复付出“第一
阅读全文
法律Agent最新万字综述：3大核心机制，5类应用版图｜CMU/斯坦福联合发布
作者：AI修猫Prompt发布日期：2026-01-19 21:41:07
随着大语言模型（LLM）在特定领域应用的深入，学术界与产业界开始重新审视“独立模型”在处理复杂逻辑任务时的局限性。特别是在法律领域，现有的技术栈在应对长周期工作流（Long-cycle Workflo
阅读全文
沃顿商学院证明过的Agent Skills，Superpower狂揽23.7k star，CC、Codex直接用
作者：AI修猫Prompt发布日期：2026-01-15 22:28:13
这是一个拥有23.7k star的Skills开源项目。支持一键部署在Claude code、Codex以及最近非常火的Opencode。极客们选择它的原因很简单：它解决了Vibe coding中AI
阅读全文
让Agent记住一切是愚蠢的：SimpleMem用「结构化语义压缩」登顶记忆SOTA
作者：AI修猫Prompt发布日期：2026-01-14 21:00:11
如果人类的大脑像现在的LLM Agent一样工作，记住每一句今天明天的废话，我们在五岁时就会因为内存溢出而宕机。真正的智能，核心不在于“存储”，而在于高效的“遗忘”与“重组”。这一仿生学理念正是Sim
阅读全文
Skills的容量上限在哪里？2026单Skills组合还是多Agent好？｜UCB最新
作者：AI修猫Prompt发布日期：2026-01-12 11:04:21
在文章开始前，请您先打开Claude code，输入/skill，检查一下您的Claude code有多少个skills？是20个？50个？还是已经突破了100个？自从Anthropic推广Agent
阅读全文
CaveAgent让LLM学会了“跑代码”，你能把Agent变成Jupyter里的“老司机”
作者：AI修猫Prompt发布日期：2026-01-09 09:07:30
CaveAgent的核心思想很简单：与其让LLM费力地去“读”数据的文本快照，不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学（HKUST）领衔的研究
阅读全文
CC直接用，Manus核心Context技术被人做成了Skills
作者：AI修猫Prompt发布日期：2026-01-07 22:20:51
planning-with-files是开源社区最近疯传的一个Skill，发布仅四天收获3.3k star。目前还在持续增长。爆火的原因很简单，因为这个项目的核心极具吸引力：它通过一个标准的Claud
阅读全文
为了解决95%AI项目的失败，我们需要让Agentic「回到未来」
作者：AI修猫Prompt发布日期：2026-01-06 09:25:48
您可能已经感受到了，从2025年开始到如今，全世界都在谈论Agentic AI或Agent（代理式AI）。从董事会到咨询公司，从更高级别的战略到街头巷尾，仿佛只要接入了大模型（LLM），所有的业务流程
阅读全文
继2025推理模型之后，2026「递归模型」RLM要火了。
作者：AI修猫Prompt发布日期：2026-01-04 08:40:00
2025年的最后一天， MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口（Context Window），试图将窗口拉长到100万甚至1000万token时，这篇论文却冷
阅读全文
敏捷开发「BMAD」也推出了Agent Skills，CC直接用｜斩获2.6万star
作者：AI修猫Prompt发布日期：2025-12-29 15:00:51
在过去的一年里，我们见证了AI编程工具从简单的“代码补全”进化到了能够自主处理复杂逻辑的“智能Agent”。然而，在实际的企业级开发中，很多开发者依然会面临一个核心困境：即便AI能写代码，它能像人类团
阅读全文
上下文工程的Agent Skills来了，CC、Codex直接用，一周获2.3k star
作者：AI修猫Prompt发布日期：2025-12-26 08:40:00
GitHub上最近出现了一个非常火的项目Agent-Skills-for-Context-Engineering，发布不到一周就斩获了2.3k Stars。为什么它能瞬间引爆社区？因为站在2025年末
阅读全文
一句话生成可进化的多Agent工作流，Cooragent把Agent协作推向生产｜清华LEAP Lab
作者：AI修猫Prompt发布日期：2025-12-25 09:00:00
当前，企业AI应用正站在一个关键的十字路口。以Dify、Coze等为代表的主流平台，虽然能出色地完成“写一封邮件”或“总结一篇文档”这类单点任务，但一旦面对真实世界中错综复杂的业务场景——例如跨部门协
阅读全文
IMO 2025地狱级第6题，被清华的「Vibe Reasoning」破解了｜附Prompt
作者：AI修猫Prompt发布日期：2025-12-23 19:47:35
清华和微软刚刚发布了一篇非常硬核但也极具启发性的论文，题为《Vibe Reasoning：引出前沿AI的数学能力》。研究者发现，目前的顶尖AI模型（如GPT-5和Gemini 3 Pro）其实已经掌握
阅读全文
迪士尼真的造出了「雪宝」Olaf！但为了不让它“融化”，工程师逼疯了AI
作者：AI修猫Prompt发布日期：2025-12-22 15:32:15
还记得之前非常火的雪宝Olaf机器人吗？那个走起路来晃晃悠悠、神态活灵活现的小家伙曾让无数人直呼“次元壁破了”。近期，迪士尼幻想工程（Disney Research Imagineering）终于揭开
阅读全文
你能解出这20道Agentic AI难题吗？满分100，看你能得多少分？
作者：AI修猫Prompt发布日期：2025-12-19 23:27:27
Prof.Tom Yeh在发布这份文档时抛出了一个简单直接的挑战：“Can you solve these 20 Agent problems?”这是一份 “Agentic AI Problem Se
阅读全文
最近很火的Hindsight，基于图谱的「Agent记忆栈」解耦事实与信念
作者：AI修猫Prompt发布日期：2025-12-18 22:32:36
在上一篇文章中，我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述｜多所顶尖机构联合发布。今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT
阅读全文
AI Agent最新「Memory」综述｜多所顶尖机构联合发布
作者：AI修猫Prompt发布日期：2025-12-16 21:53:28
就在昨天，新加坡国立大学、中国人民大学、复旦大学等多所顶尖机构联合发布了一篇AI Agent 记忆（Memory）综述。当前的 LLM 应用开发正面临严重的“记忆碎片化”问题：我们有用于短期记忆的 K
阅读全文
Prompt、Context engineering 又向前进化了，3个关键维度+5个具体杠杆｜谷歌
作者：AI修猫Prompt发布日期：2025-12-15 20:02:09
我们正处在一个AI Agent（智能体）爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm（多智能体蜂群），新的架构层出不穷。但在这些眼花缭乱的名词背后，开发者的工作往往更像
阅读全文
多智能体一定比单智能体要好？Google最新研究：并非如此！
作者：AI修猫Prompt发布日期：2025-12-12 21:24:16
一个模型不够用？那就加两个！多搞几个Agent（智能体）让它们自己开会讨论，效果肯定好。这种“智能体越多越好”的直觉，似乎成了当下的行业共识。甚至有论文曾宣称“More agents is all y
阅读全文
你的Agent可能设计错了：UIUC & 斯坦福等联合发文，重构Agent适配2X2
作者：AI修猫Prompt发布日期：2025-12-11 21:52:52
随着基础模型的日益成熟，AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段，适配（Adaptation）成为了连接通用智能与垂直应用的关键纽带。这正是UIUC（伊利诺伊大
阅读全文
沃顿商学院已发布4篇「Prompt」报告｜重磅
作者：AI修猫Prompt发布日期：2025-12-10 15:40:13
在过去两年里，您可能在各种社交媒体、技术博客甚至开发者文档中，看到过无数关于“提示词工程（Prompt Engineering）”的秘籍。有人提出：“要对AI礼貌一点，说‘请’字效果更好”；也有人说：
阅读全文
别被AI降智：Karpathy警示，把LLM当实体是对AGI最大的误读
作者：AI修猫Prompt发布日期：2025-12-09 13:42:09
引言：全网热议背后的本体论修正如果在 AI 圈存在《黑客帝国》里墨菲斯给尼奥的“红药丸”时刻（红药丸隐喻面对现实），那么本周 Andrej Karpathy 的推文无疑就是那一颗。（以上微信翻译）作为
阅读全文
谷歌秀肌肉了：披露Gemini 3.0为啥过目不忘越用越好用，Titans的惊喜度+Miras框架
作者：AI修猫Prompt发布日期：2025-12-08 12:51:23
最近，Google Research 发布了一篇 Blog《Titans + MIRAS：帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存，从而更快地工作并处理海量上下文。这
阅读全文
Agent2025年终报告来了，UC伯克利、斯坦福和IBM联合发布
作者：AI修猫Prompt发布日期：2025-12-07 00:56:27
2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷，并深度访谈了20个已经成功落地并产生价值的一线企业案例（涵
阅读全文
Agent竟然能意念交互！LatentMAS绕过文本直接交换KV Cache，Token骤降83.7%
作者：AI修猫Prompt发布日期：2025-12-05 20:10:05
多智能体系统（Multi-Agent Systems, MAS）正变得越来越流行，例如Microsoft AutoGen、CrewAI。我们习惯了看着Agent像人类之间一样，通过你一言我一语的对话来
阅读全文