让Agent记住一切是愚蠢的:SimpleMem用「结构化语义压缩」登顶记忆SOTA
如果人类的大脑像现在的LLM Agent一样工作,记住每一句今天明天的废话,我们在五岁时就会因为内存溢出而宕机。真正的智能,核心不在于“存储”,而在于高效的“遗忘”与“重组”。这一仿生学理念正是Sim
阅读全文如果人类的大脑像现在的LLM Agent一样工作,记住每一句今天明天的废话,我们在五岁时就会因为内存溢出而宕机。真正的智能,核心不在于“存储”,而在于高效的“遗忘”与“重组”。这一仿生学理念正是Sim
阅读全文在文章开始前,请您先打开Claude code,输入/skill,检查一下您的Claude code有多少个skills?是20个?50个?还是已经突破了100个?自从Anthropic推广Agent
阅读全文CaveAgent的核心思想很简单:与其让LLM费力地去“读”数据的文本快照,不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学(HKUST)领衔的研究
阅读全文planning-with-files是开源社区最近疯传的一个Skill,发布仅四天收获3.3k star。目前还在持续增长。爆火的原因很简单,因为这个项目的核心极具吸引力:它通过一个标准的Claud
阅读全文您可能已经感受到了,从2025年开始到如今,全世界都在谈论Agentic AI或Agent(代理式AI)。从董事会到咨询公司,从更高级别的战略到街头巷尾,仿佛只要接入了大模型(LLM),所有的业务流程
阅读全文2025年的最后一天, MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口(Context Window),试图将窗口拉长到100万甚至1000万token时,这篇论文却冷
阅读全文在过去的一年里,我们见证了AI编程工具从简单的“代码补全”进化到了能够自主处理复杂逻辑的“智能Agent”。然而,在实际的企业级开发中,很多开发者依然会面临一个核心困境:即便AI能写代码,它能像人类团
阅读全文GitHub上最近出现了一个非常火的项目Agent-Skills-for-Context-Engineering,发布不到一周就斩获了2.3k Stars。为什么它能瞬间引爆社区?因为站在2025年末
阅读全文当前,企业AI应用正站在一个关键的十字路口。以Dify、Coze等为代表的主流平台,虽然能出色地完成“写一封邮件”或“总结一篇文档”这类单点任务,但一旦面对真实世界中错综复杂的业务场景——例如跨部门协
阅读全文清华和微软刚刚发布了一篇非常硬核但也极具启发性的论文,题为《Vibe Reasoning:引出前沿AI的数学能力》。研究者发现,目前的顶尖AI模型(如GPT-5和Gemini 3 Pro)其实已经掌握
阅读全文还记得之前非常火的雪宝Olaf机器人吗?那个走起路来晃晃悠悠、神态活灵活现的小家伙曾让无数人直呼“次元壁破了”。近期,迪士尼幻想工程(Disney Research Imagineering)终于揭开
阅读全文Prof.Tom Yeh在发布这份文档时抛出了一个简单直接的挑战:“Can you solve these 20 Agent problems?”这是一份 “Agentic AI Problem Se
阅读全文在上一篇文章中,我们系统梳理了AI Agent 记忆机制的全景综述AI Agent最新「Memory」综述 |多所顶尖机构联合发布。今天我将带您了解一项最近很火的Agent记忆项目「HINDSIGHT
阅读全文就在昨天,新加坡国立大学、中国人民大学、复旦大学等多所顶尖机构联合发布了一篇AI Agent 记忆(Memory)综述。当前的 LLM 应用开发正面临严重的“记忆碎片化”问题:我们有用于短期记忆的 K
阅读全文我们正处在一个AI Agent(智能体)爆发的时代。从简单的ReAct循环到复杂的Multi-Agent Swarm(多智能体蜂群),新的架构层出不穷。但在这些眼花缭乱的名词背后,开发者的工作往往更像
阅读全文一个模型不够用?那就加两个!多搞几个Agent(智能体)让它们自己开会讨论,效果肯定好。这种“智能体越多越好”的直觉,似乎成了当下的行业共识。甚至有论文曾宣称“More agents is all y
阅读全文随着基础模型的日益成熟,AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段,适配(Adaptation) 成为了连接通用智能与垂直应用的关键纽带。这正是UIUC(伊利诺伊大
阅读全文在过去两年里,您可能在各种社交媒体、技术博客甚至开发者文档中,看到过无数关于“提示词工程(Prompt Engineering)”的秘籍。有人提出:“要对AI礼貌一点,说‘请’字效果更好”;也有人说:
阅读全文引言:全网热议背后的本体论修正如果在 AI 圈存在《黑客帝国》里墨菲斯给尼奥的“红药丸”时刻(红药丸隐喻面对现实),那么本周 Andrej Karpathy 的推文无疑就是那一颗。(以上微信翻译)作为
阅读全文最近,Google Research 发布了一篇 Blog《Titans + MIRAS:帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存,从而更快地工作并处理海量上下文。这
阅读全文2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷,并深度访谈了20个已经成功落地并产生价值的一线企业案例(涵
阅读全文多智能体系统(Multi-Agent Systems, MAS)正变得越来越流行,例如Microsoft AutoGen、CrewAI。我们习惯了看着Agent像人类之间一样,通过你一言我一语的对话来
阅读全文这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写,全文长达303页,是对当前“代码大模型(Code LLMs)”领域最详尽的百科全书式指南。它不仅总结了学术界
阅读全文最近口述采样很火。如果您经常使用经过“对齐”训练(如RLHF)的LLM,您可能已经注意到一个现象:模型虽然变得听话、安全了,但也变得巨“无聊”。当您让它“讲一个关于咖啡的笑话”时,它可能总是反复讲那个
阅读全文最近几个月,大语言模型(LLM)领域出现了一个有趣的现象:虽然开源社区依然活跃,但闭源模型(如GPT 5系列、Claude 4.5、Gemini 3.0)似乎正在加速拉开差距。可能是西方马上圣诞节的缘
阅读全文在当前的情感计算研究中,存在一个显著的“断层”:我们拥有越来越精准的情感识别算法(输入端),也有了逼真的语音和面部生成技术(输出端),但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒,也能模
阅读全文这篇文章聚焦一项由Colton Casto、Anna Ivanova、Evelina Fedorenko和Nancy Kanwisher等研究者完成的工作,他们分别来自哈佛Kempner研究所、佐治亚
阅读全文基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K
阅读全文2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。基于此
阅读全文如果告诉你,仅仅改变提示词(Prompt)的结构,就能让大模型在复杂推理任务上的表现暴涨 60%,你相信吗?几天前,来自伊利诺伊大学香槟分校(UIUC)、华盛顿大学(UW)、普林斯顿和哈佛的研究团队发
阅读全文