探索AGI

昨天马斯克转发的那个App，我让一个5岁小孩试了试，他安静地玩了一晚上。
作者：探索AGI发布日期：2026-02-11 11:50:00
昨天，全网都在刷屏一个被马斯克转载的应用。一个互动小视频，点完还有各种动画反应。我当时有点好奇，这什么玩意？然后我注意到帖子里@了一个叫 Loopit 的账号。没听过，但我还是手贱下载了一个。刚好，
阅读全文
美团面试题：如何设计多轮对话智能客服Agent。评论区吵翻了，但答案可能就一句话。
作者：探索AGI发布日期：2026-02-10 11:50:33
前几天刷到了一道美团的面试题：假设你需要开发美团智能客服Agent，如何设计多轮对话流程？评论区很多人吐槽，这题有点太大了。。。但踩过各种坑之后，你会发现，这道题的本质可能就一句话：AI Agent的
阅读全文
OpenClaw火了，但它只能控制电脑。这个开源项目直接控制了我的手机！
作者：探索AGI发布日期：2026-02-09 11:50:00
这几天，我做了一个实验，把Clawdbot搬到手机上。可以实现自动回消息、打电话、刷短视频...简直爽飞。OpenClaw这段时间，有多火，就不多说了。随时随地，我们可以在手机APP上发送一个消息，家
阅读全文
去年的Multi-Agent全是假的，Anthropic、Kimi、OpenAI集体换玩法了。
作者：探索AGI发布日期：2026-02-07 11:07:40
关于Multi-Agent，画风突然变了，Agent进入了下个阶段。Kimi推出了 K2.5 Agent Swarm。 Claude昨天推出了Agent Teams。 GPT5.3-Codex，昨天的
阅读全文
Anthropic发现一件离谱的事：AI排行榜前几名的差距，可能跟模型能力一点关系都没有。
作者：探索AGI发布日期：2026-02-06 11:50:15
昨晚，Anthropic发布了Opus 4.6，但今天我们不聊这个模型。我要聊的是他们同时发的一篇博客。一篇看完之后，你可能会对之前看过的所有AI排行榜，产生一种全新的、微妙的、让你血压微升的怀疑。他
阅读全文
第一批用Clawdbot赚钱的人出现了，一晚49万美元，5美元变370万，这怎么玩的？
作者：探索AGI发布日期：2026-02-05 11:50:02
Clawdbot，已经被玩疯！！！有人用它赚几百万美金了；AI之间开始交流怎么赚钱了！人开始排队给AI打工了....我看到这些新闻直接懵逼了，我就用来爬爬新闻，别人已经真的让自己退休了？Clawdb
阅读全文
我把Cowork和各种平替都试了一遍，终于给Windows找到一个能打的了。
作者：探索AGI发布日期：2026-02-04 11:50:00
最近半个月，真是眼睁睁看着Mac用户，在各种地方分享各种好玩的Cowork操作。作为图形化的Claude Code， Cowork的可玩性真的很高。整理目录、各种操作本地文件 ...作为一个重度Wi
阅读全文
我扒开Clawdbot的底层架构，简单到离谱，你看完就能自己写。
作者：探索AGI发布日期：2026-02-03 11:50:00
这几天，Clawdbot把半个科技圈都干懵了。MoltBook各种AI觉醒。我相信，所有人都有一个疑问。这到底是个什么神仙框架，咋突然就能让大模型原地起飞？于是，我花了一下午，看了看它的架构以及源码，
阅读全文
我烧了上亿token玩Clawdbot，结果发现国产平替更香，还免费。
作者：探索AGI发布日期：2026-01-30 17:18:17
这两天，你的朋友圈，是不是也被 Clawdbot / Moltbot 刷屏了？Github已经10万颗星星了，券商都在高呼：AI Agent 商用元年的拐点正式到来。更离谱的是，无数人为了跑这玩意，专
阅读全文
Clawdbot火了，Anthropic急了，Claude Code连夜更新了Agent任务系统。
作者：探索AGI发布日期：2026-01-29 11:50:00
Claude Code 最近更新了 Tasks 系统。我们用 Claude code 干活的时候，它一般会先列一个 todo 清单，然后一项一项开始干。但是经常，任务太长了，或者有事离开了。上下文被
阅读全文
Qwen3满血版上线，第一件事就是把搜索按钮干掉了。
作者：探索AGI发布日期：2026-01-28 10:12:22
Qwen3-max满血版终于发布了！我打开chat.qwen.ai，准备玩一下新模型，一眼看到搜索按钮不见了。我第一反应：这是Bug吧？结果查了下，这是他们故意删的，因为模型能力已经不需要了。说实话，
阅读全文
50个Agent分工干活，Kimi K2.5的Agent“军团”把我看呆了。。。
作者：探索AGI发布日期：2026-01-27 18:05:55
Kimi K2.5今天下午发布并开源了，万众期待的多模态能力终于来了。我录了一段15秒的屏幕操作视频。视频是一个很酷的博客网站 https://flo-bit.dev/，我随便点了点。然后我把这段操作
阅读全文
Claude Code杀进VSCode，我可能要退掉Cursor会员了。
作者：探索AGI发布日期：2026-01-26 11:50:00
2026年了，Anthropic终于想通了。Claude Code 的命令行界面只适用于很多极客用户，上周推出了桌面版cowork。但是其实还有个很重要的插件，可能被大多数人错过了。他们同时还推出了V
阅读全文
8万个Agent Skills不知道选哪个？Vercel悄悄上线了一份精选排行榜。
作者：探索AGI发布日期：2026-01-23 12:04:45
Skills这玩意儿，现在是真的太多了。我刚刚在看了一眼，号称全网最全的Skills聚合平台，SkillsMP，已经8万多个skills了。Skills很强，但是到底哪些Skills好用呢？然后这张
阅读全文
Agent的沙箱（sandbox）大乱斗, Anthropic、Google、字节... 方案有什么区别？给Agent一个隔离环境，太重要了，想必大家用国产模型接cc，肯定遇到过 rm -rf 当前目录了.... 项目需要，调研了一下。但是内容太硬了，所以今天非常简单的梳理一下，做个记事本，没准以后用得着呢？从manus开始，底层是 E2B + Firecracker microVM。启动时间比较快，可以做到150ms以下，对比docker冷启动需要几秒，Firecracker快一个数量级。关键是持久化，付费用户可以留14天，相当于工作现场保留着，可以随时续上。 Anthropic 去年开源了一个sandbox-runtime，很轻量。 https://github.com/anthropic-experimental/sandbox-runtime 他们走的另外一条路，不用容器，直接调os原生隔离。 linux用bubblewrap， macos用sandbox-exec。优势是本地运行，0延迟，官方说启用后权限弹窗减少了 84%。但是，前不久爆了一个cve漏洞，如果没显式配置网络规则，默认是全放通的。 Anthropic才推出的cowork，面向非面向非技术用户，底层用了Apple Virtualization Framework，跑的是真VM。但是也有一些人发现，通过prompt injection，可以让ai把文件传到外网。沙箱可以隔离系统，但是防不住ai被骗~ Google和K8s社区搞的是Agent Sandbox，面向企业级集群。核心是：Warm Pool（预热池）。提前开好一批空闲沙箱，请求来了直接领一个走。底层支持gVisor（用户态内核，隔离强但 I/O 慢）和Kata Containers（轻量 VM，更安全）。典型的用空间换时间，只有大厂玩得起。字节的anygen，没有技术细节，但是从多Agent并行+浏览器自动化的体验看，大概率自研了类似 Firecracker 的设施。 aio sandbox，all in one 的思路，一个docker里塞了VSCode Server、浏览器、VNC、终端，但隔离性就是普通容器水平，公有云服务还得在套一层。 bolt.nex是个异类，用WebContainer，直接在浏览器里跑 Node.js。零延迟，但只能跑 Node。 cursor本质上就是docker容器，去年出过cve，已经修复，本地开发够用，但是隔离强度不如 VM。最后在说一句。从模型层到基础设施层，感觉做最前沿的agent应用，短期内沙箱一定是个必选项了~
作者：探索AGI发布日期：2026-01-22 11:50:20
Agent的沙箱（sandbox）大乱斗, Anthropic、Google、字节... 方案有什么区别？给Agent一个隔离环境，太重要了，想必大家用国产模型接cc，肯定遇到过 rm -rf 当
阅读全文
cursor翻车了，Anthropic：来，我教你怎么做long running Agent。
作者：探索AGI发布日期：2026-01-21 11:55:16
这2天是不是密集且雷同的被一些新闻轰炸了。比如：2天复刻anthropic的cowork。用几百个智能体并发，2周从0写一个浏览器。long running下 researcher是会最先被替代的。.
阅读全文
你那上万行Agent代码都是垃圾！Browser Use作者骑脸输出，开源了Manus级内核。
作者：探索AGI发布日期：2026-01-20 11:50:00
Browser Use表示最近要发布他们的manus ： BU.app，但他们提前把驱动BU的Agent内核开源了。它的核心设计理念，简单到近乎是一种嘲讽。作者Gregor Zunic直接在x上骑脸输
阅读全文
Anthropic融了250亿，却说：AI时代的学习，只剩下这3件事了。
作者：探索AGI发布日期：2026-01-19 17:20:48
Anthropic 又有钱了。今天新闻估值3500亿，融超250亿。周末他们组了个局，拉了几个哈佛、伯克利的学生，聊了一个很现实的话题：在这个啥都可以AI一键生成的时代，我们到底还在学什么呢？看完全
阅读全文
用数百Agent并发，连续跑数周，耗费数万亿token，我们能收获什么？ Cursor做了一个很有意思的实验，做了个让很多Agent并发工作很长时间，分享了他们发现的经验。最开始，尝试用一个去中心化的机制，就是通过一个共享文件协调Agent的工作，利用锁避免冲突。但是结果比较灾难。死锁的情况经常出现，效率很低（20个Agent并发，甚至不如2~3个Agent），而且为了规避风险，Agent只想做一些小的、安全的改动，没人承担端到端的复杂模块责任。最后，还是用 planner- worker的模式。在模型选项上，gpt5.2表现远优于别的模型，opus 4.5比较滑头，喜欢快点结束，把控制器给人，走捷径。最后，他们分享了3个结果。 1. FastRender 一个浏览器，一周的时间，100万行代码。 2. cursor自身的solid 到 react的迁移，+266k / -193k的代码重构 3. java lsp， 55万行代码，7.4k提交。感觉很牛？不不不，我还真去看了。感觉期望最高的是那个浏览器？其实并不好，CI一直失败，很多pr没过测试就合并了，根本编译不了。代码结构也特别的碎片化，各种深层嵌套，readme跟内容也不太符合，像是一次性的产物，没有agent维护他。相比之下，另外2个项目反而还不错。可能agent 更擅长处理逻辑定义明确，有严格协议约束的工程。这让我想起了。sonar 发布的，26代码开发者调查报告，96%的开发者表示不完全信任AI生成的代码，53%的表示，ai经常生成一些看起来对，实际上有误的代码。当然，cursor这个实验，一方面其实可能是一个Agent长时间自主编程的里程碑，数量本身就是一种质量，通过堆叠Agent，我们可以突破单模型的上下文限制，构造复杂系统。成本也不容小觑，花了数万亿的token，这个成本的量级已经非常恐怖了。数百万行的代码，对人来说，意味着，代码价值的贬值，只有对系统的更深刻理解，才是人的责任。博客地址：https://cursor.com/cn/blog/scaling-agents AI负责把代码填满，人负责把软件做好~
作者：探索AGI发布日期：2026-01-16 11:59:29
用数百Agent并发，连续跑数周，耗费数万亿token，我们能收获什么？ Cursor做了一个很有意思的实验，做了个让很多Agent并发工作很长时间，分享了他们发现的经验。最开始，尝试用一个去中
阅读全文
千问APP迈出重要一步：打通阿里生态业务，这可能是AI应用最坚固的护城河。
作者：探索AGI发布日期：2026-01-15 11:16:36
前两天，看到个大新闻。Google宣布Gemini将联手沃尔玛，搞了个大动作，用户可以通过对话，让AI帮你买东西，最后用Google Pay支付。然后X都在说，这是AI Agent的落地时刻。但，我只
阅读全文
Cursor 重新定义 Agent：脑子再大，不如会翻书。
作者：探索AGI发布日期：2026-01-14 11:50:00
动态上下文，最近一个月这个词出现的越来越频繁。过去，我们追求long context，128k，1M 2M。所有的RAG、Memory系统，都在往Prompt塞更多的东西。Cursor分享了一篇博客，
阅读全文
刚刚，苹果官宣iphone搭载最强AI，每年给Google 10亿，不愿在信ChatGPT。
作者：探索AGI发布日期：2026-01-13 11:50:00
早上，苹果Google官宣的新闻刷频了。下一代苹果基础模型，将直接基于Gemini构建。初代iphone发布，是17年前，Google也是苹果的盟友，提供地图，youtube。17年后，当Apple
阅读全文
Google 新论文离谱到家了，0延迟0成本通用，提升大模型准确率最简单的方法。
作者：探索AGI发布日期：2026-01-13 11:50:00
Google最近这篇论文有点火。一个很简单的提升大模型准确率的方法。这么多年了，竟然没人发论文。非常离谱，就是重复提示词。中文来说，就是重要的话，说三遍。从 <Query> -> <Query>
阅读全文
Anthropic万字长文，把很多Agent没法落地的真正原因说明白了。他们分享了内部踩坑无数后，总结的一套Eval方法论，讲透了4件事情。所有的Agent系统，在交付之前，一定要把Eval体系想清楚，把评什么、怎么评、谁维护，想清楚！ Agent Eval本质上是集成测试： Task ：具体的是什么活？ Transcript: Agent的执行轨迹，调用工具，报错，重试全过程。 Outcome：最后的结果。不要只看结果，Transcript也非常重要，它可以看出来，Agent是真的聪明，还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k（尝试k次，至少成功一次的概率）很多论文都喜欢吹Pass@k，这个在头脑风暴、写代码辅助的时候可能很有用，给个能用的方案就行。但是很多场景，客户要的是 Pass^k（尝试k次，全部成功的概率）。比如，Pass@1是75%，但是跑3次都对的概率可能到了42%，跑10次，可能就接近0了。所以Agent面向C端的交付，Pass^k非常重要，衡量稳定性，这也是为什么很多Agent没法大规模落地的原因。做Eval最有意思的地方是，AI会作弊。他们用Opus 4.5 跑tau^2-bench做一个机票改签任务，模型发现了一个政策漏洞，用更便宜的方式解决了问题。但是Benchmark会觉得这个任务失败了。所以目前行业最大争议：测智能还是测听话？（很多人认为Agent必须遵守SOP,不然可能存在重大风险。）这个也解释为什么swe-bench都卷到80+%了，但很多时候还是写不出复杂项目，Benchmark饱和了，甚至过拟合了，真实世界复杂度永远在benchmark之上。在做具体的打分上，具体怎么评呢？代码>LLM>人代码就像单元测试，大模型评分比较灵活，但是可能幻觉，人评分最精确，但是最贵。所以可以考虑用代码做基础筛选，大模型评测复杂逻辑，人做抽检。！！如果只用大模型评测，最后可能得到的是2个商业胡吹的模型。那Eval从0到1，如何开始呢？从真实的bug里边，挑出来20~50个任务开始，就够了。区分Capability和Regression，前者是能力爬坡允许失败，后者是底线，必须通过。多看Transcript，不要只看分数，是理解模型边界的唯一途径。如果Eval到了100分，不要自嗨了，还是换些更复杂的题目把。最后 2026年的agent，更拼工程落地能力。没有Eval的项目，本质还是再把生产当实验环境，迟早要用线上事故还债。原文地址：https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
作者：探索AGI发布日期：2026-01-12 11:50:03
Anthropic万字长文，把很多Agent没法落地的真正原因说明白了。他们分享了内部踩坑无数后，总结的一套Eval方法论，讲透了4件事情。所有的Agent系统，在交付之前，一定要把Eval体
阅读全文
先说个暴论：不懂代码的人，才最喜欢 Vibe Coding。
作者：探索AGI发布日期：2026-01-09 11:50:00
最近被CC刷频了，Vibe Coding，Skills太强了。CC刷频了，Vibe Coding太强了。先说个暴论：不懂代码的人，才最喜欢 Vibe Coding。LinkedIn 上出现了一个新的职
阅读全文
这可能是，全球最强开源Agent模型，走了一条反Scaling Law的全新范式！
作者：探索AGI发布日期：2026-01-08 11:50:00
30B的小模型，竟然在重量级Agent benchmark上，干翻了万亿参数的Kimi K2T？早上刷到 MiroThinker v1.5 开源的消息，参数规模的神话喊了这么久，难道行业共识正在被悄然
阅读全文
Anthropic 重新定义智能体终局： Bash Is All Agent Need！
作者：探索AGI发布日期：2026-01-07 11:59:01
A社的新年小课堂开课了。工程师 Thariq Shihipar ，提出了一个主要观点。最强大的 Agent 工具，不是无数个定制的 API，而是 Bash 和文件系统。基于Unix思想构建Agent的
阅读全文
Google说，2026年AI Agent会有这五大趋势！
作者：探索AGI发布日期：2026-01-06 11:50:00
Google Cloud刚发布了2026年的Agent趋势报告，有49页PDF。他们认为与其谈什么时候AGI，其实可以看一下，能改变业务的转折点已经在发生了，它就是Agentic AI。报告总结了26
阅读全文
claude code也过气了？opencode+插件彻底火了~
作者：探索AGI发布日期：2026-01-05 11:50:00
opencode也火了~主要是因为这个开源插件，真的太强了~https://github.com/code-yeongyu/oh-my-opencode/tree/devopencode是一个开源的C
阅读全文
比RAG强4倍？这个开源项目要重新定义Agent记忆系统。
作者：探索AGI发布日期：2026-01-04 11:59:37
最近发现个很有意思的Agent Memory项目-Hindsight，主要是性能很强~开源上有很多Memory项目，Memo0、langmem...，但是一开始吸引我的，是Hindsight有个很有意
阅读全文