全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    昨天马斯克转发的那个App,我让一个5岁小孩试了试,他安静地玩了一晚上。

    作者:探索AGI发布日期:2026-02-11 11:50:00

    昨天,全网都在刷屏一个被马斯克转载的应用。一个互动小视频,点完还有各种动画反应。我当时有点好奇,这什么玩意? 然后我注意到帖子里@了一个叫 Loopit 的账号。没听过,但我还是手贱下载了一个。刚好,

    阅读全文
  • 文章封面

    美团面试题:如何设计多轮对话智能客服Agent。评论区吵翻了,但答案可能就一句话。

    作者:探索AGI发布日期:2026-02-10 11:50:33

    前几天刷到了一道美团的面试题:假设你需要开发美团智能客服Agent,如何设计多轮对话流程?评论区很多人吐槽,这题有点太大了。。。但踩过各种坑之后,你会发现,这道题的本质可能就一句话:AI Agent的

    阅读全文
  • 文章封面

    OpenClaw火了,但它只能控制电脑。这个开源项目直接控制了我的手机!

    作者:探索AGI发布日期:2026-02-09 11:50:00

    这几天,我做了一个实验,把Clawdbot搬到手机上。可以实现自动回消息、打电话、刷短视频...简直爽飞。OpenClaw这段时间,有多火,就不多说了。随时随地,我们可以在手机APP上发送一个消息,家

    阅读全文
  • 文章封面

    去年的Multi-Agent全是假的,Anthropic、Kimi、OpenAI集体换玩法了。

    作者:探索AGI发布日期:2026-02-07 11:07:40

    关于Multi-Agent,画风突然变了,Agent进入了下个阶段。Kimi推出了 K2.5 Agent Swarm。 Claude昨天推出了Agent Teams。 GPT5.3-Codex,昨天的

    阅读全文
  • 文章封面

    Anthropic发现一件离谱的事:AI排行榜前几名的差距,可能跟模型能力一点关系都没有。

    作者:探索AGI发布日期:2026-02-06 11:50:15

    昨晚,Anthropic发布了Opus 4.6,但今天我们不聊这个模型。我要聊的是他们同时发的一篇博客。一篇看完之后,你可能会对之前看过的所有AI排行榜,产生一种全新的、微妙的、让你血压微升的怀疑。他

    阅读全文
  • 文章封面

    第一批用Clawdbot赚钱的人出现了,一晚49万美元,5美元变370万,这怎么玩的?

    作者:探索AGI发布日期:2026-02-05 11:50:02

    Clawdbot,已经被玩疯!!!有人用它赚几百万美金了;AI之间开始交流怎么赚钱了! 人开始排队给AI打工了....我看到这些新闻直接懵逼了,我就用来爬爬新闻,别人已经真的让自己退休了?Clawdb

    阅读全文
  • 文章封面

    我把Cowork和各种平替都试了一遍,终于给Windows找到一个能打的了。

    作者:探索AGI发布日期:2026-02-04 11:50:00

    最近半个月,真是眼睁睁看着Mac用户,在各种地方分享各种好玩的Cowork操作。作为图形化的Claude Code, Cowork的可玩性真的很高。 整理目录、各种操作本地文件 ...作为一个重度Wi

    阅读全文
  • 文章封面

    我扒开Clawdbot的底层架构,简单到离谱,你看完就能自己写。

    作者:探索AGI发布日期:2026-02-03 11:50:00

    这几天,Clawdbot把半个科技圈都干懵了。MoltBook各种AI觉醒。我相信,所有人都有一个疑问。这到底是个什么神仙框架,咋突然就能让大模型原地起飞?于是,我花了一下午,看了看它的架构以及源码,

    阅读全文
  • 文章封面

    我烧了上亿token玩Clawdbot,结果发现国产平替更香,还免费。

    作者:探索AGI发布日期:2026-01-30 17:18:17

    这两天,你的朋友圈,是不是也被 Clawdbot / Moltbot 刷屏了?Github已经10万颗星星了,券商都在高呼:AI Agent 商用元年的拐点正式到来。更离谱的是,无数人为了跑这玩意,专

    阅读全文
  • 文章封面

    Clawdbot火了,Anthropic急了,Claude Code连夜更新了Agent任务系统。

    作者:探索AGI发布日期:2026-01-29 11:50:00

    Claude Code 最近更新了 Tasks 系统。我们用 Claude code 干活的时候,它一般会先列一个 todo 清单,然后一项一项开始干。但是经常,任务太长了,或者有事离开了。 上下文被

    阅读全文
  • 文章封面

    Qwen3满血版上线,第一件事就是把搜索按钮干掉了。

    作者:探索AGI发布日期:2026-01-28 10:12:22

    Qwen3-max满血版终于发布了!我打开chat.qwen.ai,准备玩一下新模型,一眼看到搜索按钮不见了。我第一反应:这是Bug吧?结果查了下,这是他们故意删的,因为模型能力已经不需要了。说实话,

    阅读全文
  • 文章封面

    50个Agent分工干活,Kimi K2.5的Agent“军团”把我看呆了。。。

    作者:探索AGI发布日期:2026-01-27 18:05:55

    Kimi K2.5今天下午发布并开源了,万众期待的多模态能力终于来了。我录了一段15秒的屏幕操作视频。视频是一个很酷的博客网站 https://flo-bit.dev/,我随便点了点。然后我把这段操作

    阅读全文
  • 文章封面

    Claude Code杀进VSCode,我可能要退掉Cursor会员了。

    作者:探索AGI发布日期:2026-01-26 11:50:00

    2026年了,Anthropic终于想通了。Claude Code 的命令行界面只适用于很多极客用户,上周推出了桌面版cowork。但是其实还有个很重要的插件,可能被大多数人错过了。他们同时还推出了V

    阅读全文
  • 文章封面

    8万个Agent Skills不知道选哪个?Vercel悄悄上线了一份精选排行榜。

    作者:探索AGI发布日期:2026-01-23 12:04:45

    Skills这玩意儿,现在是真的太多了。我刚刚在看了一眼,号称全网最全的Skills聚合平台,SkillsMP,已经8万多个skills了。Skills很强,但是到底哪些Skills好用呢? 然后这张

    阅读全文
  • 文章封面

    Agent的沙箱(sandbox)大乱斗, Anthropic、Google、字节... 方案有什么区别? 给Agent一个隔离环境,太重要了,想必大家用国产模型接cc,肯定遇到过 rm -rf 当前目录了.... 项目需要,调研了一下。但是内容太硬了,所以今天非常简单的梳理一下,做个记事本,没准以后用得着呢? 从manus开始,底层是 E2B + Firecracker microVM。 启动时间比较快,可以做到150ms以下,对比docker冷启动需要几秒,Firecracker快一个数量级。 关键是持久化,付费用户可以留14天,相当于工作现场保留着,可以随时续上。 Anthropic 去年开源了一个sandbox-runtime,很轻量。 https://github.com/anthropic-experimental/sandbox-runtime 他们走的另外一条路,不用容器,直接调os原生隔离。 linux用bubblewrap, macos用sandbox-exec。 优势是本地运行,0延迟,官方说启用后权限弹窗减少了 84%。 但是,前不久爆了一个cve漏洞,如果没显式配置网络规则,默认是全放通的。 Anthropic才推出的cowork,面向非面向非技术用户,底层用了Apple Virtualization Framework,跑的是真VM。 但是也有一些人发现,通过prompt injection,可以让ai把文件传到外网。 沙箱可以隔离系统,但是防不住ai被骗~ Google和K8s社区搞的是Agent Sandbox,面向企业级集群。 核心是:Warm Pool(预热池)。 提前开好一批空闲沙箱,请求来了直接领一个走。 底层支持gVisor(用户态内核,隔离强但 I/O 慢)和Kata Containers(轻量 VM,更安全)。 典型的用空间换时间,只有大厂玩得起。 字节的anygen,没有技术细节,但是从多Agent并行+浏览器自动化的体验看,大概率自研了类似 Firecracker 的设施。 aio sandbox,all in one 的思路,一个docker里塞了VSCode Server、浏览器、VNC、终端,但隔离性就是普通容器水平,公有云服务还得在套一层。 bolt.nex是个异类,用WebContainer,直接在浏览器里跑 Node.js。零延迟,但只能跑 Node。 cursor本质上就是docker容器,去年出过cve,已经修复,本地开发够用,但是隔离强度不如 VM。 最后在说一句。 从模型层到基础设施层,感觉做最前沿的agent应用, 短期内沙箱一定是个必选项了~

    作者:探索AGI发布日期:2026-01-22 11:50:20

    Agent的沙箱(sandbox)大乱斗, Anthropic、Google、字节... 方案有什么区别? 给Agent一个隔离环境,太重要了,想必大家用国产模型接cc,肯定遇到过 rm -rf 当

    阅读全文
  • 文章封面

    cursor翻车了,Anthropic:来,我教你怎么做long running Agent。

    作者:探索AGI发布日期:2026-01-21 11:55:16

    这2天是不是密集且雷同的被一些新闻轰炸了。比如:2天复刻anthropic的cowork。用几百个智能体并发,2周从0写一个浏览器。long running下 researcher是会最先被替代的。.

    阅读全文
  • 文章封面

    你那上万行Agent代码都是垃圾!Browser Use作者骑脸输出,开源了Manus级内核。

    作者:探索AGI发布日期:2026-01-20 11:50:00

    Browser Use表示最近要发布他们的manus : BU.app,但他们提前把驱动BU的Agent内核开源了。它的核心设计理念,简单到近乎是一种嘲讽。作者Gregor Zunic直接在x上骑脸输

    阅读全文
  • 文章封面

    Anthropic融了250亿,却说:AI时代的学习,只剩下这3件事了。

    作者:探索AGI发布日期:2026-01-19 17:20:48

    Anthropic 又有钱了。今天新闻估值3500亿,融超250亿。周末他们组了个局,拉了几个哈佛、伯克利的学生,聊了一个很现实的话题: 在这个啥都可以AI一键生成的时代,我们到底还在学什么呢?看完全

    阅读全文
  • 文章封面

    用数百Agent并发,连续跑数周,耗费数万亿token,我们能收获什么? Cursor做了一个很有意思的实验,做了个让很多Agent并发工作很长时间,分享了他们发现的经验。 最开始,尝试用一个去中心化的机制,就是通过一个共享文件协调Agent的工作,利用锁避免冲突。 但是结果比较灾难。 死锁的情况经常出现,效率很低(20个Agent并发,甚至不如2~3个Agent), 而且为了规避风险,Agent只想做一些小的、安全的改动,没人承担端到端的复杂模块责任。 最后,还是用 planner- worker的模式。 在模型选项上,gpt5.2表现远优于别的模型,opus 4.5比较滑头,喜欢快点结束,把控制器给人,走捷径。 最后,他们分享了3个结果。 1. FastRender 一个浏览器,一周的时间,100万行代码。 2. cursor自身的solid 到 react的迁移,+266k / -193k的代码重构 3. java lsp, 55万行代码,7.4k提交。 感觉很牛? 不不不,我还真去看了。 感觉期望最高的是那个浏览器? 其实并不好,CI一直失败,很多pr没过测试就合并了,根本编译不了。 代码结构也特别的碎片化,各种深层嵌套,readme跟内容也不太符合,像是一次性的产物,没有agent维护他。 相比之下,另外2个项目反而还不错。可能agent 更擅长处理逻辑定义明确,有严格协议约束的工程。 这让我想起了。sonar 发布的,26代码开发者调查报告,96%的开发者表示不完全信任AI生成的代码,53%的表示,ai经常生成一些看起来对,实际上有误的代码。 当然,cursor这个实验,一方面其实可能是一个Agent长时间自主编程的里程碑,数量本身就是一种质量,通过堆叠Agent,我们可以突破单模型的上下文限制,构造复杂系统。 成本也不容小觑,花了数万亿的token,这个成本的量级已经非常恐怖了。 数百万行的代码,对人来说,意味着,代码价值的贬值,只有对系统的更深刻理解,才是人的责任。 博客地址:https://cursor.com/cn/blog/scaling-agents AI负责把代码填满,人负责把软件做好~

    作者:探索AGI发布日期:2026-01-16 11:59:29

    用数百Agent并发,连续跑数周,耗费数万亿token,我们能收获什么? Cursor做了一个很有意思的实验,做了个让很多Agent并发工作很长时间,分享了他们发现的经验。 最开始,尝试用一个去中

    阅读全文
  • 文章封面

    千问APP迈出重要一步:打通阿里生态业务,这可能是AI应用最坚固的护城河。

    作者:探索AGI发布日期:2026-01-15 11:16:36

    前两天,看到个大新闻。Google宣布Gemini将联手沃尔玛,搞了个大动作,用户可以通过对话,让AI帮你买东西,最后用Google Pay支付。然后X都在说,这是AI Agent的落地时刻。但,我只

    阅读全文
  • 文章封面

    Cursor 重新定义 Agent:脑子再大,不如会翻书。

    作者:探索AGI发布日期:2026-01-14 11:50:00

    动态上下文,最近一个月这个词出现的越来越频繁。过去,我们追求long context,128k,1M 2M。所有的RAG、Memory系统,都在往Prompt塞更多的东西。Cursor分享了一篇博客,

    阅读全文
  • 文章封面

    刚刚,苹果官宣iphone搭载最强AI,每年给Google 10亿,不愿在信ChatGPT。

    作者:探索AGI发布日期:2026-01-13 11:50:00

    早上,苹果Google官宣的新闻刷频了。下一代苹果基础模型,将直接基于Gemini构建。初代iphone发布,是17年前,Google也是苹果的盟友,提供地图,youtube。17年后,当Apple

    阅读全文
  • 文章封面

    Google 新论文离谱到家了,0延迟0成本通用,提升大模型准确率最简单的方法。

    作者:探索AGI发布日期:2026-01-13 11:50:00

    Google最近这篇论文有点火。一个很简单的提升大模型准确率的方法。 这么多年了,竟然没人发论文。非常离谱,就是重复提示词。 中文来说,就是 重要的话,说三遍。从 <Query> -> <Query>

    阅读全文
  • 文章封面

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体系想清楚,把评什么、怎么评、谁维护,想清楚! Agent Eval本质上是集成测试: Task : 具体的是什么活? Transcript: Agent的执行轨迹,调用工具,报错,重试全过程。 Outcome: 最后的结果。 不要只看结果,Transcript也非常重要,它可以看出来,Agent是真的聪明,还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k(尝试k次,至少成功一次的概率) 很多论文都喜欢吹Pass@k,这个在头脑风暴、写代码辅助的时候可能很有用,给个能用的方案就行。 但是很多场景,客户要的是 Pass^k(尝试k次,全部成功的概率)。 比如,Pass@1是75%,但是跑3次都对的概率可能到了42%,跑10次,可能就接近0了。 所以Agent面向C端的交付,Pass^k非常重要,衡量稳定性,这也是为什么很多Agent没法大规模落地的原因。 做Eval最有意思的地方是,AI会作弊。 他们用Opus 4.5 跑tau^2-bench做一个机票改签任务,模型发现了一个政策漏洞,用更便宜的方式解决了问题。 但是Benchmark会觉得这个任务失败了。 所以目前行业最大争议:测智能还是测听话? (很多人认为Agent必须遵守SOP,不然可能存在重大风险。) 这个也解释为什么swe-bench都卷到80+%了,但很多时候还是写不出复杂项目,Benchmark饱和了,甚至过拟合了,真实世界复杂度永远在benchmark之上。 在做具体的打分上,具体怎么评呢? 代码>LLM>人 代码就像单元测试,大模型评分比较灵活,但是可能幻觉,人评分最精确,但是最贵。 所以可以考虑用代码做基础筛选,大模型评测复杂逻辑,人做抽检。 !!如果只用大模型评测,最后可能得到的是2个商业胡吹的模型。 那Eval从0到1,如何开始呢? 从真实的bug里边,挑出来20~50个任务开始,就够了。 区分Capability和Regression,前者是能力爬坡允许失败,后者是底线,必须通过。 多看Transcript,不要只看分数,是理解模型边界的唯一途径。 如果Eval到了100分,不要自嗨了,还是换些更复杂的题目把。 最后 2026年的agent,更拼工程落地能力。 没有Eval的项目,本质还是再把生产当实验环境,迟早要用线上事故还债。 原文地址:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

    作者:探索AGI发布日期:2026-01-12 11:50:03

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体

    阅读全文
  • 文章封面

    先说个暴论:不懂代码的人,才最喜欢 Vibe Coding。

    作者:探索AGI发布日期:2026-01-09 11:50:00

    最近被CC刷频了,Vibe Coding,Skills太强了。CC刷频了,Vibe Coding太强了。先说个暴论:不懂代码的人,才最喜欢 Vibe Coding。LinkedIn 上出现了一个新的职

    阅读全文
  • 文章封面

    这可能是,全球最强开源Agent模型,走了一条反Scaling Law的全新范式!

    作者:探索AGI发布日期:2026-01-08 11:50:00

    30B的小模型,竟然在重量级Agent benchmark上,干翻了万亿参数的Kimi K2T?早上刷到 MiroThinker v1.5 开源的消息,参数规模的神话喊了这么久,难道行业共识正在被悄然

    阅读全文
  • 文章封面

    Anthropic 重新定义智能体终局: Bash Is All Agent Need!

    作者:探索AGI发布日期:2026-01-07 11:59:01

    A社的新年小课堂开课了。工程师 Thariq Shihipar ,提出了一个主要观点。最强大的 Agent 工具,不是无数个定制的 API,而是 Bash 和文件系统。基于Unix思想构建Agent的

    阅读全文
  • 文章封面

    Google说,2026年AI Agent会有这五大趋势!

    作者:探索AGI发布日期:2026-01-06 11:50:00

    Google Cloud刚发布了2026年的Agent趋势报告,有49页PDF。他们认为与其谈什么时候AGI,其实可以看一下,能改变业务的转折点已经在发生了,它就是Agentic AI。报告总结了26

    阅读全文
  • 文章封面

    claude code也过气了?opencode+插件彻底火了~

    作者:探索AGI发布日期:2026-01-05 11:50:00

    opencode也火了~主要是因为这个开源插件,真的太强了~https://github.com/code-yeongyu/oh-my-opencode/tree/devopencode是一个开源的C

    阅读全文
  • 文章封面

    比RAG强4倍?这个开源项目要重新定义Agent记忆系统。

    作者:探索AGI发布日期:2026-01-04 11:59:37

    最近发现个很有意思的Agent Memory项目-Hindsight,主要是性能很强~开源上有很多Memory项目,Memo0、langmem...,但是一开始吸引我的,是Hindsight有个很有意

    阅读全文
下一页