全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    做大模型的和做应用套壳的,谁更值钱?

    作者:探索AGI发布日期:2025-12-30 10:16:39

    阅读全文
  • 文章封面

    Claude Skills彻底火了,真的比 MCP 简单太多了。

    作者:探索AGI发布日期:2025-12-29 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~Claude Skills在中文社区彻底火了(仅中文社区)。Anthropic 10月底推出这个功能,12月底爆发。原因很具体,它解决了一个很真实的

    阅读全文
  • 文章封面

    2025:在参差不齐的智力中,重塑世界 最近很多大佬的年度总结都出来了,比如 karpahty ... ,结合最近的思考,基本都是围绕几个关键变化。 karpathy 说, 我们不是在培养一个持续进化的动物,而是在召唤幽灵。 1. 从scaling到RLVR 今年最大的变数是RLVR,可验证奖励的强化学习 。 以前靠pre-training堆知识,现在靠test time compute 换智商。 通过在数学、代码... 可验证下的强化学习,模型学会了思考。 2.智力参差不齐 现在的模型是jagged intelligence。 即知晓万物,又会被简单的越狱策略骗到。 通用的benchmark越来越不可信,都在针对考试刷题。真实落地的关键,不是榜单第一。 而是需要mid-train,post-train,让模型在真实业务中快速对齐长尾能力。 3.vibe coding & Agent agent是从learning到doing的跳跃。 vibe coding,让代码免费、易用的一个东西了。 claude code给agent指了一条新路:Localhost。openai想在云端搞swarm。 但现实,Agent最好的归宿不是云端,而是在你的电脑里,操作你的环境,碰你的数据。 这才是最具体感的AGI。 4.应用的第一性原理 Cursor的崛起展示了新的应用层:Orchestration。 AI 应用的本质不是做一个新 App,而是替代工种。 要么旧软件AI化,要么创造AI员工。如果一个AI产品不能帮人干活,不能产生实际价值,它就没有生命力。 领域大模型,长期看是个伪命题。本质是想用know-how构建护城河,不想向AI巨头认输。 但最终,领域数据和流程最终都会汇入主模型。 5.下一步:在线学习与记忆 现在的模型最大的痛点是记性和进化 。人类记忆分层(短期、中期、长期),模型也得跟上(Context、RAG、参数)。 更重要的是在线学习(Online Learning)。 模型得有自我评估的能力,知道自己错了,然后自我迭代,而不是每次都回炉重造。 最后: 2026 年会怎样? 多模态可能会让 GUI 消失,模型直接生成界面。具身智能还在等着数据规模的爆发。 但有一点是确定的:路还很长。

    作者:探索AGI发布日期:2025-12-26 12:09:49

    2025:在参差不齐的智力中,重塑世界 最近很多大佬的年度总结都出来了,比如 karpahty ... ,结合最近的思考,基本都是围绕几个关键变化。 karpathy 说, 我们不是在培养一个持续

    阅读全文
  • 文章封面

    总是收藏从未停止,学习从未开始?这个提升效率100%的免费工具太适合你

    作者:探索AGI发布日期:2025-12-25 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这段时间,除了Gemini外,飞书多维表格的这个AI功能,已经成为我做内容最高频使用的工具了。👉 模板链接:https://xurl.run/Ze9

    阅读全文
  • 文章封面

    170次搜索+50次反思:用GLM-4.7盘点2025 Agent行业趋势,结果太震撼!

    作者:探索AGI发布日期:2025-12-24 11:50:00

    170+次搜索,50次反思,100多家企业的详细信息。这是昨天晚上,我给智谱新开源的GLM-4.7布置的一个任务,深度调研过去一年Agent哪些行业/企业赚到钱了(通过融资来筛选),第二天,它给我的答

    阅读全文
  • 文章封面

    Agent元年结束,智能体反而不火了,从飞书、钉钉AI、企微,看AI落地姿势。

    作者:探索AGI发布日期:2025-12-23 11:50:00

    今年3月,Manus刷屏了。全球首款通用AI智能体,能自己上网、自己写代码、自己交付完整任务。当时所有人都在说,Agent元年来了,通用智能体要颠覆一切。但是25年要过去了,大家发现没有?聊通用智能体

    阅读全文
  • 文章封面

    智谱、MiniMax 都在IPO,争夺 全球大模型第一股,你们怎么看? 再不上市,就来不及了, “六小虎”的故事,正在变成“美腾米字巴”。 六小虎已经变成流浪猫。 > 内容转载@Trisimo崔思莫​ 五大厂,个个都自带干粮,如狼似虎,不仅有卖模的野心,还有做云计算的野心。 云计算是连环套生意。卖模型,卖数据,卖SaaS,还能租卡,卖卡… 对于大厂来说,这笔账是立体的,如果卖模没有利润,利润可以从其他板块中来,大厂有更多方式进行平账。 现在卖模的生意可以分为: to C(消费者)没有超级入口,或者无法把Chatbot打造成超级入口,就是个赔钱玩意儿。 to B(政企)这种单子需要专门的团队伺候,维护难度很大,最后一算账,可能赔本刷存在感。 to D (开发者)这是目前的黄金生意,来钱事少,但这也是每家都盯着地盘。SWE-bench/ Pro,已经快被刷烂了。 最近的模型小米MiMo V2 Flash,豆包1.8,就是专门来干to D市场的。(小米做了AI Studio,就没做APP,豆包也没更新to C端的体验,这些新模下场就直接抢黄金地盘。) 智谱和MiniMax,当前的重心也转移到了to D,但很明显,没有独特的优势。 不仅没有护城河,甚至可以说,自己可能才是攻城一方,你要趟别家的护城河,这对Startup就有点尴尬了。一旦大厂发动极限价格战,Startup可能颗粒无收,赔本陪跑。 要成为Anthropic,这种Google都啃不动角色哪有那么容易,这个难度和成为OpenAI几乎是等量的。——不仅要好,还要好到大厂望尘莫及。所以,IPO,可能是唯一出路了。 趁着还有故事可讲,赶紧上市,拿到粮草,才有可能在这场持久战中活下来。

    作者:探索AGI发布日期:2025-12-22 20:19:51

    智谱、MiniMax 都在IPO,争夺 全球大模型第一股,你们怎么看? 再不上市,就来不及了, “六小虎”的故事,正在变成“美腾米字巴”。 六小虎已经变成流浪猫。 > 内容转载@Trisim

    阅读全文
  • 文章封面

    25年用智能体发顶会可太容易了!

    作者:探索AGI发布日期:2025-12-20 11:50:00

    看到网友说:“AI智能体在2025年注定失败?”好像还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也仅24%,长对话的To

    阅读全文
  • 文章封面

    价值十万,数字生命卡兹克的内容方法论,被AI化了?

    作者:探索AGI发布日期:2025-12-19 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~今年3月份的时候,晚点对数字生命卡兹克做了一期访谈。卡神说自己做内容,80%的时间不是在写,是在找选题。为了提高效率,他开发了一套自动化系统,每天抓

    阅读全文
  • 文章封面

    Langchain年终总结:调研1000人后,Agent最大的敌人终于浮出水面了

    作者:探索AGI发布日期:2025-12-18 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~元旦了,Langchain的年末总结来了,调研了1000多位一线人士。结论很简单:Agent已经过了炒概念的阶段,大家在意的不是要不要做,而是怎么做

    阅读全文
  • 文章封面

    国产Agent第一股要来了?但官网都打不开,什么妖魔鬼怪?

    作者:探索AGI发布日期:2025-12-17 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~早上起来刷到一个新闻,瞬间懵了~国内最大AI数字员工公司冲刺IPO!年入2.4亿,要做企业Agent第一股。数字员工这个词,在国内特别的火,甚至我之

    阅读全文
  • 文章封面

    n8n、扣子太难用了,Vibe Workflow 才是更大众的解

    作者:探索AGI发布日期:2025-12-16 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~有个很有意思的AI产品,朱啸虎投了,种子轮数百万美金,高瓴也跟了。上周似乎投了一大波流?很多自媒体都在发体验,我上半年就玩过了,体验还不错,还是开源

    阅读全文
  • 文章封面

    从大模型到多模态,图文混排Agent彻底起飞~

    作者:探索AGI发布日期:2025-12-15 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~上周是智谱的多模态开源周,从GLM 4.6v到Autoglm...看到官方的博客,第一眼比较吸引我的,不是模型本身,是他们给的一个使用场景 - 图文

    阅读全文
  • 文章封面

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史对话做RAG检索。出乎意外的简单~ ChatGPT的上下文结构。一共由6部分构成。 前2部分是一些高级指令,如system prompt,instrucions。接下来4部分是Memory的核心。四层架构:会话元数据、长期用户记忆、最近对话摘要、当前对话窗口。 最后一部分是最后一条消息。 第一层:会话元数据 每次开启会话时,系统会注入一次性的环境信息,包括设备类型、浏览器、大致位置、订阅等级、使用习惯等。 包括你用深色模式还是浅色模式,屏幕尺寸多大。 这些信息帮助模型适配你的环境,但会话结束就没了,不会永久存储。 第二层:用户记忆 这是真正的长期记忆。ChatGPT有专门的工具来存储和删除关于你的稳定事实。 在我这里,模型存了33条,包括名字、年龄、职业目标、当前项目、学习方向等。 但这些不是猜测的,只有两种情况会存储:你明确说 记住这个 ,或者模型检测到符合条件的事实且你没反对。 想增删?直接说 记住xxx 或 删除xxx 就行。 第三层:最近对话摘要 这部分比较意外。大多数人应该会觉着他们会用RAG检索所有历史对话,其实它用的是轻量摘要。 格式大概是:时间戳 + 对话标题 + 用户消息片段。 只总结你说的话,不包括助手回复。大约保留15条左右。 这给了ChatGPT跨对话的连续感,但不需要拉取完整历史。 传统RAG需要嵌入每条消息、做相似度搜索、拉取完整上下文,延迟和成本都高。 ChatGPT的做法是预计算轻量摘要直接注入,用精度换速度。 第四层:当前对话窗口 这是当前会话的滑动窗口,包含完整对话历史(非摘要)。 具体token限制没问出来,但确认了:基于token数而非消息数计算,超出后旧消息滚动淘汰,但记忆事实和对话摘要始终保留。 在发消息的时候,会话元数据给环境上下文,用户记忆确保回复符合你的背景偏好,对话摘要提供跨对话的兴趣图谱,当前窗口维持会话内的连贯性。 当上下文紧张时,旧消息滚出,但核心记忆始终在。 详细细节可以在这里看到:https://manthanguptaa.in/posts/chatgpt_memory/

    作者:探索AGI发布日期:2025-12-12 11:11:20

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史

    阅读全文
  • 文章封面

    硅谷用开源模型做闭源,阿里千问杀疯了!

    作者:探索AGI发布日期:2025-12-11 14:45:09

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~今天,彭博社爆料,Meta将在明年春季发布牛油果大模型。并且这个闭源模型,是从开源模型中蒸馏来的,其中就包含了千问模型。我们可以很清晰的看到,一个新

    阅读全文
  • 文章封面

    Anthropic复盘了Agent元年,下半场别再造Agent了。

    作者:探索AGI发布日期:2025-12-10 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~Anthropic 分享了一些最新的insight。一个暴论:别再造 Agent 了,开始造 Skills 吧。早期的时候,他们发现,不同领域的 A

    阅读全文
  • 文章封面

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,代码Apache-2.0,50+中文App适配,Phone Use 能力框架与工具链,拿来就能用。 前几天,豆包手机太火了,陆续被各种APP封杀。 说白了,大家都觉得你用AI Agent操作我的App,不安全,不合规,管你是什么大模型,先封了再说。 从技术上讲,GUI Agent和群控软件是两码事。群控是几百台手机批量执行死命令,做流量造假; GUI Agent是让大模型看屏幕,理解意图,模拟真人操作。谁会用大模型token去做群控?太贵了。 但微信不管这些。它的逻辑是:非人操作特征相似,宁可错杀,不放过。 问题来了:我花钱买的手机,我注册的账号,我有权利授权我的 电子助理 帮我操作吗? 现实中我让别人帮我回微信没问题,换成AI就不行了? 操作系统本应是App的宿主,但超级App已经长成了国中之国,大到可以反过来要挟OS。 为什么Agent非要走模拟点击这条路?因为App的大门紧锁。 各家都把用户圈在自己的围墙花园里,美团不会开放API让你比价饿了么,淘宝不会让你跨平台一键下单。这等于把流量分发权拱手让人。 所以OS级的Agent想要跨应用服务用户,无路可走。 那AutoGLM怎么做的呢? 云手机+主动放弃微信等敏感App。数据隔离,先把能做的做好。 这并没有解决根本问题,现阶段可能根本无解。 可能要等到行业被逼出一个标准,等到A2A协议落地。未来也许是这样,各家App内置Sub-Agent接口,OS Agent当总指挥,App Agent当执行者,走标准协议互通。 不需要模拟点击,安全可控合规。 苹果其实早就搞了App Intents想干这事,但Siri太拉,生态跟着荒废了。 回到AutoGLM开源这件事。 智谱说,这件事只在一家公司做是不够的。Agent的爆发,需要所有人一起参与。更重要的是,隐私和控制权要留在使用方这边。通过开源和私有化部署,企业可以在自己的环境里掌控一切。 这才是开源的意义:技术向生态开放,数据留在用户手里。 github.com/zai-org/Open-AutoGLM

    作者:探索AGI发布日期:2025-12-09 11:50:00

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,

    阅读全文
  • 文章封面

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD: 注意缺陷多动障碍,是一种神经发展障碍。主要表现为注意力无法持久集中、过度活跃和情绪易冲动等。】 比如给他说,收拾房间,它把任务拆成一步步的小目标,还预估每步要多久。 给他说 我要准备面试,它帮你列出具体要做的事,按优先级排好。 区别于各种通用Agent,它不是帮我们做事情,是帮这类人群,不知道从哪开始 变成 下一步做什么。对ADHD来说,这一步非常的难。 付费用户50万,年收入1390万美元。 iPad年度应用Detail,AI视频编辑工具。核心功能是一键生成短视频片段,AI自动找到视频里最有趣的部分,帮你剪好。 苹果的评价是 民主化了视频制作流程。说人话就是:让不会剪辑的人也能做出能看的内容,非常的迎合短视频、直播时代。 Mac年度应用Essayist,处理论文格式的,适合学生群体,自动完成论文排版、图标、共识、脚注等等。 Apple Watch年度应用Strava,老牌APP了,这次主打的智能是,可以把心率、配速、海报这些整理出人话。 告诉你这次跑得怎么样,哪里可以改进。分析音乐和天气对你运动表现的影响等等。 Strava去年营收3.38亿美元,月活快5000万。AI只是锦上添花,但这个花加得很有意思。 文化影响力奖给了Be My Eyes,给视障人群用的应用。 拍张照,AI告诉你照片里是什么。能识别物体、读标签、描述场景。配合全球几百万志愿者,AI解决不了的问题,真人来帮忙。 中国区入围的有一个拿了苹果设计奖。叫CapWords,对着东西拍照,AI识别后生成词汇贴纸,所见即所学。 支持英语、日语、法语、粤语等。 可以很明显的看到一点,到今天,ChatGPT,3岁了。 AI已经不再是产品卖点,赚钱最多的,往往不是AI功能最炫的,而是把AI用得最 刚好的。

    作者:探索AGI发布日期:2025-12-08 11:50:00

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD

    阅读全文
  • 文章封面

    年终总结,通用Agent在企业落地,为什么这么难?到底要怎么做?

    作者:探索AGI发布日期:2025-12-05 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~之前咱们分享过,Gartner预测,到2027年底,超过40%的Agentic AI项目将被取消。为什么很多在Demo阶段表现很惊艳,到企业实践里就

    阅读全文
  • 文章封面

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/076.htm @布鲁卡 介绍了这个事情的来龙去脉: 任何试图通过自然语言 模拟点击方式操作微信的,都是高压线。微信在这件事情上非常抵触,所以各厂商即便有这个能力,也都下掉了。 现在的情况是,豆包手机助手涉及微信的操作直接显示 任务失败,明确告诉你不支持微信操作。 也就是说,你想让AI帮你发条消息,那是不可能的。 唯一解法?张小龙自己做? 一个很现实的问题:海外的AI Agent玩的风生水起,各种浏览器自动化、手机操控、全流程代理,在国内呢?可能在很多应用里边,直接走不通。 安全和便利的博弈,在国内,安全永远赢。AI悄悄给你卡里的几块钱转走,是最容易被扯出来的借口。 但更深层的问题是,应用不可能开放权限让Agent来操作。不然很容易会被干成一个后台程序,这和被干死了没区别。 尤其像微信这种,承载了太多东西,通讯、支付、小程序、社交,它不可能甘心变成别人的基础设施。 所以说,移动端Agent在国内的落地,可能真的需要换一种思路。要么等wx自己做,要么换个App?但这基本不可能。 天下苦wx久矣,但也只能继续苦着。

    作者:探索AGI发布日期:2025-12-04 11:50:00

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/0

    阅读全文
  • 文章封面

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执行文件。Bun崩了,Claude Code就崩了。 这个事情还有个很有意思的地方, Bun 的创始人Jarred Sumner说, Bun 代码库里合并PR最多的用户,是一个 Claude Code 的 bot。 这个bot能自己修 bug、开 PR、写测试、回复 review 评论,完成整个开发流程。Jarred 说这大概领先行业几个月。 当大部分代码由 Agent 生成时,基础设施层会变得比以往任何时候都重要。 原因很简单: Agent 写代码比人快,一分钟可能跑几十个版本的构建-测试-部署循环,运行时不快就是瓶颈。 Agent 的分发需要极致简洁,Bun 的单文件可执行文件正好解决这个问题。编译成一个二进制,用户不用装 Bun 也不用装 Node,直接跑。 上下文窗口寸土寸金,运行环境越可预测、启动越快、输出越干净,Agent 的推理质量就越高。 Claude Code、FactoryAI、OpenCode 这些 AI 工具都在用 Bun 构建。 为什么现在不流行云托管了呢? 以前投资人问怎么赚钱,标准答案是以后做云托管。 Bun选了第三条路:成为 AI 基础设施的一部分,而不是独立商业产品。 这其实是一种新的开源商业模式。直接让大厂买单。用户也不用担心这项目会不会黄。 Anthropic+Bun 的组合,有点像 Google Chrome + V8、Safari + JavaScriptCore 的关系,但会保持更大的独立性。 最后 Bun 开源不变、MIT 许可不变、原团队继续维护。对普通用户来说,该用继续用,甚至可以更放心用了。 这些都预示着。下一波aI的战场,正从模型下沉到基础设施。

    作者:探索AGI发布日期:2025-12-03 11:51:00

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执

    阅读全文
  • 文章封面

    DeepSeek开源,Agent能力大升级,剧透2026!

    作者:探索AGI发布日期:2025-12-02 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~DeepSeek 昨晚更新并开源了 V3.2 正式版,同时带来了长思考增强版 V3.2-Speciale。这次更新最大的亮点在于 Agent 能力的

    阅读全文
  • 文章封面

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。 Mem0是 2024年火起来的一个项目。 它的方案也很简单,自动抽取、自动存储,几行代码就能让AI 变得有记忆。但问题也明显:过度抽取、容易漂移、长期一致性差。 它的核心贡献在于,让世界认识了AI记忆,但不是下一代Agent的基础。 Zep是第一个把记忆做成服务的系统,时序图谱、Docker部署、权限体系,企业级可用。而且在很多横评里边,比官方的数据更好,说明整体在持续迭代。 它的定位是 AI的数据层,稳健,但不是大脑层。 MemOS走的是另一条路,记忆本身也应该是可学习的结构。张量化记忆单元,很有研究气质,但系统较重,不适合轻量场景。 MemU把记忆组织成树,层级分类、动态扩展。在用户画像这类结构化任务上表现不错,但开放域推理不足。 有个问题是外部横评分数远低于官方报告,差距是这几家里最大的。 EverMemOS是最晚亮相的,但技术体系最完整。仿生四层架构,按主题而非token切分记忆,快速召回+深度推理。开源版分数92.3%,是唯一在综合得分上超越LLM Full-context的记忆系统。 一句话总结一下:EverMemOS是集大成者,Zep是企业级稳定标杆,MemOS在探索前沿,MemU专注结构化,Mem0完成了早期概念验证。 如果说模型代表推理,工具代表行动,那么记忆就代表身份、历史、偏好。没有记忆的AI,只能像失忆症患者一样依赖上下文。 这场关于记忆的竞争才刚刚开始。 可以在下面地址看到各种评测: https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation https://huggingface.co/datasets/MemTensor/MemOS_eval_result

    作者:探索AGI发布日期:2025-12-01 11:53:38

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。

    阅读全文
  • 文章封面

    Agent爆发!一文搞懂智能体所有本质问题

    作者:探索AGI发布日期:2025-11-28 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪心,想一口气把所有功能全写完,结果上下文爆了,代码写一半人没了。下一个Agent接手的时候,看着一堆残缺代码,只能靠猜。 第二种更离谱,Agent看了看项目,发现已经有一些功能了,直接宣布大功告成,收工。 解决方案很简单,模仿人的工作方式。 一个两阶段系统: 第一阶段是初始化Agent,只干一件事,把环境搭好。写个init.sh脚本、建个进度文件claude-progress.txt,做第一次git commit。 相当于做一个项目启动会,把需求拆成200多个小功能点,全部标记为 未完成。 第二阶段是干活Agent,每次只做一件事。每个Agent上来先读进度文件和git log,搞清楚现在做到哪了,然后挑一个没做的功能开干。 干完了必须写commit、更新进度文件,保证下一个Agent接手时不抓瞎。 核心在于,让每个Agent都能快速理解项目状态。 有一个细节很有意思。他们发现Agent特别喜欢 自我感觉良好,代码写完就觉得完事了,根本不测。 解决办法是给Agent配个Puppeteer,强制它像真人一样去浏览器里点点点,跑端到端测试。这一招下去,bug发现率直接上来了。 但也有翻车的时候,比如浏览器的alert弹窗,Puppeteer抓不到,Agent就看不见,这些功能就容易出bug。 博客地址:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents 另外,其实3天前,他们也发了一篇关于ToolUse优化的文章:https://www.anthropic.com/engineering/advanced-tool-use 3板斧 Tool Search Tool, 让模型可以按需搜索。 Programmatic Tool Calling, 让模型从调用api,变成自己写代码处理数据。 Tool Use Examples, 多给一些few shot的工具使用例子。 A社的每一篇博客,其实都在试图把Agent从玄学变成工程学~

    作者:探索AGI发布日期:2025-11-27 11:50:00

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪

    阅读全文
  • 文章封面

    Ilya 最新访谈,预训练时代终结后,AI行业来到了哪里?

    作者:探索AGI发布日期:2025-11-26 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~llya Sutskever 终于露面了,而且是一场 90 多分钟的深度访谈!达瓦卡什太牛逼了,今年采访到了Rich Sutton,Karpathy

    阅读全文
  • 文章封面

    一句话做电商套图,提效100倍,这可能是今年最成功的电商垂域Agent了!

    作者:探索AGI发布日期:2025-11-25 12:00:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天 Nano Banana Pro太刷屏了。模型即产品已经成了大多数人的共识。但是,其实想让模型做好一个垂域场景,SOTA模型其实只是一个半成品

    阅读全文
  • 文章封面

    Game Over,NotebookLM最近推出的Slide Decks,彻底杀疯了

    作者:探索AGI发布日期:2025-11-24 11:50:00

    阅读全文
  • 文章封面

    4天100万下载,这个移动端Agent直接给谷歌偷家了。

    作者:探索AGI发布日期:2025-11-22 13:42:51

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天,蚂蚁的灵光真是杀疯了,作为行业首个全模态助手。用了灵光一现,这个名字,真的很妙,离普通人真的非常的近。市场对这个新概念非常买单,上线24小时

    阅读全文
  • 文章封面

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的图好看是基本,分辨率4K。 但这玩意他是一个披着画画的推理模型。 画之前,会先思考。 比如说物理模拟,光从哪来,影子怎么投,人物动作。 已经不是过去靠概率拼像素的时代了,先预演,在把照片拍给你。 所以我们可以看到了,各种,完美处理多格漫画, 非常的连续,把气泡里的英文翻译成中文,还能完美地填回去。 还有一个被所有人低估的一个功能, Grounding with Search。 说白了,就是可以先搜索,把实时的数据,放在预演里边。 谷歌本身掌握着全球最大的实时知识库(Search),又有最强多模态模型,还有硬件,这似乎有点恐怖,3季度巴菲特都开始买谷歌了。 从Gemini3 ,来看 Scaling law, 为什么这玩意又行了? 从Gemini开发大佬的twitter说的,就是暴力 Scaling Up。Scaling Law 根本没失效,失效的只是你们数据不够了。 马斯克在搞grok wiki,就是因为xAI的数据太脏了,洗不出来。而Google有全球最庞大的高质量私有数据。 Gemini 3 Pro 在预训练和后训练阶段都拉满了 Scaling。虽然感觉复杂代码上似乎还比不上Anthropic,通用认知,世界模型,已经利用数据优势构筑了护城河。 Unseen, Unknown. 最后说个实用的。Nano Banana Pro 的 Prompt 逻辑也变了。 Google 的产品经理 Bea Alessio 给了一套公式: 主体 + 构图 + 动作 + 场景 + 风格 + 编辑指令 它允许你像剪辑视频一样,输入14张图,保持角色一致,然后随意调整光影、角度。 Google 在告诉世界:通往 AGI 的路,必须是原生多模态。 一个能看、能听、能查搜索、还能逻辑自洽的模型,才配叫 AGI。 这才是 AI Native 该有的样子。

    作者:探索AGI发布日期:2025-11-21 11:52:18

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的

    阅读全文
上一页下一页