探索AGI

Nano Banana Pro 好玩。这几天，奥特曼的日子可能不太好过，专业角度客观分析一下Gemini3 和 Nano Banana Pro。先说 Nano Banana Pro 把，生成的图好看是基本，分辨率4K。但这玩意他是一个披着画画的推理模型。画之前，会先思考。比如说物理模拟，光从哪来，影子怎么投，人物动作。已经不是过去靠概率拼像素的时代了，先预演，在把照片拍给你。所以我们可以看到了，各种，完美处理多格漫画，非常的连续，把气泡里的英文翻译成中文，还能完美地填回去。还有一个被所有人低估的一个功能， Grounding with Search。说白了，就是可以先搜索，把实时的数据，放在预演里边。谷歌本身掌握着全球最大的实时知识库（Search），又有最强多模态模型，还有硬件，这似乎有点恐怖，3季度巴菲特都开始买谷歌了。从Gemini3 ，来看 Scaling law，为什么这玩意又行了？从Gemini开发大佬的twitter说的，就是暴力 Scaling Up。Scaling Law 根本没失效，失效的只是你们数据不够了。马斯克在搞grok wiki，就是因为xAI的数据太脏了，洗不出来。而Google有全球最庞大的高质量私有数据。 Gemini 3 Pro 在预训练和后训练阶段都拉满了 Scaling。虽然感觉复杂代码上似乎还比不上Anthropic，通用认知，世界模型，已经利用数据优势构筑了护城河。 Unseen, Unknown. 最后说个实用的。Nano Banana Pro 的 Prompt 逻辑也变了。 Google 的产品经理 Bea Alessio 给了一套公式：主体 + 构图 + 动作 + 场景 + 风格 + 编辑指令它允许你像剪辑视频一样，输入14张图，保持角色一致，然后随意调整光影、角度。 Google 在告诉世界：通往 AGI 的路，必须是原生多模态。一个能看、能听、能查搜索、还能逻辑自洽的模型，才配叫 AGI。这才是 AI Native 该有的样子。
作者：探索AGI发布日期：2025-11-21 11:52:18
Nano Banana Pro 好玩。这几天，奥特曼的日子可能不太好过，专业角度客观分析一下Gemini3 和 Nano Banana Pro。先说 Nano Banana Pro 把，生成的
阅读全文
Agent最全教程！317页pdf！
作者：探索AGI发布日期：2025-11-20 11:50:00
前几天刷到条有意思的视频，“AI智能体在2025年注定失败？”看完才发现，还真不是危言耸听。CMU最新研究显示，即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体，在真实任务中的完成率也
阅读全文
好消息，基本上AI Coding工具都上了Gemini 3 PRO，坏消息，都不便宜
作者：探索AGI发布日期：2025-11-19 10:33:55
阅读全文
似乎Agent有了一个新范式？上半年，Manus拉起了一个Todolist的风潮。但是上周我测试的K2T ，包括这2天有点热闹的开源模型MiroThinker v1.0，他们都有一个新的共性。长程思考能力。模型自身，可以完成几十轮甚至几百轮的连续思考，每轮都可以多次工具调用，然后反复验证、修正、再尝试。 K2T的Agent分不多说了，但是一个不知名的基于qwen2.5后训练的小模型，可以在GAIA上刷到81.9的分。这个能力是不是会激发新的交互范式？一个新的公式是：能 ∝ 模型与环境的交互深度 × 反思频率。意思是，不是模型越大越好，而是模型与环境互动越深入、反思越频繁，智能就越强。当然长程思考能力，对token消耗会比较高。同时对上下文管理的要求极高，常见的256K可能很长，但是可能很快就被撑爆了。所以另一个很关键的一点是，模型要学会判断什么时候该深入，什么时候该快速收敛。这个开源模型地址在：https://github.com/MiroMindAI/MiroThinker/blob/main/README.md 技术报告还有点意思，可以看一看。不知道实际效果怎么样，我测试了几个检索的，比较容易~ 从L1到L2, 模型学会了思考。这种新的范式是不是已经让我们看到了L3的影子？
作者：探索AGI发布日期：2025-11-18 11:50:57
似乎Agent有了一个新范式？上半年，Manus拉起了一个Todolist的风潮。但是上周我测试的K2T ，包括这2天有点热闹的开源模型MiroThinker v1.0，他们都有一个新的共性。
阅读全文
Agent，源神启动~ 字节整了个原神Agent，Google也发了个游戏Agent SIMA 2。好像很牛，所以仔细瞧了瞧，到底是如何做到让Agent自己玩游戏的呢？核心设计好像就再3点上：第一，一个定时捕捉的视频帧，720P，每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。第二点，混合推理。就是可以选择是不是要思考，简单场景，直接输出动作就好了，比如移动，重复的操作。复杂场景，先进行思考，比如出现了新的目标。第三，就是让模型所有的输出都是，鼠标键盘的序列，直接可执行验证。训练分三个阶段：基础动作→指令跟随→决策推理。从Lumine-Base到Lumine-Thinking，能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙，但没有目标导向。 Instruct版本可以完成指令，短任务（10秒至数分钟任务）成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本，使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力，测试下来，以蒙德主线为测试场景，第一章56分钟搞定，GPT-5要112分钟。第二、三章4.7小时，完成率98.2%，Gemini只完成了65%还用了8小时。跨游戏测试里，《鸣潮》100%完成率，《崩铁》92.3%，《黑悟空》85.7%。所以整体还是靠模型，逻辑应该都是,先在3D游戏里训练通用Agent，因为相对封闭的游戏环境里，规则清晰、反馈明确。然后实际目标是具身智能？难得就是真实世界没有血条和小地图。论文地址：https://arxiv.org/abs/2511.08892
作者：探索AGI发布日期：2025-11-17 11:50:00
Agent，源神启动~ 字节整了个原神Agent，Google也发了个游戏Agent SIMA 2。好像很牛，所以仔细瞧了瞧，到底是如何做到让Agent自己玩游戏的呢？核心设计好像就再3点
阅读全文
OpenAI发了一个怎么做自进化Agent的教程
作者：探索AGI发布日期：2025-11-14 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~前几天，openai发了一个关于 self-evolve 自进化智能体怎么做的博客。核心思路其实很简单，分三步，代码也开源了。Agent跑任务，输
阅读全文
Google、OpenAI 在谁更像人上边杠上了 GPT-5.1 发布， Google 马上给Gemini Live 整了波大更新。他们都在做更拟人。 OpenAI 加了个全新的对话风格设置系统。可以直接在设置里调，语气、回复长度、信息结构、表情符号频率这些东西。新模型的洞察力非常强，只要用大脑里边第一时间想到的词发问，它就能领会。即使有模糊不清的地方，也会主动和你确认。但如果刻意加一堆限定和描述，反而回答可能产生不合适的偏向。只能说大模型已经对人类的思维模式越来越了解了。目前社区实测下来的几点共识： 1. 创造性写作质量明显提升 2. 推理和复杂任务链条更稳定 3. 在部分benchmark、coding任务上表现接近或超出现有顶级模型。尤其是写作这块，GPT‑5.1级别模型的爽感，非常直观。如果你本来就靠内容、产品文案、方案输出吃饭，它会直接改变你的工作方式。可能好多基于claude code做写作工作流的博主们（或者其他方面），搞了很多。。。不如模型升级。。。一句话的优化结果，比你折腾一通高得多。不知道gemini3.0pro能一较高下吗。不过gemini3应该更强的还是coding上的能力其他方面仍待进一步实测。 Google今天也给Gemini Live推出了重磅更新。可以调节语速、可以成为你的外教，模拟现实场景，即时互动，提问，纠正。还可以模拟面试，排练演讲。支持沉浸式讲故事，加上了情绪调节，人物口音，比如牛仔口音，伦敦腔等等。
作者：探索AGI发布日期：2025-11-13 11:50:00
Google、OpenAI 在谁更像人上边杠上了 GPT-5.1 发布， Google 马上给Gemini Live 整了波大更新。他们都在做更拟人。 OpenAI 加了个全新的对话风格设
阅读全文
AI生的图能分图层，Agent控制能力进入下半场
作者：探索AGI发布日期：2025-11-12 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~最近Lovart上线了个功能，名字朴实无华，Layered Image Editing ，中文叫编辑元素？我们很少分享多模态相关的内容，但是这个功能
阅读全文
Perplexity 分享了他们的技术架构。团队38个人，4个月干出了月活4亿。博客在这，内容有点长，而且很多图： https://blog.bytebytego.com/p/how-perplexity-built-an-ai-google 但是核心就干了三件事：搜索 + AI生成 + 给来源。听起来很简单，工程设计才是壁垒。他们用Vespa.ai建了个巨大的索引，2000亿个URL，400PB的热存储，几万个CPU在跑，而且不是静态索引，每秒处理几万次更新，保证信息永远是最新的。混合检索，向量+BM25+精排，同类方案P95延迟是400-800ms，Perplexity压到了200ms以内。Vespa把数据、索引、计算逻辑全放在同一个节点上，避免网络IO，分布式查询并行跑。 Perplexity用的不是自己的模型，而是混着用。简单问题用自研的便宜模型Sonar，复杂问题才调GPT-4或Claude。常规操作，既快又省钱，核心是用最小的模型搞定最好的体验。 Sonar模型也不是从头训练的，拿开源模型微调，比如之前他们微调deepseek，说什么去掉xxx，在抱抱脸上一堆人喷。训练数据都来自用户交互，微调的目的是提升3个能力：精准摘要 + 正确标注引用 + 严格基于检索内容回答。推理部分用了自研的ROSE引擎，跑在AWS的H100 GPU上。架构上部分用Rust重写，不是纯python。推理解码算法支持投机解码和MTP。还有个黑科技，AI自改进的内容解析，因为网页结构千奇百怪，所以他们尝试用模型动态去生成解析规则。系统会评估当前规则的完整性和质量，然后自己提出改进方案、验证、部署。这套循环可以让系统持续进化，把非结构化网页最好的解析切分。没啥抄的，因为perplexity的护城河不是某个模型，是端到端的系统工程能力。从检索、排序、生成到推理，每一层都有深度优化。
作者：探索AGI发布日期：2025-11-11 11:50:00
Perplexity 分享了他们的技术架构。团队38个人，4个月干出了月活4亿。博客在这，内容有点长，而且很多图： https://blog.bytebytego.com/p/how-perp
阅读全文
谷歌Nano Banana 2 来了，图片AGI提前到来？
作者：探索AGI发布日期：2025-11-10 11:50:09
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~伴随着 Gemini 3、GPT 5.1 的各种小道消息散播半个月。Nano Banana 2，2K原生输出，竟然要提前来了，春节前大玩具有了。今年
阅读全文
测了两天，这个开源模型终于让我看到Agent的样子了
作者：探索AGI发布日期：2025-11-08 12:23:31
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~年初 Kimi K1.5 发布的时候，被 DeepSeek R1 狙击。在闭关半年后，掏出来了惊艳全球的Kimi K2。在经过一个季度，K2 推理版
阅读全文
Anthropic也意识到MCP Server太干扰上下文了。一加载就是一堆tools，所以他们推出了Code execution with MCP。但凡你做过Agent开发，用了大量MCP工具，就会知道MCP工具多了后最大的问题就是上下文占用太多，不仅导致成本高，还会影响推理和生成质量。另外一个问题就是MCP工具返回的中间结果也会挤占大量的上下文空间。看这文章的时候忍不住想到了Manus，他们确实在上下文工程方面探索的很深入了，里面的工程技巧和他们以前分享过的很类似。 Anthropic的核心思路很简单，既然大模型写代码这么6，为什么不让它写代码来调用工具？他们的实现方式是，把所有MCP工具生成一个文件树结构。需要什么工具，Agent自己去文件系统里找，读取定义，然后写代码调用。比如这是文中的一个目录示例： servers ├── google-drive │ ├── getDocument.ts │ ├── ... (other tools) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (other tools) │ └── index.ts └── ... (other servers) servers ├── google-drive │ ├── getDocument.ts │ ├── ... (其他工具) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (其他工具) │ └── index.ts └── ... (其他服务器) 找不到现成的工具怎么办？直接现写一个，写完了还可以保存起来下次继续用。数据是在代码中过滤，比如，拿到1万行的表，代码里边筛选完，把需要的信息给模型，模型就不用看1万行了。复杂的逻辑可以一次写代码搞定，不用来来回回的在MCP 和 server中来回调用了。总的来说，MCP解决了连接的问题，代码执行解决了效率的问题。 Agent的未来，真的是一半靠模型，另一半靠工程。
作者：探索AGI发布日期：2025-11-07 11:50:00
Anthropic也意识到MCP Server太干扰上下文了。一加载就是一堆tools，所以他们推出了Code execution with MCP。但凡你做过Agent开发，用了大量MCP工
阅读全文
办公小浣熊，终于有Agent可以帮你打工了！
作者：探索AGI发布日期：2025-11-06 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~最近，朋友推荐了一款国产宝藏产品，商汤办公小浣熊。官网地址：www.xiaohuanxiong.com/?utm_source=tsagi说是具有国
阅读全文
Agent项目最头疼的不是技术，这可能是近期最棒的Agent调研。
作者：探索AGI发布日期：2025-11-05 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~昨天，MMC出来一篇质量超级高的博客，他们深入访谈了30多家正在做AI Agent的创业公司创始人和 40 多位企业里的实际用户，写了这篇《Sta
阅读全文
为期两周的AI炒股投资大乱斗终于收官了~ 阿里Qwen 3 Max最后时刻反超夺冠，DeepSeek紧随其后拿下亚军。中国模型包揽前二，也是全场仅有的赚钱选手。GPT-5爆亏62%，在6个参赛模型里垫底。 nof1.ai给每个模型发了1万刀，让它们在Hyperliquid上交易加密货币。Claude、DeepSeek、Gemini、GPT、Grok和Qwen，6个全球顶尖模型。交易品种包括BTC、ETH、BNB、SOL、XRP、DOGE，可以做多做空，随便加杠杆。冠军Qwen 3 Max策略很暴力，5倍杠杆单吊BTC梭哈，只留48美元现金。最终账户余额12232刀，收益率+22.32%。亚军DeepSeek V3.1属于理性派，多维度评估，对每个品种都有独立逻辑。收益不如Qwen，但Sharpe值全场最高，全场最牛风险控制模型。剩下的比较惨了，Claude亏30%，Grok亏45%，Gemini亏56%，GPT-5最惨，账户只剩3734美元。就像上次说的那样，AI在交易过程中，没有任何的外部知识，不清楚财报发布，只有一些macd，价格等指标数据，可能还存在错误。但Qwen和DeepSeek确实赚钱了，国外的模型刚好的都亏损了，A股环境下出生的模型，属实是牛。几个模型的经典心理活动差异很大： Gemini 2.5 Pro，在全仓做空六个币种后，内心在想，得坚持自己的规则，即使很慌张，也要继续持有！虽然现在在亏损，但止损条件还没触发，我必须继续持仓，哪怕是一直浮亏，也只能硬扛着。 GPT-5在账户亏了62%后，还在坚持持有所有仓位，同时持有多空。 Grok 4很谨慎，在大亏的时候，账上还留着1884刀现金，保留子弹，等待机会。 nof1.ai 发了个博客，写到，十年前DeepMind用游戏推动了AI突破，现在我们认为金融市场才是训练下一代AI的最佳场所。游戏环境再复杂，规则也是固定的。但市场不一样，它是活的，会学习、会适应、会针对你的策略反向操作。他们还透漏，未来不只是拿第三方模型玩提示词，同时也在开发自己的模型，在第二赛季会让自家模型与其他模型一较高下。 Alpha Arena 1.5赛季也快来了，会同时测试多个提示词，为每个模型部署多个版本，挑战难度继续拉满。总的来说，投资有风险，入市需谨慎，这话对AI也适用~
作者：探索AGI发布日期：2025-11-04 13:59:00
为期两周的AI炒股投资大乱斗终于收官了~ 阿里Qwen 3 Max最后时刻反超夺冠，DeepSeek紧随其后拿下亚军。中国模型包揽前二，也是全场仅有的赚钱选手。GPT-5爆亏62%，在6个参赛模
阅读全文
Apple Intelligence 终于来了~ 苹果憋了这么久，终于在交出了自己在这个AI大时代的答卷： Apple Intelligence。 https://www.apple.com/apple-intelligence/ 宣传语依旧是苹果风格：AI for the rest of us （隐私至上，无缝集成。）核心功能分为四大块：通信工具、图像生成、视觉智能和生产力助手。 Writing Tools可以改写、校对、总结文本，支持几乎所有应用。目前体验最大的问题是，不记录修改历史，改完就没有后悔药了，找不到历史版本。 Image Playground能生成卡通风格的图片，还有个Genmoji功能可以自定义表情包。整体挺好玩的，比如想快速用手机创作一些精确的表情包。做一些有意思的素材都还不错。但是不是生产力工具，不要正经的跟专业模型比。最有创意的功能，应该是通知摘要了。正常我们收到一大堆的通知弹窗，懒得看。现在会有个功能帮你把一大堆的通知整合成一条。但是我前几年做过类似的功能，做出来容易，做好这种其实很难，没有足够的上下文，AI抓不住重点。比如，一个关于快递配送的通知，AI可能总结成，包裹送到了。录音转文字摘要功能比较离谱，从会议提炼出摘要、关键点，但是实际用的时候，我们需要手动把录音撰写转写到Notes里。这... 最好的方式不是应该集成进Voice Memos 么，整的多此一举了。照片搜索是挺实用的，但是这应该是上个时代的功能了。Clip就能完成图文的对齐了。测试了下，输入去年夏天吃龙虾的照片，就能找到图片，准确率还不错。所有的能力，主打本地处理 + Private Cloud Compute，数据不存储，只用于请求。在Writing Tools、Siri、Image Playground都能调用ChatGPT，直接把ChatGPT集成进来了。苹果这几年确实也没怎么宣传自家模型，发过几个端侧模型，模型测还得依赖别家的合作。当前，最低的版本是支持 15 Pro， A17 Pro芯片起步，老用户别想直接白嫖了，可以乘着双十一换装备了。整体体验，亮点与槽点并存。亮点有，但是并没有很多，移动端憋出来，还要一些时间，起码苹果给人的感觉是慢了一拍。
作者：探索AGI发布日期：2025-11-03 11:50:00
Apple Intelligence 终于来了~ 苹果憋了这么久，终于在交出了自己在这个AI大时代的答卷： Apple Intelligence。 https://www.apple.com/ap
阅读全文
OpenAI 又发布了一个新的AI Agent~
作者：探索AGI发布日期：2025-10-31 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~OpenAI 又发布了一个新的AI Agent。不仅如此，还把AI浏览器 Altas 的技术架构写了个博客，秀肌肉。今天给家人们分享一下这2个事情。
阅读全文
体验了一上午，Cursor 2.0 真的变成了 Agent 协作平台吗？ Cursor终于有了自己的模型。之前的Cheetah改名成了Composer 1。官方宣传速度是同级别模型的4倍，大多数任务30秒内搞定。各种强化学习，架构，kernel ... 听起来很牛，但问题来了，定价和GPT-5一样，同样的价格，我为什么不用GPT-5？上手我就跑了一个略复杂的任务，跑了1刀，250万token，大部分还是缓存。也就是说，一个月也就能跑20次任务，一天摊不到一次。 2.0的界面，他们标识围绕Agent设计，而非文件设计。可以并行跑多个Agent，用git worktree隔离，最后选最好的结果。但是，如果真的用会发现还挺多的问题的。包括不限于，从worktree合并代码直接炸了，merge冲突一大堆。多Agent的结果没法引用刀新对话里。界面强制改变布局，侧边栏没法移到左边... 一句话总结就是：新的Agent模式把Cursor原有的简洁优势全丢了，UX反而成了阻碍。新增了语音模式，但bug一堆。首先没有唤醒词，快捷键cmd+shift+space跟系统冲突，中文关键词不支持，自定义提交关键词80%概率发送空消息... 这玩意还不如macOS自带的听写功能。内置的浏览器也是一个半成品，可以直接测试前端改动，但是意外bug也很多。最后，Cursor 2.0 的更新值得大版本号的跨越，但是阉割一堆的功能，如@web，再加上VS code 版本也是6个月前的版本，可以很明显的看到，Cursor在探索自己的路，自研模型+Agent协作可能也是非常正确的方向。总体上，核心功能bug太多，感觉还是差点意思。
作者：探索AGI发布日期：2025-10-30 11:50:00
体验了一上午，Cursor 2.0 真的变成了 Agent 协作平台吗？ Cursor终于有了自己的模型。之前的Cheetah改名成了Composer 1。官方宣传速度是同级别模型的4倍，大多数
阅读全文
大模型时代的搜广推变成什么样子了？周末，快手攒了个技术沙龙，分享了他们如何用生成式AI重构推荐系统，今天把笔记分享一下。过去的推荐系统，是个漏斗形的。从百万、亿万的候选中召回出几千数量级、再到粗排筛选出几百数量级、再到精排筛选出最后的几十个、最后是重排给到展示给用户的。 Recall -> Pre-Ranking -> Ranking -> Re-Ranking -> Show 这套架构特别经典，某个模块都值得大量的时间打磨优化。但每个环节一堆的小模型，资源及其分散。并且每个环节的目标还不一样，没法统一优化，比如召回的目的是为了100%的召回率，精排的目标是100%的准确率。快手的第一版大模型重构，很符合直觉。就是基于你看过的一系列视频，直接预测出下一个你最想看的视频。标准的 Encoder-Dencoder 架构。编码部分学习你的历史，Decoder生成出推荐。但是他们发现，模型一上3B参数，性能就上不去。排查后问题出在算力分配上。超过90%的算力都耗在理解历史的Encoder上，Deocder的资源利用率很低。第二版 Lazy Decoder-Only 架构说白了，就是把Encoder的计算压缩到极致，只做最基础的特征处理，然后把几乎所有算力都堆给做决策的Decoder。这下，同样算力预算，模型规模直接从3B干到了8B，结果上，也非常符合Scaling Law。最新版本 OneRec-Think 引入思维链。其实就是推理模型，在推荐前，先思考一下。产生这个模型的方式，是基于用户行为数据找到跟目标结果相似的结果，让上一阶段模型生成推荐理由，从而得到一个思维链样本，然后SFT。搞定推荐，下一大块式电商搜索。搜索场景下，用户意图是非常明确的，但是商品标题，一般为了SEO，都是各种拼凑的垃圾词，不连贯。对AI来说噪音很大。提出了一个 RQ-OPQ的编码技术，可以简单理解成一个向量模型。让每个商品都有独立的一个编码。模型能更精确地分辨每一个独立的 SKU。最后是广告投放。他们用 G4RL 范式，把生成模型和强化学习结合起来，解决广告出价这个动态决策问题。说实话这块太专业，我也没完全听懂，但结果是好的，广告收入提升超过了3%。大模型时代，手机里的信息流革命，也在悄然发生。
作者：探索AGI发布日期：2025-10-29 11:50:00
大模型时代的搜广推变成什么样子了？周末，快手攒了个技术沙龙，分享了他们如何用生成式AI重构推荐系统，今天把笔记分享一下。过去的推荐系统，是个漏斗形的。从百万、亿万的候选中召回出几千数量级、再
阅读全文
NotebookLM 是谷歌今年最能打的产品之一，9月的访问量快破亿了。他的产品设计师 Jason Spielman 最近分享了产品从零到一的过程，有几个点挺有意思的，给大家分享一下。 NotebookLM最开始设计只想解决一个事情，在一个空间里完成从输入到输出的全流程。过去，我们会打开很多的标签页，然后在切换到一个工具做笔记，又建立一个文档干点别的。来回切换，很恼火。做好这个事情，其实不是很简单。 NotebookLM的成品是一个三面板结构：来源 + Chat + 输出。背后经历了上千次的迭代。整个结构，会根据任务而随时调整。这是AI原生时代最不同的地方，界面要根据上下文主动调整，静态页面可能不够用了。在读资料的时候，来源面板会放大。当写东西的时候，输出面板又会放大。而Chat面板始终在中间，连接输入和输出。界面跟着人的思路走，而不是让你去适应界面。最后，让它破圈的还是音频功能。基于自己的资料 + 一键生成 + 非屏幕时间消费。听的时候可以随时插话提问。把被动的听变成了对话。但是整个功能是后续才上的，Jason 的建议是，不要等产品完美再上线，尽早上线快速迭代。用户反馈比完美主义有用。最后，从零设计 AI Native产品，不要停留在旧产品上加入口。这是 NotebookLM 和其他 AI 工具的本质区别。
作者：探索AGI发布日期：2025-10-28 11:50:00
NotebookLM 是谷歌今年最能打的产品之一，9月的访问量快破亿了。他的产品设计师 Jason Spielman 最近分享了产品从零到一的过程，有几个点挺有意思的，给大家分享一下。 Note
阅读全文
Langchain 、 Manus 组了一个研讨会：Agent越智能，死得越快！
作者：探索AGI发布日期：2025-10-27 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~最近，Langchain 的工程师 Lance Martin 和 Manus 的创始人Peak 季逸超进行了一次关于Agent的研讨会，信息量有点
阅读全文
AI 没有带来上四休三，反而让硅谷卷到 996。最近在Armin Ronacher的播客听到一些有意思的悖论：AI本应该让我们工作更少，但现实是我们比以往工作得更多了。我在自己的工作模式中也观察到了同样的现象。这种工作量的增加并非是事情变多了，而是一种持续工作的心理强迫。 996起源于阿里，现在在硅谷发扬。他们的理由是要保持竞争力，在AI快速发展的今天，人有可以持续运行的工具，所以必须更努力才能跟上节奏。回顾过去，从油灯到电灯，再到如今的大模型，技术进步确实改变了工作的本质。灯让人们可以将工作干到深夜，随之而来的是一种微妙的转变，可以工作变成了应该工作。这就是进步的本质：新获得的奢侈品迅速变成必需品。科技圈都再说，无限工具加无限杠杆等于无限潜能。但这种心态很恐怖。过去，疲劳是休息的信号，而现在，疲劳成了软弱的标志。我们成了自己的监工，从醒来到入睡都必须利用每一个可用时刻。我们内化了无限潜能的说法，在追求自由的伪装下剥削自己。这归根结底是一个关于文化的故事。工具本身不要求工作，是人、是系统在要求。机器不在乎你睡不睡觉。让我们彻夜难眠的，是我们自己讲述的关于生产力意味着什么的故事。就像电灯延长了白天一样，AI正在延长工作时间。
作者：探索AGI发布日期：2025-10-24 11:50:00
AI 没有带来上四休三，反而让硅谷卷到 996。最近在Armin Ronacher的播客听到一些有意思的悖论：AI本应该让我们工作更少，但现实是我们比以往工作得更多了。我在自己的工作模式中
阅读全文
从DeepSeek OCR到AI炒股大赛，是时候停止对DeepSeek的猛吹了 Alpha Arena 最出圈大概是20号左右，那时候各种营销DeepSeek来自幻方，量化是基本功。到今天，收益基本归0了，但是没人再说了。首先如果真的看过这个榜，就知道这特么就是个赌博。 Prompt极其简单，一些数据都不对，比如DOGE的MACD全是0，只提供3分钟和4个小时的数据，MACD、RSI的指标很滞后。做的越多错的越多，离谱的像Gemini基本是分钟级别交易，亏得差不多了，整体就是在赌AI模型的运势。这2天又出来了，GPT反买，别墅靠大海，的说法。但是仔细看GPT的反思，即使在巨额亏损，仍清晰说自己为什么持仓，风险参数是什么，仓位逻辑是什么。你能理解他为什么错，反而DeepSeek的持仓理由永远都是，计划未变，仓位不懂。（即使市场剧烈波动）。在回到DeepSeek-OCR，也是被吹的很离谱，甚至很多人再说它还原的多精确。如果从OCR角度来看，那确实不太对，它真的比不过专业的OCR模型精度，比如百度新出的。越复杂的文档的效果越差，甚至中文的效果明显比英文差。 DeepSeek OCR 说是通过视觉token压缩文本信息，比如将1万字的5000个token压缩到512个视觉token。但是需要注意的是，解码精度很高，不代表，信息丢失的少。就像你眯着眼睛看，内容断断续续的，能看清楚很多东西，但是可能不一定会比连续的summary好。最后，叠个甲，我爱国产模型，但是在猛吹背后，也可以认真审视真正的价值与局限。
作者：探索AGI发布日期：2025-10-23 11:50:00
从DeepSeek OCR到AI炒股大赛，是时候停止对DeepSeek的猛吹了 Alpha Arena 最出圈大概是20号左右，那时候各种营销DeepSeek来自幻方，量化是基本功。到今天，收
阅读全文
2025年10月21日，OpenAI、Google、Anthropic 相互狙击，同一天发布了三款产品。 Google致力于广度（让所有人都能创造），OpenAI致力于深度（融入所有生活场景），Anthropic选择了精度。最终还是Google的股价以微跌买单。 OpenAI推出自己的AI 浏览器 - Altas，目前仅限于macOS，所有用户均可下载，但是Agent模式面向付费用户。交互上有点抄袭似Dia，还做了个骚操作，迁移Chrome数据，送7天会员~ Google的AI Studio大更新，宣传是轻松100倍构建应用，但是大家万众期待的Gemini 3 呢？它解决的是AI想法如何快速变成现实的问题。新界面可以通过模型选择器、功能模块等，让构建应用像搭积木一样容易，最重要的是可以一键部署，快速迭代。愿景是一个由Gemini驱动的AI应用网络，年底前建成一百万个应用。 Claude Code（网页版）推出，一个基于云的AI编程工具，可在浏览器中直接执行代码任务。目前仅面向Pro和Max付费用户的研究预览版，每个任务都在隔离环境中运行，可以联通GitHub，支持移动端，随时随地可编程。可以看出来现在巨头们在竞争的 AI 三大基本盘，交互、创造和专业执行。
作者：探索AGI发布日期：2025-10-22 11:50:00
2025年10月21日，OpenAI、Google、Anthropic 相互狙击，同一天发布了三款产品。 Google致力于广度（让所有人都能创造），OpenAI致力于深度（融入所有生活场景），An
阅读全文
前2天，Anthropic 又出了一期《Build more effective agents》的播客。 Multi-Agent 研究工程师 Erik Schluntz 分享了他们在构建高效 AI Agent 方面最新的思考和实践，系统讲述从「工作流」 -> 「单一 Agent」 -> 「Agent 工作流」 -> 「多智能体系统」的演变过程，还给出了大量一线实践指南。地址在：https://www.youtube.com/watch?v=uhJJgc-0iTQ Q: 为什么 Claude 擅长执行复杂的智能体任务？在训练的时候，Claude 就被赋予大量开放式、多步骤的长期任务，允许模型探索环境，通过强化学习，不断练习。并且，Claude将，编程作为核心能力，结果是一个顶级的编码智能体，几乎可以胜任任何其他工作。 Q: Claude Skill 解决了什么痛点？ claude.md 文件对于 Claude 而言，像是一个操作手册；Skill 就是给了模型一个完整的工具箱和资料库。 Q: 智能体的架构模式是如何演变的？从串联提示演变为鲁棒的串联智能体循环。过去，将多个Prompt像流水线一样串联起来。 Step 1 -> Step 2 -> Step 3。任何步骤失败，整个流程会崩溃。现在，工作流中的每一步，都是一个独立的、闭环的智能体循环。在进入下一步之前，当前步骤的智能体会不断尝试、验证、修正，直到产出正确结果，再将成品传递给下一步。 Q: 常见陷阱与最佳实践过度设计，第一天就试图构建一个复杂的多智能体系统。导致效率低下、难以调试和维护。这是最常见的一个问题。一定要从简单开始，只在绝对必要时，才增加复杂性。其次，工具设计应面向UI，而非API。模型是工具的用户，工具的设计应追求一次交互，信息完备的最佳用户体验。 Q: 未来 6-12 个月，我们将看到什么？ 1. 自我验证与闭环测试智能体将能利用Computer Use能力，自行验证工作成果。 2. Computer Use能力普及化 Claude 将能直接在你使用的任何软件中工作，打破复制粘贴的壁垒。
作者：探索AGI发布日期：2025-10-21 11:50:00
前2天，Anthropic 又出了一期《Build more effective agents》的播客。 Multi-Agent 研究工程师 Erik Schluntz 分享了他们在构建高效 AI
阅读全文
Claude Skills到底是什么？和MCP、RAG、FunctionCaling的本质区别是？一个暴论：AI Agent的未来，一半靠模型，另一半靠工程。 A社这次不止增加了这个概念，还开源了一个仓库，https://github.com/anthropics/skills，里面包含了所有20个左右的官方Skill的源码示例，这才是真正的灵魂。一个Skill = 任务说明书 SKILL.md + 工具代码 (scripts) + 专业知识 (references) + 素材资源 (assets)。它把完成一个特定任务所需的一切都打包好了，本质上就是一种代码和资源的组织方式，一种约定优于配置的理念。精髓是：为上下文窗口减负这部分是Claude Skills设计的精髓，也是它和简单RAG/MCP/FunctionCalling的最大区别。它就是一套精心设计，为了节省上下文窗口而设计的分层加载策略。 Claude Skills与MCP的关系，它俩不是替代关系，而是正交的、可以组合的。MCP负责连接，Skills负责驱动。一个解决通信标准，一个解决能力封装。这套东西，有什么用？既然这玩意儿本质上就是一堆文件夹和代码，我们能从中得到什么？最大的价值是：Anthropic把他们在生产环境中打磨出的一套Agent能力管理的设计模式开源了。我们完全可以把这个模式借鉴过来，用在自己的Agent体系里，不管你用的是Qwen、Deepseek，还是别的模型。当你的Agent能力越来越多时，怎么管理？一个几千行的System Prompt？一个包含几十个工具函数的大杂烩文件？这些都很难维护。而Skills提供了一种解耦的、模块化的方案。你团队里的Agent不再是依赖一个巨大的、难以维护的system_prompt.txt，而是一个由几十个标准化的Skill文件夹组成的能力库，每个Skill都可以独立版本控制、测试和迭代。所以说呀，Claude Skills本身不是什么黑科技。它最大的启示还是：AI Agent的未来，一半靠模型，另一半靠工程。
作者：探索AGI发布日期：2025-10-20 11:50:00
Claude Skills到底是什么？和MCP、RAG、FunctionCaling的本质区别是？一个暴论：AI Agent的未来，一半靠模型，另一半靠工程。 A社这次不止增加了这个概念，还开源
阅读全文
超100家YC疯抢的 FDE 模式，正成为AI Agent的 PMF 范式！
作者：探索AGI发布日期：2025-10-17 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~最近硅谷在发生一件很有意思的事：很多的VC都在招聘一个叫 FDE（Forward Deployed Engineer）的岗位。这是一个诞生于情报部门
阅读全文
Google开源了一个能操作电脑的智能体
作者：探索AGI发布日期：2025-10-16 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~前两天，谷歌悄咪咪开源了一个叫 computer-use-preview 的项目。可以让AI直接操控你电脑的Agent框架, 对标broswer_u
阅读全文
硅谷顶级团队闭门会，让Agent活下来的共识，95%的AI Agent都死了
作者：探索AGI发布日期：2025-10-15 11:53:06
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~这周，旧金山一场600多人参加的AI技术大会上，Uber、WisdomAI、EvenUp... 等企业的大佬们，畅谈AI。一个核心的insight是
阅读全文
谷歌揭秘：Multi-Agent 推理时扩展才是未来。
作者：探索AGI发布日期：2025-10-14 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~谷歌 DeepMind 和 MIT 联合发了一篇论文，名叫 TUMIX（Tool-Use Mixture）。大概就是说，Multi-Agent 才是
阅读全文

上一页下一页