全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    Agent最全教程!317页pdf!

    作者:探索AGI发布日期:2025-11-20 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    好消息,基本上AI Coding工具都上了Gemini 3 PRO,坏消息,都不便宜

    作者:探索AGI发布日期:2025-11-19 10:33:55

    阅读全文
  • 文章封面

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。 长程思考能力。 模型自身,可以完成几十轮甚至几百轮的连续思考,每轮都可以多次工具调用,然后反复验证、修正、再尝试。 K2T的Agent分不多说了,但是一个不知名的基于qwen2.5后训练的小模型,可以在GAIA上刷到81.9的分。 这个能力是不是会激发新的交互范式? 一个新的公式是: 能 ∝ 模型与环境的交互深度 × 反思频率。 意思是,不是模型越大越好,而是模型与环境互动越深入、反思越频繁,智能就越强。 当然长程思考能力,对token消耗会比较高。同时对上下文管理的要求极高,常见的256K可能很长,但是可能很快就被撑爆了。 所以另一个很关键的一点是,模型要学会判断什么时候该深入,什么时候该快速收敛。 这个开源模型地址在:https://github.com/MiroMindAI/MiroThinker/blob/main/README.md 技术报告还有点意思,可以看一看。 不知道实际效果怎么样,我测试了几个检索的,比较容易~ 从L1到L2, 模型学会了思考。这种新的范式是不是已经让我们看到了L3的影子?

    作者:探索AGI发布日期:2025-11-18 11:50:57

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。

    阅读全文
  • 文章封面

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点上: 第一,一个定时捕捉的视频帧,720P,每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。 第二点,混合推理。就是可以选择是不是要思考,简单场景,直接输出动作就好了,比如移动, 重复的操作。复杂场景,先进行思考,比如出现了新的目标。 第三,就是让模型所有的输出都是,鼠标键盘的序列,直接可执行验证。 训练分三个阶段:基础动作→指令跟随→决策推理。 从Lumine-Base到Lumine-Thinking,能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙,但没有目标导向。 Instruct版本可以完成指令,短任务(10秒至数分钟任务)成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本,使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力,测试下来,以蒙德主线为测试场景,第一章56分钟搞定,GPT-5要112分钟。 第二、三章4.7小时,完成率98.2%,Gemini只完成了65%还用了8小时。 跨游戏测试里,《鸣潮》100%完成率,《崩铁》92.3%,《黑悟空》85.7%。 所以整体还是靠模型,逻辑应该都是,先在3D游戏里训练通用Agent,因为相对封闭的游戏环境里,规则清晰、反馈明确。 然后实际目标是具身智能?难得就是真实世界没有血条和小地图。 论文地址:https://arxiv.org/abs/2511.08892

    作者:探索AGI发布日期:2025-11-17 11:50:00

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点

    阅读全文
  • 文章封面

    OpenAI发了一个怎么做自进化Agent的教程

    作者:探索AGI发布日期:2025-11-14 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~前几天,openai发了一个关于 self-evolve 自进化 智能体怎么做的博客。核心思路其实很简单,分三步,代码也开源了。Agent跑任务,输

    阅读全文
  • 文章封面

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设置系统。可以直接在设置里调,语气、回复长度、信息结构、表情符号频率 这些东西。 新模型的洞察力非常强,只要用大脑里边第一时间想到的词发问,它就能领会。即使有模糊不清的地方,也会主动和你确认。 但如果刻意加一堆限定和描述,反而回答可能产生不合适的偏向。只能说大模型已经对人类的思维模式越来越了解了。 目前社区实测下来的几点共识: 1. 创造性写作质量明显提升 2. 推理和复杂任务链条更稳定 3. 在部分benchmark、coding任务上表现接近或超出现有顶级模型。 尤其是写作这块,GPT‑5.1级别模型的爽感,非常直观。 如果你本来就靠内容、产品文案、方案输出吃饭,它会直接改变你的工作方式。 可能好多基于claude code做写作工作流的博主们(或者其他方面),搞了很多。。。不如模型升级。。。 一句话的优化结果,比你折腾一通高得多。 不知道gemini3.0pro能一较高下吗。不过gemini3应该更强的还是coding上的能力 其他方面仍待进一步实测。 Google今天也给Gemini Live推出了重磅更新。 可以调节语速、可以成为你的外教,模拟现实场景,即时互动,提问,纠正。 还可以模拟面试,排练演讲。 支持沉浸式讲故事,加上了情绪调节,人物口音,比如牛仔口音,伦敦腔等等。

    作者:探索AGI发布日期:2025-11-13 11:50:00

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设

    阅读全文
  • 文章封面

    AI生的图能分图层,Agent控制能力进入下半场

    作者:探索AGI发布日期:2025-11-12 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近Lovart上线了个功能,名字朴实无华,Layered Image Editing ,中文叫编辑元素?我们很少分享多模态相关的内容,但是这个功能

    阅读全文
  • 文章封面

    Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perplexity-built-an-ai-google 但是核心就干了三件事:搜索 + AI生成 + 给来源。 听起来很简单,工程设计才是壁垒。 他们用Vespa.ai建了个巨大的索引,2000亿个URL,400PB的热存储,几万个CPU在跑,而且不是静态索引,每秒处理几万次更新,保证信息永远是最新的。 混合检索,向量+BM25+精排,同类方案P95延迟是400-800ms,Perplexity压到了200ms以内。Vespa把数据、索引、计算逻辑全放在同一个节点上,避免网络IO,分布式查询并行跑。 Perplexity用的不是自己的模型,而是混着用。简单问题用自研的便宜模型Sonar,复杂问题才调GPT-4或Claude。 常规操作,既快又省钱,核心是用最小的模型搞定最好的体验。 Sonar模型也不是从头训练的,拿开源模型微调,比如之前他们微调deepseek,说什么去掉xxx,在抱抱脸上一堆人喷。 训练数据都来自用户交互,微调的目的是提升3个能力: 精准摘要 + 正确标注引用 + 严格基于检索内容回答。 推理部分用了自研的ROSE引擎,跑在AWS的H100 GPU上。架构上部分用Rust重写,不是纯python。推理解码算法支持投机解码和MTP。 还有个黑科技,AI自改进的内容解析, 因为网页结构千奇百怪,所以他们尝试用模型动态去生成解析规则。 系统会评估当前规则的完整性和质量,然后自己提出改进方案、验证、部署。这套循环可以让系统持续进化,把非结构化网页最好的解析切分。 没啥抄的,因为perplexity的护城河不是某个模型,是端到端的系统工程能力。从检索、排序、生成到推理,每一层都有深度优化。

    作者:探索AGI发布日期:2025-11-11 11:50:00

    Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perp

    阅读全文
  • 文章封面

    谷歌Nano Banana 2 来了,图片AGI提前到来?

    作者:探索AGI发布日期:2025-11-10 11:50:09

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~伴随着 Gemini 3、GPT 5.1 的各种小道消息散播半个月。Nano Banana 2,2K原生输出,竟然要提前来了,春节前大玩具有了。今年

    阅读全文
  • 文章封面

    测了两天,这个开源模型终于让我看到Agent的样子了

    作者:探索AGI发布日期:2025-11-08 12:23:31

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~年初 Kimi K1.5 发布的时候,被 DeepSeek R1 狙击。在闭关半年后,掏出来了惊艳全球的Kimi K2。在经过一个季度,K2 推理版

    阅读全文
  • 文章封面

    Anthropic也意识到MCP Server太干扰上下文了。 一加载就是一堆tools,所以他们推出了Code execution with MCP。 但凡你做过Agent开发,用了大量MCP工具,就会知道MCP工具多了后最大的问题就是上下文占用太多,不仅导致成本高,还会影响推理和生成质量。 另外一个问题就是MCP工具返回的中间结果也会挤占大量的上下文空间。 看这文章的时候忍不住想到了Manus,他们确实在上下文工程方面探索的很深入了,里面的工程技巧和他们以前分享过的很类似。 Anthropic的核心思路很简单,既然大模型写代码这么6,为什么不让它写代码来调用工具? 他们的实现方式是,把所有MCP工具生成一个文件树结构。需要什么工具,Agent自己去文件系统里找,读取定义,然后写代码调用。 比如这是文中的一个目录示例: servers ├── google-drive │ ├── getDocument.ts │ ├── ... (other tools) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (other tools) │ └── index.ts └── ... (other servers) servers ├── google-drive │ ├── getDocument.ts │ ├── ... (其他工具) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (其他工具) │ └── index.ts └── ... (其他服务器) 找不到现成的工具怎么办?直接现写一个,写完了还可以保存起来下次继续用。 数据是在代码中过滤,比如,拿到1万行的表,代码里边筛选完,把需要的信息给模型,模型就不用看1万行了。 复杂的逻辑可以一次写代码搞定,不用来来回回的在MCP 和 server中来回调用了。 总的来说,MCP解决了连接的问题,代码执行解决了效率的问题。 Agent的未来,真的是一半靠模型,另一半靠工程。

    作者:探索AGI发布日期:2025-11-07 11:50:00

    Anthropic也意识到MCP Server太干扰上下文了。 一加载就是一堆tools,所以他们推出了Code execution with MCP。 但凡你做过Agent开发,用了大量MCP工

    阅读全文
  • 文章封面

    办公小浣熊,终于有Agent可以帮你打工了!

    作者:探索AGI发布日期:2025-11-06 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近,朋友推荐了一款国产宝藏产品,商汤办公小浣熊。官网地址:www.xiaohuanxiong.com/?utm_source=tsagi说是具有国

    阅读全文
  • 文章封面

    Agent项目最头疼的不是技术,这可能是近期最棒的Agent调研。

    作者:探索AGI发布日期:2025-11-05 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~昨天,MMC出来一篇质量超级高的博客,他们深入访谈了30多家正在做AI Agent的创业公司创始人和 40 多位企业里的实际用户,写了这篇 《Sta

    阅读全文
  • 文章封面

    为期两周的AI炒股投资大乱斗终于收官了~ 阿里Qwen 3 Max最后时刻反超夺冠,DeepSeek紧随其后拿下亚军。 中国模型包揽前二,也是全场仅有的赚钱选手。GPT-5爆亏62%,在6个参赛模型里垫底。 nof1.ai给每个模型发了1万刀,让它们在Hyperliquid上交易加密货币。Claude、DeepSeek、Gemini、GPT、Grok和Qwen,6个全球顶尖模型。交易品种包括BTC、ETH、BNB、SOL、XRP、DOGE,可以做多做空,随便加杠杆。 冠军Qwen 3 Max策略很暴力,5倍杠杆单吊BTC梭哈,只留48美元现金。最终账户余额12232刀,收益率+22.32%。 亚军DeepSeek V3.1属于理性派,多维度评估,对每个品种都有独立逻辑。收益不如Qwen,但Sharpe值全场最高,全场最牛风险控制模型。 剩下的比较惨了,Claude亏30%,Grok亏45%,Gemini亏56%,GPT-5最惨,账户只剩3734美元。 就像上次说的那样,AI在交易过程中,没有任何的外部知识,不清楚财报发布,只有一些macd,价格等指标数据,可能还存在错误。 但Qwen和DeepSeek确实赚钱了,国外的模型刚好的都亏损了,A股环境下出生的模型,属实是牛。 几个模型的经典心理活动差异很大: Gemini 2.5 Pro,在全仓做空六个币种后,内心在想,得坚持自己的规则,即使很慌张,也要继续持有!虽然现在在亏损,但止损条件还没触发,我必须继续持仓,哪怕是一直浮亏,也只能硬扛着。 GPT-5在账户亏了62%后,还在坚持持有所有仓位,同时持有多空。 Grok 4很谨慎,在大亏的时候,账上还留着1884刀现金,保留子弹,等待机会。 nof1.ai 发了个博客, 写到,十年前DeepMind用游戏推动了AI突破,现在我们认为金融市场才是训练下一代AI的最佳场所。 游戏环境再复杂,规则也是固定的。但市场不一样,它是活的,会学习、会适应、会针对你的策略反向操作。 他们还透漏,未来不只是拿第三方模型玩提示词,同时也在开发自己的模型,在第二赛季会让自家模型与其他模型一较高下。 Alpha Arena 1.5赛季也快来了,会同时测试多个提示词,为每个模型部署多个版本,挑战难度继续拉满。 总的来说,投资有风险,入市需谨慎,这话对AI也适用~

    作者:探索AGI发布日期:2025-11-04 13:59:00

    为期两周的AI炒股投资大乱斗终于收官了~ 阿里Qwen 3 Max最后时刻反超夺冠,DeepSeek紧随其后拿下亚军。 中国模型包揽前二,也是全场仅有的赚钱选手。GPT-5爆亏62%,在6个参赛模

    阅读全文
  • 文章封面

    Apple Intelligence 终于来了~ 苹果憋了这么久,终于在交出了自己在这个AI大时代的答卷: Apple Intelligence。 https://www.apple.com/apple-intelligence/ 宣传语依旧是苹果风格:AI for the rest of us (隐私至上,无缝集成。) 核心功能分为四大块:通信工具、图像生成、视觉智能和生产力助手。 Writing Tools可以改写、校对、总结文本,支持几乎所有应用。 目前体验最大的问题是,不记录修改历史,改完就没有后悔药了,找不到历史版本。 Image Playground能生成卡通风格的图片,还有个Genmoji功能可以自定义表情包。 整体挺好玩的,比如想快速用手机创作一些精确的表情包。 做一些有意思的素材都还不错。 但是不是生产力工具,不要正经的跟专业模型比。 最有创意的功能,应该是通知摘要了。 正常我们收到一大堆的通知弹窗,懒得看。现在会有个功能帮你把一大堆的通知整合成一条。 但是我前几年做过类似的功能,做出来容易,做好这种其实很难,没有足够的上下文,AI抓不住重点。 比如,一个关于快递配送的通知,AI可能总结成,包裹送到了。 录音转文字摘要功能比较离谱,从会议提炼出摘要、关键点,但是实际用的时候,我们需要手动把录音撰写转写到Notes里。 这... 最好的方式不是应该集成进Voice Memos 么,整的多此一举了。 照片搜索是挺实用的,但是这应该是上个时代的功能了。Clip就能完成图文的对齐了。 测试了下,输入去年夏天吃龙虾的照片,就能找到图片,准确率还不错。 所有的能力,主打本地处理 + Private Cloud Compute,数据不存储,只用于请求。 在Writing Tools、Siri、Image Playground都能调用ChatGPT,直接把ChatGPT集成进来了。苹果这几年确实也没怎么宣传自家模型,发过几个端侧模型, 模型测还得依赖别家的合作。 当前,最低的版本是支持 15 Pro, A17 Pro芯片起步,老用户别想直接白嫖了,可以乘着双十一换装备了。 整体体验,亮点与槽点并存。亮点有,但是并没有很多,移动端憋出来,还要一些时间,起码苹果给人的感觉是慢了一拍。

    作者:探索AGI发布日期:2025-11-03 11:50:00

    Apple Intelligence 终于来了~ 苹果憋了这么久,终于在交出了自己在这个AI大时代的答卷: Apple Intelligence。 https://www.apple.com/ap

    阅读全文
  • 文章封面

    OpenAI 又发布了一个新的AI Agent~

    作者:探索AGI发布日期:2025-10-31 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~OpenAI 又发布了一个新的AI Agent。不仅如此,还把AI浏览器 Altas 的技术架构写了个博客,秀肌肉。今天给家人们分享一下这2个事情。

    阅读全文
  • 文章封面

    体验了一上午,Cursor 2.0 真的变成了 Agent 协作平台吗? Cursor终于有了自己的模型。之前的Cheetah改名成了Composer 1。 官方宣传速度是同级别模型的4倍,大多数任务30秒内搞定。各种强化学习,架构,kernel ... 听起来很牛,但问题来了,定价和GPT-5一样,同样的价格,我为什么不用GPT-5? 上手我就跑了一个略复杂的任务,跑了1刀,250万token,大部分还是缓存。也就是说,一个月也就能跑20次任务,一天摊不到一次。 2.0的界面,他们标识围绕Agent设计,而非文件设计。 可以并行跑多个Agent,用git worktree隔离,最后选最好的结果。 但是,如果真的用会发现还挺多的问题的。包括不限于,从worktree合并代码直接炸了,merge冲突一大堆。 多Agent的结果没法引用刀新对话里。界面强制改变布局,侧边栏没法移到左边... 一句话总结就是:新的Agent模式把Cursor原有的简洁优势全丢了,UX反而成了阻碍。 新增了语音模式,但bug一堆。首先没有唤醒词,快捷键cmd+shift+space跟系统冲突,中文关键词不支持,自定义提交关键词80%概率发送空消息... 这玩意还不如macOS自带的听写功能。 内置的浏览器也是一个半成品,可以直接测试前端改动,但是意外bug也很多。 最后,Cursor 2.0 的更新值得大版本号的跨越, 但是阉割一堆的功能,如@web, 再加上VS code 版本也是6个月前的版本,可以很明显的看到,Cursor在探索自己的路,自研模型+Agent协作 可能也是非常正确的方向。 总体上,核心功能bug太多,感觉还是差点意思。

    作者:探索AGI发布日期:2025-10-30 11:50:00

    体验了一上午,Cursor 2.0 真的变成了 Agent 协作平台吗? Cursor终于有了自己的模型。之前的Cheetah改名成了Composer 1。 官方宣传速度是同级别模型的4倍,大多数

    阅读全文
  • 文章封面

    大模型时代的搜广推变成什么样子了? 周末,快手攒了个技术沙龙,分享了他们如何用生成式AI重构推荐系统, 今天把笔记分享一下。 过去的推荐系统,是个漏斗形的。从百万、亿万的候选中召回出几千数量级、再到粗排筛选出几百数量级、再到精排筛选出最后的几十个、最后是重排给到展示给用户的。 Recall -> Pre-Ranking -> Ranking -> Re-Ranking -> Show 这套架构特别经典,某个模块都值得大量的时间打磨优化。 但每个环节一堆的小模型,资源及其分散。并且每个环节的目标还不一样,没法统一优化,比如召回的目的是为了100%的召回率,精排的目标是100%的准确率。 快手的第一版大模型重构,很符合直觉。 就是基于你看过的一系列视频,直接预测出下一个你最想看的视频。标准的 Encoder-Dencoder 架构。 编码部分学习你的历史,Decoder生成出推荐。但是他们发现,模型一上3B参数,性能就上不去。 排查后问题出在算力分配上。超过90%的算力都耗在理解历史的Encoder上,Deocder的资源利用率很低。 第二版 Lazy Decoder-Only 架构 说白了,就是把Encoder的计算压缩到极致,只做最基础的特征处理,然后把几乎所有算力都堆给做决策的Decoder。 这下,同样算力预算,模型规模直接从3B干到了8B,结果上,也非常符合Scaling Law。 最新版本 OneRec-Think 引入思维链。其实就是推理模型,在推荐前,先思考一下。产生这个模型的方式,是基于用户行为数据找到跟目标结果相似的结果,让上一阶段模型生成推荐理由,从而得到一个思维链样本,然后SFT。 搞定推荐,下一大块式电商搜索。 搜索场景下,用户意图是非常明确的,但是商品标题,一般为了SEO,都是各种拼凑的垃圾词,不连贯。对AI来说噪音很大。 提出了一个 RQ-OPQ的编码技术,可以简单理解成一个向量模型。让每个商品都有独立的一个编码。模型能更精确地分辨每一个独立的 SKU。 最后是广告投放。他们用 G4RL 范式,把生成模型和强化学习结合起来,解决广告出价这个动态决策问题。 说实话这块太专业,我也没完全听懂,但结果是好的,广告收入提升超过了3%。 大模型时代,手机里的信息流革命,也在悄然发生。

    作者:探索AGI发布日期:2025-10-29 11:50:00

    大模型时代的搜广推变成什么样子了? 周末,快手攒了个技术沙龙,分享了他们如何用生成式AI重构推荐系统, 今天把笔记分享一下。 过去的推荐系统,是个漏斗形的。从百万、亿万的候选中召回出几千数量级、再

    阅读全文
  • 文章封面

    NotebookLM 是谷歌今年最能打的产品之一,9月的访问量快破亿了。 他的产品设计师 Jason Spielman 最近分享了产品从零到一的过程,有几个点挺有意思的,给大家分享一下。 NotebookLM最开始设计只想解决一个事情,在一个空间里完成从输入到输出的全流程。 过去,我们会打开很多的标签页,然后在切换到一个工具做笔记,又建立一个文档干点别的。来回切换,很恼火。 做好这个事情,其实不是很简单。 NotebookLM的成品是一个三面板结构:来源 + Chat + 输出。 背后经历了上千次的迭代。整个结构,会根据任务而随时调整。这是AI原生时代最不同的地方,界面要根据上下文主动调整,静态页面可能不够用了。 在读资料的时候,来源面板会放大。当写东西的时候,输出面板又会放大。而Chat面板始终在中间,连接输入和输出。 界面跟着人的思路走,而不是让你去适应界面。 最后,让它破圈的还是音频功能。基于自己的资料 + 一键生成 + 非屏幕时间消费。 听的时候可以随时插话提问。把被动的听变成了对话。 但是整个功能是后续才上的,Jason 的建议是,不要等产品完美再上线,尽早上线快速迭代。用户反馈比完美主义有用。 最后,从零设计 AI Native产品,不要停留在旧产品上加入口。这是 NotebookLM 和其他 AI 工具的本质区别。

    作者:探索AGI发布日期:2025-10-28 11:50:00

    NotebookLM 是谷歌今年最能打的产品之一,9月的访问量快破亿了。 他的产品设计师 Jason Spielman 最近分享了产品从零到一的过程,有几个点挺有意思的,给大家分享一下。 Note

    阅读全文
  • 文章封面

    Langchain 、 Manus 组了一个研讨会:Agent越智能,死得越快!

    作者:探索AGI发布日期:2025-10-27 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近,Langchain 的工程师 Lance Martin 和 Manus 的创始人Peak 季逸超 进行了一次关于Agent的研讨会,信息量有点

    阅读全文
  • 文章封面

    AI 没有带来上四休三,反而让硅谷卷到 996。 最近在Armin Ronacher的播客听到一些有意思的悖论:AI本应该让我们工作更少,但现实是我们比以往工作得更多了。 我在自己的工作模式中也观察到了同样的现象。这种工作量的增加并非是事情变多了,而是一种持续工作的心理强迫。 996起源于阿里,现在在硅谷发扬。他们的理由是要保持竞争力,在AI快速发展的今天,人有可以持续运行的工具,所以必须更努力才能跟上节奏。 回顾过去,从油灯到电灯,再到如今的大模型,技术进步确实改变了工作的本质。 灯让人们可以将工作干到深夜,随之而来的是一种微妙的转变,可以工作变成了应该工作。这就是进步的本质:新获得的奢侈品迅速变成必需品。 科技圈都再说,无限工具加无限杠杆等于无限潜能。 但这种心态很恐怖。过去,疲劳是休息的信号,而现在,疲劳成了软弱的标志。 我们成了自己的监工,从醒来到入睡都必须利用每一个可用时刻。 我们内化了无限潜能的说法,在追求自由的伪装下剥削自己。 这归根结底是一个关于文化的故事。工具本身不要求工作,是人、是系统在要求。机器不在乎你睡不睡觉。让我们彻夜难眠的,是我们自己讲述的关于生产力意味着什么的故事。 就像电灯延长了白天一样,AI正在延长工作时间。

    作者:探索AGI发布日期:2025-10-24 11:50:00

    AI 没有带来上四休三,反而让硅谷卷到 996。 最近在Armin Ronacher的播客听到一些有意思的悖论:AI本应该让我们工作更少,但现实是我们比以往工作得更多了。 我在自己的工作模式中

    阅读全文
  • 文章封面

    从DeepSeek OCR到AI炒股大赛,是时候停止对DeepSeek的猛吹了 Alpha Arena 最出圈大概是20号左右,那时候各种营销DeepSeek来自幻方,量化是基本功。 到今天,收益基本归0了,但是没人再说了。 首先如果真的看过这个榜,就知道这特么就是个赌博。 Prompt极其简单,一些数据都不对,比如DOGE的MACD全是0,只提供3分钟和4个小时的数据,MACD、RSI的指标很滞后。 做的越多错的越多,离谱的像Gemini基本是分钟级别交易,亏得差不多了,整体就是在赌AI模型的运势。 这2天又出来了,GPT反买,别墅靠大海,的说法。但是仔细看GPT的反思,即使在巨额亏损,仍清晰说自己为什么持仓,风险参数是什么,仓位逻辑是什么。 你能理解他为什么错,反而DeepSeek的持仓理由永远都是,计划未变,仓位不懂。(即使市场剧烈波动)。 在回到DeepSeek-OCR,也是被吹的很离谱,甚至很多人再说它还原的多精确。 如果从OCR角度来看,那确实不太对,它真的比不过专业的OCR模型精度,比如百度新出的。越复杂的文档的效果越差,甚至中文的效果明显比英文差。 DeepSeek OCR 说是通过视觉token压缩文本信息,比如将1万字的5000个token压缩到512个视觉token。 但是需要注意的是,解码精度很高,不代表,信息丢失的少。 就像你眯着眼睛看,内容断断续续的,能看清楚很多东西,但是可能不一定会比连续的summary好。 最后,叠个甲,我爱国产模型,但是在猛吹背后,也可以认真审视真正的价值与局限。

    作者:探索AGI发布日期:2025-10-23 11:50:00

    从DeepSeek OCR到AI炒股大赛,是时候停止对DeepSeek的猛吹了 Alpha Arena 最出圈大概是20号左右,那时候各种营销DeepSeek来自幻方,量化是基本功。 到今天,收

    阅读全文
  • 文章封面

    2025年10月21日,OpenAI、Google、Anthropic 相互狙击,同一天发布了三款产品。 Google致力于广度(让所有人都能创造),OpenAI致力于深度(融入所有生活场景),Anthropic选择了精度。 最终还是Google的股价以微跌买单。 OpenAI推出自己的AI 浏览器 - Altas,目前仅限于macOS, 所有用户均可下载,但是Agent模式面向付费用户。 交互上有点抄袭似Dia,还做了个骚操作,迁移Chrome数据,送7天会员~ Google的AI Studio大更新,宣传是轻松100倍构建应用,但是大家万众期待的Gemini 3 呢? 它解决的是AI想法如何快速变成现实的问题。 新界面可以通过模型选择器、功能模块等,让构建应用像搭积木一样容易,最重要的是可以一键部署,快速迭代。 愿景是一个由Gemini驱动的AI应用网络,年底前建成一百万个应用。 Claude Code(网页版)推出,一个基于云的AI编程工具,可在浏览器中直接执行代码任务。 目前仅面向Pro和Max付费用户的研究预览版,每个任务都在隔离环境中运行,可以联通GitHub, 支持移动端,随时随地可编程。 可以看出来现在巨头们在竞争的 AI 三大基本盘,交互、创造和专业执行。

    作者:探索AGI发布日期:2025-10-22 11:50:00

    2025年10月21日,OpenAI、Google、Anthropic 相互狙击,同一天发布了三款产品。 Google致力于广度(让所有人都能创造),OpenAI致力于深度(融入所有生活场景),An

    阅读全文
  • 文章封面

    前2天,Anthropic 又出了一期《Build more effective agents》的播客。 Multi-Agent 研究工程师 Erik Schluntz 分享了他们在构建高效 AI Agent 方面最新的思考和实践,系统讲述从 「工作流」 -> 「单一 Agent」 -> 「Agent 工作流」 -> 「多智能体系统」的演变过程,还给出了大量一线实践指南。 地址在:https://www.youtube.com/watch?v=uhJJgc-0iTQ Q: 为什么 Claude 擅长执行复杂的智能体任务? 在训练的时候,Claude 就被赋予大量开放式、多步骤的长期任务,允许模型探索环境,通过强化学习,不断练习。 并且,Claude将,编程作为核心能力,结果是一个顶级的编码智能体,几乎可以胜任任何其他工作。 Q: Claude Skill 解决了什么痛点? claude.md 文件对于 Claude 而言,像是一个操作手册;Skill 就是给了模型一个完整的工具箱和资料库。 Q: 智能体的架构模式是如何演变的? 从 串联提示 演变为鲁棒的 串联智能体循环。 过去,将多个Prompt像流水线一样串联起来。 Step 1 -> Step 2 -> Step 3。 任何步骤失败,整个流程会崩溃。 现在,工作流中的每一步,都是一个独立的、闭环的智能体循环。在进入下一步之前,当前步骤的智能体会不断尝试、验证、修正,直到产出正确结果,再将成品传递给下一步。 Q: 常见陷阱与最佳实践 过度设计,第一天就试图构建一个复杂的多智能体系统。导致效率低下、难以调试和维护。这是最常见的一个问题。 一定要从简单开始,只在绝对必要时,才增加复杂性。 其次,工具设计应面向UI,而非API。模型是工具的用户,工具的设计应追求一次交互,信息完备的最佳用户体验。 Q: 未来 6-12 个月,我们将看到什么? 1. 自我验证与闭环测试 智能体将能利用Computer Use能力,自行验证工作成果。 2. Computer Use能力普及化 Claude 将能直接在你使用的任何软件中工作,打破复制粘贴的壁垒。

    作者:探索AGI发布日期:2025-10-21 11:50:00

    前2天,Anthropic 又出了一期《Build more effective agents》的播客。 Multi-Agent 研究工程师 Erik Schluntz 分享了他们在构建高效 AI

    阅读全文
  • 文章封面

    Claude Skills到底是什么?和MCP、RAG、FunctionCaling的本质区别是? 一个暴论:AI Agent的未来,一半靠模型,另一半靠工程。 A社这次不止增加了这个概念,还开源了一个仓库,https://github.com/anthropics/skills,里面包含了所有20个左右的官方Skill的源码示例,这才是真正的灵魂。 一个Skill = 任务说明书 SKILL.md + 工具代码 (scripts) + 专业知识 (references) + 素材资源 (assets)。 它把完成一个特定任务所需的一切都打包好了,本质上就是一种代码和资源的组织方式,一种约定优于配置的理念。 精髓是:为上下文窗口减负这部分是Claude Skills设计的精髓,也是它和简单RAG/MCP/FunctionCalling的最大区别。它就是一套精心设计,为了节省上下文窗口而设计的分层加载策略。 Claude Skills与MCP的关系,它俩不是替代关系,而是正交的、可以组合的。MCP负责连接,Skills负责驱动。一个解决通信标准,一个解决能力封装。 这套东西,有什么用?既然这玩意儿本质上就是一堆文件夹和代码,我们能从中得到什么?最大的价值是:Anthropic把他们在生产环境中打磨出的一套Agent能力管理的设计模式开源了。我们完全可以把这个模式借鉴过来,用在自己的Agent体系里,不管你用的是Qwen、Deepseek,还是别的模型。 当你的Agent能力越来越多时,怎么管理?一个几千行的System Prompt?一个包含几十个工具函数的大杂烩文件?这些都很难维护。 而Skills提供了一种解耦的、模块化的方案。你团队里的Agent不再是依赖一个巨大的、难以维护的system_prompt.txt,而是一个由几十个标准化的Skill文件夹组成的能力库,每个Skill都可以独立版本控制、测试和迭代。 所以说呀,Claude Skills本身不是什么黑科技。它最大的启示还是:AI Agent的未来,一半靠模型,另一半靠工程。

    作者:探索AGI发布日期:2025-10-20 11:50:00

    Claude Skills到底是什么?和MCP、RAG、FunctionCaling的本质区别是? 一个暴论:AI Agent的未来,一半靠模型,另一半靠工程。 A社这次不止增加了这个概念,还开源

    阅读全文
  • 文章封面

    超100家YC疯抢的 FDE 模式,正成为AI Agent的 PMF 范式!

    作者:探索AGI发布日期:2025-10-17 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近硅谷在发生一件很有意思的事:很多的VC都在招聘一个叫 FDE(Forward Deployed Engineer)的岗位。这是一个诞生于情报部门

    阅读全文
  • 文章封面

    Google开源了一个能操作电脑的智能体

    作者:探索AGI发布日期:2025-10-16 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~前两天,谷歌悄咪咪开源了一个叫 computer-use-preview 的项目。可以让AI直接操控你电脑的Agent框架, 对标broswer_u

    阅读全文
  • 文章封面

    硅谷顶级团队闭门会,让Agent活下来的共识,95%的AI Agent都死了

    作者:探索AGI发布日期:2025-10-15 11:53:06

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这周,旧金山一场600多人参加的AI技术大会上,Uber、WisdomAI、EvenUp... 等企业的大佬们,畅谈AI。一个核心的insight是

    阅读全文
  • 文章封面

    谷歌揭秘:Multi-Agent 推理时扩展才是未来。

    作者:探索AGI发布日期:2025-10-14 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~谷歌 DeepMind 和 MIT 联合发了一篇论文,名叫 TUMIX(Tool-Use Mixture)。大概就是说,Multi-Agent 才是

    阅读全文
  • 文章封面

    Chrome已死,AI浏览器当立!认知革命比技术成熟来得更快。

    作者:探索AGI发布日期:2025-10-13 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~过去分享了好几篇AI浏览器相关的,围绕为啥那么Agent需要AI浏览器,Agent Infra。Chrome过时了,AI Agent需要自己的浏览器

    阅读全文
上一页下一页