MolmoAct2:为真实世界部署而生的开放动作推理模型
图片由 AI 生成机器人控制领域一直追求能适应各种任务的通用控制器,而视觉-语言-动作模型正是这一方向的关键技术。然而,现有系统在实际部署中仍面临诸多挑战:顶尖模型多为闭源;开源替代方案又往往依赖于昂
阅读全文图片由 AI 生成机器人控制领域一直追求能适应各种任务的通用控制器,而视觉-语言-动作模型正是这一方向的关键技术。然而,现有系统在实际部署中仍面临诸多挑战:顶尖模型多为闭源;开源替代方案又往往依赖于昂
阅读全文图片由 AI 生成随着大语言模型(LLM)的上下文窗口不断扩展,从数十万词元迈向百万级别,一个核心的挑战日益凸显:模型推理时,用于存储注意力计算中间状态的关键值(KV)缓存会线性增长,这给GPU内存容
阅读全文过去一年,很多公司都在问:我们是不是该上 AI?现在这个问题已经不够用了。更准确的问题应该是:我们有没有能力承接 AI?上 AI 很简单,先买账号,开权限,拉一个群,组织几场 prompt 培训。老板
阅读全文在数字图像编辑日益普及的今天,无论是专业设计师还是普通用户,都常常需要对两张图片进行精细的对比。例如,检查一张海报修改前后的细微差别,或者理解一张产品图在调整了哪些细节后变得更具吸引力。准确描述两张图
阅读全文图片由 AI 生成从单镜头到电影叙事:MuSS数据集如何推动多镜头视频生成在专业影视制作、广告创意和短视频内容中,视觉叙事从来不是孤立的单镜头展示。一个完整的故事往往由多个镜头序列构成:从交代环境的大
阅读全文> 本文来自社区投稿导读:先说结论Claw-Eval-Live 不是简单把 Claw-Eval 扩大一圈,而是在回答另一个更现实的问题:当 Agent 的能力开始接近部署边界时,评测基准不能只测“模型
阅读全文> 作者:李剑锋1. 前言1.1 前情回顾在上一节课中,我们通过 QLoRA 算法,将 swift 团队开源的自我认知数据集与基于 qwen3-32B 蒸馏得到的日常对话数据集(带思考)结合起来,完成
阅读全文图片由 AI 生成在机器人执行“把桌上的苹果放进篮子里”这样的指令时,我们期望它不仅能“看到”苹果和篮子,更能“理解”任务目标,并规划出一系列连贯的抓取、移动、放置动作。近年来,借助强大的预训练视觉-
阅读全文SMARTFLOW · AI DAILY · 05/04「现在的 AI 是它有史以来最糟糕的版本。」— Garry Tan(YC CEO)5-4 转发的一段评论2026-05-04 · 第 125 期
阅读全文SMARTFLOW · AI DAILY · 05/03月活 3 万也要关,AI 公司只剩两条赚钱路。2026-05-03 · 第 124 期 · 精选 3 条值得读5-3 在 swyx 主办的 AI
阅读全文SMARTFLOW · AI DAILY · 05/02「旧岗会消失,新岗会涌现。」— Sam Altman5-2 GPT-5.5 派对日 · 一条推文回复2026-05-02 · 第 123 期 ·
阅读全文SMARTFLOW · AI DAILY · 05/01「LLM 不只是在加速已有的东西,是在打开几条全新的地平线。」— Andrej Karpathy4-29 Sequoia Ascent 2026
阅读全文机智流 · 4 月 AI 月报各领风骚数十天AI 厂商的军备竞赛 30 天825 条头条 · 8 个新前沿模型 · 3 把 SDK · 4 家同日入场安全 Agent2026 年 4 月,一位没受过高
阅读全文> 作者:李剑锋前言在上节课中,我们已经基于 LoRA 微调方法,结合 swift 团队开源的自我认知数据集,完成了对 qwen3-0.6B 模型的高效参数微调实践。通过这一过程,大家初步掌握了在有限
阅读全文图片由 AI 生成当我们谈论AI加速器时,通常会想到GPU或TPU。但为了追求极致的能效和吞吐量,越来越多的定制化AI加速器正在涌现。这些新兴硬件平台往往拥有独特的指令集架构,这为软件开发带来了巨大的
阅读全文图片由 AI 生成在当今的AI数据中心,电力消耗已成为一个日益严峻的瓶颈。随着大语言模型从简单的单轮问答,演进到能够自主规划、调用工具、执行多轮复杂任务的“智能体”形态,其背后的计算模式发生了根本性变
阅读全文> 北辰编译今天没什么特别大的 AI 新闻。那就不追热点了,聊一段前两天听到的播客(也同步放出文字稿的中文翻译)。Lenny 采访了 Anthropic 的 Cat Wu。她负责 Claude Cod
阅读全文> 本文由 AI 辅助翻译,北辰校对Lenny Rachitsky,产品领域知名作者与播客主持人,主持 Lenny’s Podcast。Cat Wu 是 Anthropic 的产品负责人之一,负责
阅读全文你是否曾遇到过这样的场景:一个能够熟练使用工具、拥有长期记忆的大语言模型智能体,在面对一个需要多步骤协调、环境动态变化的复杂任务时,却表现得像“失忆”一般,前后矛盾,甚至忘记最初的目标?这种能力与表现
阅读全文> 本文整理自外网,原文链接[1]见文末> 原作者:Kevin Lynagh当一个项目想法冒出来的时候,我通常会有两种走向:第一种:直接干。 最多微调几次,但做出来往往跟想象中一模一样,很满意。第二种
阅读全文> 北辰今早 GPT-5.5 还在 X 上力压 Opus 4.7 呢,下午 Deepseek-V4 就放出大招,不仅正式在网页端上线,还一次性开源了模型文件、同步了技术报告。小编评价:这才是真正的开源
阅读全文> 作者:李剑锋前言在上一节课里,我们通过使用 200 条示例数据,并结合训练参数的调整,成功实现了 Qwen3-0.6B 模型的全参数微调及测试。这一步非常有价值,因为它让我们真正走通了一次从数据准
阅读全文图片由AI生成对于许多线上购物者来说,无法亲身试穿衣物始终是影响购买决策的一大障碍。即便有了商品展示图、模特上身图,但服装穿在自己身上究竟是什么效果,依然是个未知数。这种不确定性常常导致退货率上升和消
阅读全文> 本文转载自 CDIE20262026 年 4 月 14 日—15 日,由华昂集团(Dot Connector)主办的第十二届 CDIE 数字化创新博览会在上海张江科学会堂圆满落幕。本届大会以 “将
阅读全文图片由 AI 生成在当前的AI服务场景中,大语言模型(LLM)的部署常常面临一个核心难题:如何在不中断服务的情况下,根据实时变化的负载动态调整模型的计算资源分配?传统的静态部署方式,一旦选定流水线并行
阅读全文图片由 AI 生成在精密装配线上,一个机器人需要同时用两只“手”拿起细小的零件,在三维空间中精准对齐并完成组装。在家庭环境中,另一个机器人可能需要双手协作,平稳地端起一个盛满水的盘子。这些看似简单的任
阅读全文图片由AI生成在人工智能模型规模不断膨胀的今天,如何在保持强大性能的同时,实现高效的推理部署,成为行业面临的核心挑战。模型参数量与推理成本之间的矛盾日益突出,尤其是在需要处理长上下文、进行复杂多步推理
阅读全文> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对别急着打开代码接手一个新项目,大多数人的第一反应是 git clone 然后开始翻代码。但有个做了多年代码审计的工程师 Ally Pie
阅读全文「现代 AI 最让我着迷的一点是,它让我们得以用数学和哲学的方式,去触碰那些隐藏在人类互动背后的无形变量:AI 让『vibes』(氛围/感觉)变得可读、可理解。」——Vitalik Buterin,以
阅读全文> 作者:李剑锋课前导读:在大模型应用中,提示词工程和 RAG 已经成为最常见的两类增强手段:一个负责优化指令表达,一个负责补充外部知识。但它们本质上都属于“输入侧控制”,只能在当前对话中临时影响模型
阅读全文