Meta的代码生成世界模型CWM,先预测结果再写代码,IDE很快会多一个“预言”按钮
您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考
阅读全文您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考
阅读全文在人工智能的研究中,我们关心的是在序贯决策里如何实现长期目标的最优化;然而,一旦缺乏全局校正,哪怕每一步看似合理,仍可能在错误前提上越走越偏。在多步骤任务中,Agent 可能由于对指令的误解、知识的缺
阅读全文随着数字化时代的到来,文档数量急剧增加。文本文件、网页、幻灯片、海报、电子表格数据,甚至场景文本图像。这些文档不仅封装了不同行业内部和外部事务的处理细节和积累的知识,还涵盖了大量的行业相关实例和数据,
阅读全文长程、多轮对话(long-horizon, multi-turn dialogues)一直是当前AI应用领域中一个非常核心且常见的场景。无论是进行复杂的推理、利用外部知识库(RAG)还是使用工具(To
阅读全文对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案,在真实环境里闭环工作,而不只是在对话里“想”的智能体能力(Agency)。在这篇论文之前的传统方法认为,需要遵循传统语言模型的“规模法则”
阅读全文谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手
阅读全文Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。但在
阅读全文从LLM到Agentic的产业拐点上,最难的并不是让模型会写一段代码或生成一份报告,而是把能力稳定地固化进工程体系:如何拆解任务、如何在多人,多Agent协作下保证可追溯、如何做异常恢复与安全护栏、以
阅读全文上下文学习”(In-Context Learning,ICL),是大模型不需要微调(fine-tuning),仅通过分析在提示词中给出的几个范例,就能解决当前任务的能力。您可能已经对这个场景再熟悉不过
阅读全文有很多朋友都研究过MBTI,大家对MBTI已经很熟悉了。但也有一些朋友,对MBTI并不了解,什么是MBTI?迈尔斯-布里格斯类型指标(Myers-Briggs Type Indicator)简称MBT
阅读全文随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动
阅读全文幻觉并非什么神秘现象,而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明,模型产生幻觉(Hallucination),是一种系统性
阅读全文在现代科学中,几乎所有领域都依赖软件来进行计算实验。但开发这些专用的科学软件是一个非常缓慢、乏味且困难的过程,开发和测试一个新想法(一次“试错”)需要编写复杂的软件,这个过程可能耗费数周、数月甚至数年
阅读全文自2017年Transformer架构提出以来,依托GPU集群的大规模计算能力,人工智能迈入大模型时代并取得巨大成功。但其核心的Softmax Attention机制,训练开销会随序列长度呈平方级增长
阅读全文在大型语言模型(LLM)进行数学题、逻辑推理等复杂任务时,一个非常流行且有效的方法叫做 “自洽性”(Self-Consistency),通常也被称为“平行思考”。它的逻辑很简单:不要只让模型想一次,而
阅读全文什么断供不断供,不存在的。。。拳打在沙袋上,沙袋会给你一个反作用力,让你感觉到这次出拳的力量和效果,却也让新手只爱打更快的拳。同样,在强化学习(RL)当中,模型生成的代码在环境中运行后,会返回一个分数
阅读全文您对“思维链”(Chain-of-Thought)肯定不陌生,从最早的GPT-o1到后来震惊世界的Deepseek-R1,它通过让模型输出详细的思考步骤,确实解决了许多复杂的推理问题。但您肯定也为它那
阅读全文最近,工业界“RAG已死”甚嚣尘上。过去几年,AI领域的主旋律是“规模定律”(Scaling Law),即更大的模型、更多的数据会带来更好的性能。即便偶然有瑕疵,也认为只是工程上的不足,并非数学上的不
阅读全文你或许也有过这样的猜想,如何让AI智能体(Agent)变得更聪明、更能干,同时又不用烧掉堆积如山的算力去反复微调模型?前天一个来自UCL《Memento》的框架给出了一个非常有意思的答案,它就像是在说
阅读全文让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有
阅读全文It is not the most intellectual of the species that survives; it is not the strongest that survives;
阅读全文总是小心翼翼地调整Prompt措辞、格式,甚至标点符号,反复测试,却常常得到不稳定的结果?整个过程充满了不确定性。尤其是在构建复杂的AI应用时,这种混乱状态真是让人头疼。不过!最近来自微软的研究者们带
阅读全文这份来自麻省理工学院的2025年商业AI现状的研究报告最近在网上炸锅了,该报告称 95% 的人工智能试点都失败了,这吓坏了美国股市的投资者。报告提到大多数公司都陷入了困境,因为 95% 的 GenAI
阅读全文华为诺亚方舟实验室最近联合香港大学发了一篇针对"Deep Research Agents"(深度研究代理)的系统性综述,在我的印象中,这是他们第二次发布关于Deep Research的综述论文。上一篇
阅读全文精心设计了一个由多个AI智能体组成的强大团队,期望它们能像人类专家一样协作解决复杂问题,但却发现这个团队聊着聊着就“精神涣散”,忘记了最初的目标,甚至连彼此的角色都开始混乱。这并非您的设计失误,而是当
阅读全文您可能已经在产品里放进了问答、总结、甚至自动报表模块,但表格一上来,体验就变味了,这不奇怪。表格是二维、带结构、还经常跨表跨文,和纯文本完全不一样;项目作者在《Tabular Data Underst
阅读全文真正的业务宝藏往往就埋藏在那些看似杂乱无章的文本数据之中,即非结构化文本,但问题是,如何高效、可靠地把这些宝藏精准地挖出来,一直是个令人头疼的难题,今天我们就来聊聊最近GitHub12.3k star
阅读全文每当需要处理复杂领域中高度不确定性或缺乏历史数据的问题时,纯粹的科学证据不足、存在矛盾或过于复杂,通常我们就需要依赖专家们的集体智慧来形成共识,指导实践。德尔菲法(Delphi method)是半个多
阅读全文AI领域一度陷入“上下文窗口”的军备竞赛,从几千token扩展到数百万token。这相当于给了AI一个巨大的图书馆。但这些“百万上下文”的顶级模型,它究竟是真的“理解”了,还是只是一个更会“背书”的复
阅读全文