AI 找到了六个 Erdos 数学问题,陶哲轩:AI + 人类专家才是真正改变科学研究的方式
AI 帮数学家找到了六个「失踪」的答案。菲尔兹奖得主陶哲轩刚刚在 Mastodon 上分享了一个有趣的发现:六个原本被标记为「未解决」的 Erdos 数学问题,在 AI 的帮助下被发现……其实,早就有
阅读全文AI 帮数学家找到了六个「失踪」的答案。菲尔兹奖得主陶哲轩刚刚在 Mastodon 上分享了一个有趣的发现:六个原本被标记为「未解决」的 Erdos 数学问题,在 AI 的帮助下被发现……其实,早就有
阅读全文现在,Claude 可以新增「技能」了!Anthropic 刚刚为 Claude 推出了 Skills 功能,这个新能力让 Claude 能够动态加载专门的指令、脚本和资源,从通用 AI 助手变身为各
阅读全文刚刚,Google 发布了 Veo 3.1.全面进化相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升,Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭
阅读全文开源 AI 的天下,变了!去年 7 月,LMArena 开源模型榜单上,前四名都还是清一色的美企:Google、Nvidia、Meta、Cohere。而仅仅短短一年后的今天,形势就已彻底反转。现在的前
阅读全文Andrej Karpathy 又放大招了!他刚刚发布了一个名为 nanochat 项目,用 8000 行代码实现了 ChatGPT 的完整训练流程。在一个 8xH100 节点上跑 4 小时,花费约
阅读全文我有个去年就完成了 90% 却一直没有上线小工具,并终于在国庆期间突击了两天将进度提到 99% 后,还差 1% 就终于要上线了。稍微预告一下,这仍然是我作为第一用户的一个小工具,一句话介绍就是:基于
阅读全文现在,我们可以给 Claude Code 安装插件了!Anthropic 刚刚宣布 Claude Code 支持插件系统,让开发者们可以用一条命令就能安装定制化的工具集合。此次更新的负责人 Daisy
阅读全文本文共 1.3 万字,预计阅读需要 10 分钟;前半部分为对涉嫌抄袭的说明,后半部分为技术方案解析。我 9 月 23 号 23:48 发布的文章《山姆•奥特曼刚发长文:「丰盛的智能」,智能将人人可及》
阅读全文Anthropic 正在把 Claude Code 内置到 Claude 手机 APP 中!据 TestingCatalog News 最新爆料,Anthropic 正在准备将 Claude Code
阅读全文OpenAI DevDay 即将开始。而刚刚,Sam Altman 提前发文称对明天的 AI DevDay 充满期待,准备发布一些「帮助大家用 AI 构建应用」的新工具。而在此之前,OpenAI 总裁
阅读全文Sora 2 在推理基准测试上拿到了 55% 的成绩。要注意,这并不是个视频质量评分,而是 GPQA Diamond,一个专门测试大语言模型科学推理能力的基准,题目长这样:而作为对比,GPT-5 在同
阅读全文对 Richard Sutton 采访的再思考作者:Dwarkesh Patel 下为其在9月27日采访《强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神》后的反思。你们对 @RichardS
阅读全文「苦涩教训」的作者,其实并不认可大模型对「苦涩教训」的实践。见前文:强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神而刚刚,Andrej Karpathy 也发表了一篇长文深度解读了 Sutt
阅读全文今年 6 月,Andrej Karpathy 就提出:提示词工程该改名了。他建议用「上下文工程」(context engineering)取代「提示词工程」(prompt engineering)。K
阅读全文编程智能体迎来质变时刻!Anthropic 刚刚发布的 Claude Sonnet 4.5,不仅宣称是世界上最强的编程模型,更是将自主编码时间从 GPT-5-Codex 的 7 小时推进到了 30 小
阅读全文Anthropic 研究员 Jascha Sohl-Dickstein 最近分享了一个关于 AGI 来临的演讲。他说,我们可能正处于人类作为地球主要智慧生物的最后几年。演讲标题致敬了诺贝尔奖得主 Ra
阅读全文刚刚,一个 4 人团队打败了所有科技巨头的编程智能体!Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩,超越了包括 OpenAI、Anthr
阅读全文刚刚,Thinking Machines 实验室发布了他们的第二篇 Connectionism 研究文章,提出了一个叫做模块化流形(Modular Manifolds) 的理论框架,试图通过在权重矩阵
阅读全文AI 被用来算经济账了!刚刚,OpenAI 推出了 GDPval,一个专门评估 AI 在真实经济价值任务上表现的新基准。这次,OpenAI 不玩虚的了,直接把 AI 拉到经济战场上——看看你到底能创造
阅读全文AI 已然占领了整个技术圈!刚刚,Google 发布的年度「DevOps Research and Assessment(DORA)」报告显示:在接受调查的近 5000 名技术专业人士中,90% 的人
阅读全文刚刚,Sam Altman 发布了一篇名为Abundant Intelligence的新博文,勾勒出 OpenAI 野心勃勃的 AI 基础设施愿景。山姆•奥特曼在文中表示,AI 服务的增长速度令人惊叹
阅读全文刚刚,美团宣布高效推理模型 LongCat-Flash-Thinking 正式发布。新模型在保持龙猫模型一贯「快」特点的同时,在逻辑、数学、代码、智能体等多个领域的推理任务中,也达到了全球开源模型的最
阅读全文想必你已经看到了 Meta Reality Labs 在昨天 Meta Connect 大会现场演示翻车的尴尬之事了。来看视频:小扎当时一脸尴尬到脚趾抠地了,试了无数次后……终于放弃了。当时他的内心估
阅读全文AI 写代码爽归爽,但删库跑路也是真的会发生!吴恩达最新分享了他们团队使用 AI 编程助手的血泪史:一个 Agent 竟然执行了 rm *.py 命令,把整个项目的代码全删了!更离谱的是,当被质问时,
阅读全文Claude 再次解释:八月到九月初,它确实出问题了。刚刚,Anthropic 今天发布了一份详细的技术报告,解释了三个基础设施 bug 如何让 Claude 的回答质量断崖式下降。虽然他们像是说了些
阅读全文终于,AI Agent 们可以直接转账了!刚刚,Google 和 Coinbase 刚刚联手搞出了一个大动作:Agentic Payments Protocol(AP2),配合 x402 稳定币支付轨
阅读全文编程新王者真的要来了!刚刚,OpenAI 发布了 GPT-5-Codex:一个专门为 Agent 编程优化的全新模型。并且,该模型同步在 Codex CLI、IDE 扩展、网页端、移动端以及 GitH
阅读全文99% 的 Agent 创业公司,都可以扔掉你的代码了转用 Claude Code SDK 来实现了。刚刚,Claude Code SDK 发布了支持自定义工具和钩子函数的更新:Claude Code
阅读全文