Kimi K2 Thinking,最强思考模型,附实测
能最终找到真相的,往往不是沉思者,而是探索者。 昨晚,Moonshot AI 宣布发布 Kimi K2 Thinking:早前的思考模型,就像关在黑屋子里的哲学家,无论思考多深刻、推理多严密,都无法知
阅读全文能最终找到真相的,往往不是沉思者,而是探索者。 昨晚,Moonshot AI 宣布发布 Kimi K2 Thinking:早前的思考模型,就像关在黑屋子里的哲学家,无论思考多深刻、推理多严密,都无法知
阅读全文上周五,我正打算叫还在上大三的弟弟出来见面吃个饭,结果这小子给我发了个哭脸表情包:哥,不行了,周一组会啥都没准备,导师又要说我看论文太少了。我心想,你小子天天在实验室摸鱼,现在知道急了?于是我索性一个
阅读全文美团,这家外卖公司,又开源了!刚刚,美团发布了 LongCat-Flash-Omni,一个 560B 参数(激活 27B)的开源全模态 MoE 模型。模型在多个基准测试中拿下了 SOTA,甚至在部分指
阅读全文Codex 用户终于等来了「加餐」!OpenAI Developers 刚刚宣布了一个让开发者们激动的消息:Codex 推出了积分制度,还把所有人的速率限制全部重置了。简单来说就是:你可以花钱
阅读全文软件安全来了新帮手!OpenAI 刚刚宣布推出 Aardvark,一个由 GPT-5 驱动的自主安全研究智能体,目前正在私有测试阶段。软件安全一直是技术领域最关键也最具挑战性的前沿阵地。每年,企业和开
阅读全文语言模型能「看见」自己的思考吗?Anthropic 最新研究表明,Claude 展现出了真实但有限的内省能力:它能在某种程度上识别自己的内部状态。这听起来像科幻小说,但研究团队开发了一套巧妙的验证方法
阅读全文在 OpenAI 刚刚结束的直播中,Sam Altman 和 Jakub Pachocki 透露了一系列重磅信息,并称个人 AGI 即将到来,且未来将非常光明。这次直播的形式不同过往,让人耳目一新:与
阅读全文Claude 扩展了金融服务功能,可连接 Excel 处理财务数据了!刚刚,Anthropic 宣布推出 Claude for Financial Services,不仅增强了金融专属功能,还带来了
阅读全文Meta 裁员逻辑揭晓了,是看代码行数谁的少就裁的谁!Yuchen Jin 爆料:有 Meta 内部人士透露,这次裁员是根据代码行数(lines of code diffs)来决定的。这解释了为什么那
阅读全文今天是一年一度的 10 月 24 号。程序员不一定要过情人节,但一定得过 1024。因为 1024 是 2 的 10 次方,是二进制世界的「整数」,是 1KB 的字节数,更是程序员们独有的节日密码。身
阅读全文生命科学研究,迎来了 AI 原生时代。刚刚,Anthropic 推出了专门为生命科学领域定制的 Claude for Life Sciences,计划从产品能力到合作生态进行全方位布局。从文献检索到数
阅读全文Codex 和 Claude Code,用哪个呢?当然是:全!都!要!本文 90% 是我用嘴写的(语音输入),当作周末做的一个小东西的整理,属于想到哪儿说到哪儿,硬凑了 10 点,如下:一、如果有条件
阅读全文Karpathy 说 AGI 还要十年,但这十年会发生什么?Dwarkesh Patel 最新一期播客请来了 Andrej Karpathy,这位前 Tesla 自动驾驶负责人、前 OpenAI 研究
阅读全文AI 帮数学家找到了六个「失踪」的答案。菲尔兹奖得主陶哲轩刚刚在 Mastodon 上分享了一个有趣的发现:六个原本被标记为「未解决」的 Erdos 数学问题,在 AI 的帮助下被发现……其实,早就有
阅读全文现在,Claude 可以新增「技能」了!Anthropic 刚刚为 Claude 推出了 Skills 功能,这个新能力让 Claude 能够动态加载专门的指令、脚本和资源,从通用 AI 助手变身为各
阅读全文刚刚,Google 发布了 Veo 3.1.全面进化相比于 OpenAI Sora 1 到 Sora 2 的大版本号提升,Google DeepMind 团队这次带来的 Veo 3.1 的小版本版本迭
阅读全文开源 AI 的天下,变了!去年 7 月,LMArena 开源模型榜单上,前四名都还是清一色的美企:Google、Nvidia、Meta、Cohere。而仅仅短短一年后的今天,形势就已彻底反转。现在的前
阅读全文Andrej Karpathy 又放大招了!他刚刚发布了一个名为 nanochat 项目,用 8000 行代码实现了 ChatGPT 的完整训练流程。在一个 8xH100 节点上跑 4 小时,花费约
阅读全文我有个去年就完成了 90% 却一直没有上线小工具,并终于在国庆期间突击了两天将进度提到 99% 后,还差 1% 就终于要上线了。稍微预告一下,这仍然是我作为第一用户的一个小工具,一句话介绍就是:基于
阅读全文现在,我们可以给 Claude Code 安装插件了!Anthropic 刚刚宣布 Claude Code 支持插件系统,让开发者们可以用一条命令就能安装定制化的工具集合。此次更新的负责人 Daisy
阅读全文本文共 1.3 万字,预计阅读需要 10 分钟;前半部分为对涉嫌抄袭的说明,后半部分为技术方案解析。我 9 月 23 号 23:48 发布的文章《山姆•奥特曼刚发长文:「丰盛的智能」,智能将人人可及》
阅读全文Anthropic 正在把 Claude Code 内置到 Claude 手机 APP 中!据 TestingCatalog News 最新爆料,Anthropic 正在准备将 Claude Code
阅读全文OpenAI DevDay 即将开始。而刚刚,Sam Altman 提前发文称对明天的 AI DevDay 充满期待,准备发布一些「帮助大家用 AI 构建应用」的新工具。而在此之前,OpenAI 总裁
阅读全文Sora 2 在推理基准测试上拿到了 55% 的成绩。要注意,这并不是个视频质量评分,而是 GPQA Diamond,一个专门测试大语言模型科学推理能力的基准,题目长这样:而作为对比,GPT-5 在同
阅读全文对 Richard Sutton 采访的再思考作者:Dwarkesh Patel 下为其在9月27日采访《强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神》后的反思。你们对 @RichardS
阅读全文「苦涩教训」的作者,其实并不认可大模型对「苦涩教训」的实践。见前文:强化学习之父:大语言模型走错了路,不符合「苦涩教训」精神而刚刚,Andrej Karpathy 也发表了一篇长文深度解读了 Sutt
阅读全文今年 6 月,Andrej Karpathy 就提出:提示词工程该改名了。他建议用「上下文工程」(context engineering)取代「提示词工程」(prompt engineering)。K
阅读全文编程智能体迎来质变时刻!Anthropic 刚刚发布的 Claude Sonnet 4.5,不仅宣称是世界上最强的编程模型,更是将自主编码时间从 GPT-5-Codex 的 7 小时推进到了 30 小
阅读全文Anthropic 研究员 Jascha Sohl-Dickstein 最近分享了一个关于 AGI 来临的演讲。他说,我们可能正处于人类作为地球主要智慧生物的最后几年。演讲标题致敬了诺贝尔奖得主 Ra
阅读全文刚刚,一个 4 人团队打败了所有科技巨头的编程智能体!Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩,超越了包括 OpenAI、Anthr
阅读全文