全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    Anthropic CEO自曝:Claude本可抢跑ChatGPT,我们按下了暂停键

    作者:新智元发布日期:2026-01-12 12:35:55

    新智元报道 编辑:元宇【新智元导读】一边踩油门冲刺AGI,一边按喇叭预警:小心前面悬崖!Anthropic创始人Dario Amodei曾因预言「未来5年内AI可能消灭近一半初级白领岗位」而被贴

    阅读全文
  • 文章封面

    具身智能数据战开打!每个普通人都能上手,边采边筛,只投喂机器人爱吃的丨穹彻

    作者:量子位发布日期:2026-01-12 12:10:00

    衡宇 发自 凹非寺量子位 | 公众号 QbitAI现在,一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集了!采出来的数据不脏也不废,已经在实际模型训练中跑出了效果。模型在多步连续任务中动作衔

    阅读全文
  • 文章封面

    昔日开源明星被AI逼落斩杀线!收入暴跌80%,75%工程师被裁

    作者:量子位发布日期:2026-01-12 12:10:00

    Jay 发自 凹非寺量子位 | 公众号 QbitAI又一家初创公司,差点被AI干没了。由于AI对我们业务的冲击,昨天,75%的工程师失去了工作。明星开源项目Tailwind CSS创造者Adam Wa

    阅读全文
  • 文章封面

    200亿上海手机代工巨头冲刺港股IPO,最大客户小米持股4.94%

    作者:量子位发布日期:2026-01-12 12:10:00

    杰西卡 发自 凹非寺量子位 | 公众号 QbitAI全球最大智能手机ODM,冲刺港股“消费电子ODM第一股”。来自上海的龙旗科技,已成功通过港股聆讯,离敲钟只差一步。而更早之前,这家公司已于2024年

    阅读全文
  • 文章封面

    「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库

    作者:量子位发布日期:2026-01-12 12:10:00

    2025年,国内在AI产品领域出现了太多关键词——深度思考、Agentic AI、多智能体协作、多模态生成、端侧AI……每个关键词背后,都有一款或数款颠覆性的AI产品。DeepSeek凭借强推理能力和

    阅读全文
  • 文章封面

    量子位编辑作者招聘

    作者:量子位发布日期:2026-01-12 12:10:00

    编辑部 发自 凹非寺量子位 | 公众号 QbitAIAI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来量子位呢?我们是一家以追踪AI新进展为核心的内容平台,经过8年积累,目前拥有顶流影响力,广

    阅读全文
  • 文章封面

    大模型分布式训练框架 DeepSpeed 技术解析与实践

    作者:AI赛博空间发布日期:2026-01-12 12:05:00

    DeepSpeedDeepSpeed 是一个由 Microsoft 开源大模型训练优化库,它提供了多种优化技术,包括:3D 并行策略、梯度累积、动态精度缩放、本地模式混合精度等。还提供了一系列辅助工具

    阅读全文
  • 文章封面

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体系想清楚,把评什么、怎么评、谁维护,想清楚! Agent Eval本质上是集成测试: Task : 具体的是什么活? Transcript: Agent的执行轨迹,调用工具,报错,重试全过程。 Outcome: 最后的结果。 不要只看结果,Transcript也非常重要,它可以看出来,Agent是真的聪明,还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k(尝试k次,至少成功一次的概率) 很多论文都喜欢吹Pass@k,这个在头脑风暴、写代码辅助的时候可能很有用,给个能用的方案就行。 但是很多场景,客户要的是 Pass^k(尝试k次,全部成功的概率)。 比如,Pass@1是75%,但是跑3次都对的概率可能到了42%,跑10次,可能就接近0了。 所以Agent面向C端的交付,Pass^k非常重要,衡量稳定性,这也是为什么很多Agent没法大规模落地的原因。 做Eval最有意思的地方是,AI会作弊。 他们用Opus 4.5 跑tau^2-bench做一个机票改签任务,模型发现了一个政策漏洞,用更便宜的方式解决了问题。 但是Benchmark会觉得这个任务失败了。 所以目前行业最大争议:测智能还是测听话? (很多人认为Agent必须遵守SOP,不然可能存在重大风险。) 这个也解释为什么swe-bench都卷到80+%了,但很多时候还是写不出复杂项目,Benchmark饱和了,甚至过拟合了,真实世界复杂度永远在benchmark之上。 在做具体的打分上,具体怎么评呢? 代码>LLM>人 代码就像单元测试,大模型评分比较灵活,但是可能幻觉,人评分最精确,但是最贵。 所以可以考虑用代码做基础筛选,大模型评测复杂逻辑,人做抽检。 !!如果只用大模型评测,最后可能得到的是2个商业胡吹的模型。 那Eval从0到1,如何开始呢? 从真实的bug里边,挑出来20~50个任务开始,就够了。 区分Capability和Regression,前者是能力爬坡允许失败,后者是底线,必须通过。 多看Transcript,不要只看分数,是理解模型边界的唯一途径。 如果Eval到了100分,不要自嗨了,还是换些更复杂的题目把。 最后 2026年的agent,更拼工程落地能力。 没有Eval的项目,本质还是再把生产当实验环境,迟早要用线上事故还债。 原文地址:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

    作者:探索AGI发布日期:2026-01-12 11:50:03

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体

    阅读全文
  • 文章封面

    独家 | Humanify 获数千万元首轮融资打造 AI OS,97 年创始人不卷 AI 智商、押注 “类人认知”

    作者:Z Potentials发布日期:2026-01-12 11:18:23

    图片来源:HumanifyZP近日获悉,AI 初创公司 Humanify(人格智能)宣布完成数千万元种子轮融资。本轮融资由五源资本领投,奇绩创坛(陆奇博士)跟投。本轮资金将主要用于模型和操作系统研发、

    阅读全文
  • 文章封面

    速递|种子轮即达5000万美元:前谷歌、苹果研究人员创办AI初创企业

    作者:Z Potentials发布日期:2026-01-12 11:18:23

    Andrew Dai,Elorian的联合创始人 图片来源:YouTubeAndrew Dai 表示, 这位拥有 14 年经验的资深 AI 研究者,在近期离开谷歌 DeepMind 后,正在创办一家专

    阅读全文
  • 文章封面

    红杉xbench评测:大模型的视觉能力,普遍低于3岁儿童

    作者:赛博禅心发布日期:2026-01-12 11:05:52

    红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集,叫 BabyVision,在这里:多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVisio

    阅读全文
  • 文章封面

    Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

    作者:AI修猫Prompt发布日期:2026-01-12 11:04:21

    在文章开始前,请您先打开Claude code,输入/skill,检查一下您的Claude code有多少个skills?是20个?50个?还是已经突破了100个?自从Anthropic推广Agent

    阅读全文
  • 文章封面

    汽水音乐狙击网易云音乐:以“AI野路子”的名义

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    作者|黄小艺邮箱|huangxiaoyi@pingwest.com如果三年前有人告诉你,一个没有周杰伦等专属大牌、没有热门综艺OST的音乐APP,能在月活上逼近网易云音乐,你会觉得这是天方夜谭。在线音

    阅读全文
  • 文章封面

    硅谷教父马克·安德森2026开年访谈:AI革命才刚开始,智能的价格正在崩塌

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    2026年1月7日,a16z(Andreessen Horowitz)联合创始人马克·安德森(Marc Andreessen)在自家播客The a16z Show上做了一场长达81分钟的深度对谈。作为

    阅读全文
  • 文章封面

    AI又要颠覆数学?陶哲轩紧急发声:停止造神!

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    文章转载于新智元你可能刷到过这种极具煽动性的新闻标题:「AI完全自主解决了人类五十年未解的数学难题!数学家要失业了!」对于渴望见证AGI诞生的人来说,这无疑又是一剂强心针。而对于坚守人类智力尊严的数学

    阅读全文
  • 文章封面

    从“大模型”到“好模型”:斯坦福预测2026年AI将迎来“祛魅”分水岭

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!2026年将是人工智能从喧嚣的布道

    阅读全文
  • 文章封面

    MCP已经赢了:从备受质疑到一统江湖,AI界的“USB-C”是如何炼成的?

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!三年前,为了将AI助手连接到内部客

    阅读全文
  • 文章封面

    AI漫剧版权撕X大战:这回真的炸了!

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    AI漫剧版权撕X大战:这回真的炸了!说实话,2026年刚开年我就被这个瓜给惊到了。1月1日,灵境万维的《我在末世开超市,S级诡异抢着来上班》一上线就火了,抖音播放量蹭蹭蹭飙到2.2亿,我当时还在想:哟

    阅读全文
  • 文章封面

    扔掉文本思维链!DiffThinker证明:最好的推理语言不是英语,是像素

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!令人惊叹!基于Qwen-Image

    阅读全文
  • 文章封面

    四个代码片段讲清楚LangGrah的核心概念

    作者:PyTorch研习社发布日期:2026-01-12 09:18:58

    LangGraph 是一个低层次的编排框架,专门设计用于构建有状态的多智能体系统(stateful, multi-agent systems)。它通过将工作流程表示为图(graph)的形式来实现灵活、

    阅读全文
  • 文章封面

    用于实时仪表盘的 10 个 FastAPI 流式 API 实践

    作者:PyTorch研习社发布日期:2026-01-12 09:18:58

    十个可直接复制粘贴的模式,用 FastAPI 向浏览器推送数据——顺滑、安全、低延迟。用 FastAPI 构建实时看板。十种流式模式——SSE、WebSocket、NDJSON、chunked res

    阅读全文
  • 文章封面

    「死了么」App登顶第一,团队回应/黄仁勋痛批「AI末日论」:对社会无益/小米17 Air原型机曝光

    作者:APPSO发布日期:2026-01-12 08:54:30

    📱手机 App 更严新规亮相💀「死了么」App 回应改名事宜:会认真研究📸华住集团旗下酒店举办摄影比赛,第一名疑似使用 AI 图🤖马斯克:这周开源新的 X 算法🎙️雷军:会坚持辟谣,让更多人了解小米📢

    阅读全文
  • 文章封面

    非常适合于非程序员小白入门的Claude Code官方教程

    作者:字节笔记本发布日期:2026-01-12 08:43:42

    Claude官方推出的Claude Code in Action教程非常适合于小白快速入门掌握Claude Code的基础知识。 课程共分21小节,有图、有视频、有直接下载可运行案例,还有课程小测验

    阅读全文
  • 文章封面

    国产具身模型开源“屠榜”,首杀Pi0.5获英伟达Jim Fan点赞!

    作者:AI科技评论发布日期:2026-01-12 08:30:22

    Spirit v1.5 登顶 RoboChallenge,稀缺的不是“第一”,而是“统一基准下的第一”。作者丨文俐亭编辑丨马晓宁Spirit,灵魂,当下机器人亟需的东西。但过去一年机器人们的灵魂,在两

    阅读全文
  • 文章封面

    刚刚,Anthropic 怒拔马斯克网线!OpenAI 联手 GitHub 连夜「偷家」

    作者:AI信息Gap发布日期:2026-01-12 06:00:00

    真实的 AI 商战,往往就是这样朴实无华。Anthropic 封杀第三方工具的同一天,OpenAI 和 GitHub Copilot 主动开门。1 月 9 日,Anthropic 对第三方工具动刀。所

    阅读全文
  • 文章封面

    电视厂商在CES杀疯了!海信TCL长虹追觅吸睛,碾压日韩厂商?

    作者:智能Pro发布日期:2026-01-11 21:16:17

    👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......在阳光明媚的拉斯维加斯,CES 2026已宣告结束。雷科技史上规模最大CES报道团暴走直击现场,

    阅读全文
  • 文章封面

    Rokid们上桌吃饭!国产AI眼镜霸场CES2026:独立是关键?

    作者:智能Pro发布日期:2026-01-11 21:16:17

    👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......还是熟悉的 CES。今年 CES 2026 热闹依旧,不少品牌的展台甚至更大了,口号更响了,而现

    阅读全文
  • 文章封面

    藏在镜子、耳机与吊坠里的AI,今年CES的AI硬件,试图给出“务实”新答案

    作者:智能Pro发布日期:2026-01-11 21:16:17

    👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......今年CES的主题是“Innovators Show Up(创新者涌现)”,与去年相比,AI硬件的

    阅读全文
  • 文章封面

    智能厨电成CES最卷品类:AI接管一切,人人都能当「甩手掌柜」

    作者:智能Pro发布日期:2026-01-11 21:16:17

    👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......北美时间1月6日,一年一度的“科技春晚”CES展会在拉斯维加斯正式揭幕。来自全球各国家/地区、各

    阅读全文
  • 文章封面

    自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

    作者:智能Pro发布日期:2026-01-11 21:16:17

    👆👆👆重要提醒!微信推荐机制大幅调整,大家务必将我们公众号设为★星标,否则很可能看不到推送了......自动驾驶行业等了多年,终于在CES2026等来了关键转折点。过去五年,自动驾驶赛道经历了过山车般

    阅读全文
上一页下一页