突破2D-3D鸿沟!北大、人大、BeingBeyond提出VIPA-VLA,用人类视频解锁机器人精准操控
当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时,大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信息。但对于依赖视觉-语言-动作(VLA)模型的机器人来说,这却是一个
阅读全文当我们用手机拍摄一段 "拿起杯子放进抽屉" 的视频时,大脑能瞬间从 2D 画面中捕捉到杯子的位置、距离、手的运动轨迹等 3D 空间信息。但对于依赖视觉-语言-动作(VLA)模型的机器人来说,这却是一个
阅读全文在大模型快速演进的过程中,评测成为衡量模型能力不可或缺的“标尺”。模型究竟具备哪些能力、存在哪些短板,以及在复杂场景下是否足够稳定,仅凭参数规模或模型结构难以给出明确答案,仍需依托系统化的评测基准与多
阅读全文图片由AI生成在大模型推理系统中,输入/输出长度高度动态、注意力掩码结构复杂多变、Prefill/Decode/Verify 阶段混合调度等问题,正严重制约 AI 加速器(尤其是华为昇腾 NPU等基于
阅读全文自 2023 年底书生大模型实战营推出以来,已有五期学员共同进行了学习和开发实践,吸引超过 25 万人次 在线学习,孵化出近 1500 个创意项目。书生大模型实战营第 6 期全面升级,本次课程将在 A
阅读全文警告:本文包含可能具有冒犯性和有害性的内容!近日,来自佐治亚理工学院、伊利诺伊大学厄巴纳-香槟分校(UIUC)、清华大学、IBM研究院等多家顶尖机构的研究团队,联合发布了一种名为 CKA-Agent[
阅读全文一句话总结:该综述系统梳理了 RAG 技术的发展脉络,从早期开放域问答任务中的原型,到近年来多领域大规模应用的系统化演化,进行了全面而深入的总结。前文速览:RAG 是当前提升大语言模型回答质量与准确性
阅读全文2020 年 11 月 19 日,Hugging Face 发布了 Transformers v4 的首个候选版本,彼时这个 AI 模型定义库的日安装量仅 2 万次,支持的模型架构不过 40 种,社区
阅读全文昨晚我们刚说到Cursor提前泄露GPT-5.2,今天(当地时间12月11号)OpenAI就正式放出了这款被定位为“迄今最强专业知识工作模型”的新系统GPT-5.2[1],已全面向ChatGPT订阅用
阅读全文> 作者:李剑锋前言LangSmith Studio 是一个用于本地开发 LangChain / LangGraph Agent 的免费可视化调试界面。它不是云服务,而是你的本地 Agent 与可视化
阅读全文前言:VideoVLA的思路和我们之前解读过的 RynnVLA-002 比较相似。两者都是同时赋予模型动作和图像生成的能力,RynnVLA-002 是将 VLA 模型和世界模型统一在一个框架中,VLA
阅读全文> 本文转载自「GMI Cloud 黑板报」 哈喽,朋友们~ 跟大家分享一件💡开心💡的事 —— 用 GMI Cloud 推理引擎平台的 API 开发的微信小程序「测测你适合啥 AI」正式
阅读全文在如今大模型(Large Language Models, LLMs)推理需求爆炸式增长的背景下,如何在保障服务质量的同时控制高昂的 GPU 资源成本,已成为云服务商的核心难题。近期,由微软联合多所高
阅读全文图片由AI生成在当前大语言模型(LLM)迅猛发展的浪潮中,强化学习(Reinforcement Learning, RL)已成为提升模型推理能力的关键技术。无论是 DeepSeek-R1 还是 Kim
阅读全文睡不着?想恋爱?开车犯困?…… 都是聊天能解决的事儿!玩家在《Talk With》里会面临抽到的随机场景,每个场景都潜含着困难和危机。你需要竞拍和挑选合适的对话式 AI 和语音技术,并给出有表现力的解
阅读全文一句话总结:该综述系统梳理了 RAG 技术的发展脉络,从早期开放域问答任务中的原型,到近年来多领域大规模应用的系统化演化,进行了全面而深入的总结。论文地址:https://arxiv.org/abs/
阅读全文2024年底,OpenAI o1模型的发布成为大型语言模型(LLM)发展的关键转折点。这款首个被广泛采用的推理模型,将行业从单一的文本模式生成推向多步骤审慎推理的新阶段,彻底改变了LLM的应用格局。而
阅读全文内容概览(图片由AI生成)在人工智能技术突飞猛进的今天,大语言模型(LLM)被寄予厚望——不仅能写代码、回答问题,甚至有望成为企业中“自主数据智能体”,自动完成从原始数据清洗、建模到商业洞察生成的全套
阅读全文“教育被重塑,产业范式被改写,世界模型浮出水面,算力体系重新洗牌……” 作者丨杨依婷编辑丨包永刚在AI技术奔涌向前的时间洪流里,那些深刻的变革,往往以微弱的火光开场,最终点燃时代的烈焰。九年前
阅读全文https://huggingface.co/collections/AI-Insight/hf-papers-live-6-ocr由 Hugging Face × OpenMMLab × Model
阅读全文图片由 AI 生成,可能有误在大模型训练与部署成本高企的今天,一个令人惊讶的问题摆在我们面前:为什么成百上千个团队在同时重复执行几乎相同的 SFT(监督微调)或奖励模型推理任务?传统系统将每个工作流视
阅读全文当全世界的目光都聚焦在 OpenAI 和 Google 的 Gemini 迭代时,以“安全与伦理”著称的 Anthropic 似乎显得格外安静。然而,就在这几天,一份神秘的文档在 Reddit r/C
阅读全文(下方海报中的报名二维码若手机无法打开,请尝试在电脑端打开)-- 完 --机智流推荐阅读:1. 多模态统一模型的“理解”真的能指导“生成”吗?北大推出 UniSandbox,揭示理解-生成鸿沟与进化之
阅读全文哈佛大学联合 MIT 提出大脑记忆遵循 “Key-value memory” 原理 —— 海马体存储用于检索的 “键”(Key),新皮质存储记忆 “值”(value),二者分工协作解决了 “记忆存得住
阅读全文GAIR 与青年科学家共同点亮,通往真实智能的道路。作者丨郑佳美编辑丨马晓宁12 月 13 日,GAIR 2025 将以「走向真实智能的起点」为题,在深圳南山 · 博林天瑞喜来登酒店举办重磅专题论坛。
阅读全文本文修改自:https://sander.ai/2024/02/28/paradox.html扩散模型(Diffusion Models)之所以能在图像、音频、视频等领域取得统治级表现,其根本原因在于
阅读全文> 本文来自社区投稿今天要和大家聊一篇非常有意思的工作——LightReasoner。这篇由香港大学发表的最新论文,挑战了AI界一个习以为常的认知:“大模型一定比小模型强,小模型只能被教导,不能当老师
阅读全文> 本文来自社区投稿,作者:北京大学牛宇威本图由 Nano Banana Pro 生成近日,来自北京大学与港大 MMLab 等机构合作的最新研究成果——UniSandbox,深入探究了多模态大模型领域
阅读全文新闻资讯DeepSeek 强势回归:开源 IMO 金牌级数学模型 DeepSeek-Math-V2DeepSeek 发布新一代数学推理模型 DeepSeek-Math-V2,实现 IMO 金牌级推理能
阅读全文> 作者:李剑锋前言在上一节课中(零基础入门 LangChain 多智能体系统(进阶篇):加入人工审查与信息流控制),我们主要学习了如何构建多智能体系统,让大模型不仅能够“回答问题”,还能够在复杂任务
阅读全文