社区供稿丨MiniCPM-V 4.5 技术报告正式出炉
上个月,面壁小钢炮带来了最新的多模态模型 MiniCPM-V 4.5,成为行业首个具备“高刷”视频理解能力的多模态模型。模型一经开源广受社区好评,直接登上 HuggingFace Trending T
阅读全文上个月,面壁小钢炮带来了最新的多模态模型 MiniCPM-V 4.5,成为行业首个具备“高刷”视频理解能力的多模态模型。模型一经开源广受社区好评,直接登上 HuggingFace Trending T
阅读全文在理想情况下,AI 智能体应当是可靠的助手。当接收到任务时,它们能够轻松处理指令中的歧义,构建逐步执行的计划,正确识别所需资源,按计划执行而不被干扰,并在突发事件中灵活适应,同时保持准确性,避免幻觉。
阅读全文💡 MiniCPM 4.1 亮点一览 🏃首个原生稀疏架构的深思考模型,通过可训练稀疏注意力创新,代码、数学推理等任务的推理速度比同尺寸开源模型快 3 倍以上;🌟在知识、推理、编程、指令遵循等综合能
阅读全文目前论文已经被 EMNLP 2025 主会录取,同时模型已经开源论文: https://huggingface.co/papers/2509.01215Github: https://github.c
阅读全文ZeroGPU 让任何人都能在 Hugging Face Spaces 中使用强大的 Nvidia H200 硬件,而不需要因为空闲流量而长期占用 GPU。 它高效、灵活,非常适合演示,不过需要注意
阅读全文【黑客松双城启幕】全球首创家务机器人开发者黑客松,由 Hugging Face、NVIDIA 与 Seeed Studio 联合举办!我们将在深圳以及美国湾区举办两场开发者黑客松,中美双城联动。两大赛
阅读全文大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。它将语音理解、音频推理与生成统一建模,在音频理解、语音识别、
阅读全文通往通用人工智能(AGI)的探索,不仅是技术的突破,更关乎体验的革新。多模态大模型通过融合视觉与语言等多维信息,让AI能够像人一样理解世界、解决问题,为用户带来更流畅、更可信赖的交互体验。在多模态大模
阅读全文编者按:AI 自动生成播客早已不是新鲜事,但常见的 AI 播客只局限于几分钟的双人对话,这是因为传统语音生成模型大多基于离散化方法,更擅长生成短句、单一音色、结构规整的语音内容。近日,微软亚洲研究院提
阅读全文今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档
阅读全文阿里国际正式发布新一代多模态大模型Ovis2.5。Ovis2.5 是一款面向原生分辨率视觉感知、深度推理与高性价比场景设计的多模态大模型。在主流多模态评测套件 OpenCompass 上的综合得分相较
阅读全文由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 等联合发起的【AI Insight Talk】系列直播活动第四场 - 多模态专场,即将开播!近期各
阅读全文⚠️ 本文不构成任何法律意见或建议。快速摘要 (TL;DR): 自 2025 年 8 月 2 日起,欧盟《人工智能法》将对通用人工智能(GPAI)模型的提供者模型提供者提出新的合规要求。但是对于用于科
阅读全文面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 现已开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且
阅读全文GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的gpt‑oss‑120b和拥有 21B 参数的gpt‑os
阅读全文我们正式介绍两个新的 GLM 系列成员:GLM-4.5 和 GLM-4.5-Air——我们最新的旗舰模型。GLM-4.5 拥有 3550 亿总参数和 320 亿激活参数,而 GLM-4.5-Air 拥
阅读全文7 月 26 日,2025 世界人工智能大会(WAIC 2025)正式开幕。在当天下午举行的科学前沿全体会议上,上海人工智能实验室(上海AI实验室)发布并开源『书生』科学多模态大模型 Intern-S
阅读全文我们最新的开源机器人 Reachy Mini 正式亮相 🎉 这款富有表现力的开源机器人由 Pollen Robotics 与 Hugging Face 联合打造,专为人机交互、创意编程和 AI 实验而
阅读全文今天,我们正式发布 jina-embeddings-v4,一款全新的多模态向量模型,参数规模达到 38 亿,并首次实现了对文本与图像的同步处理。为了在各类检索任务中发挥极致性能,我们在模型内置了一套面
阅读全文nanoVLM是使用纯 PyTorch 训练 你自己的视觉语言模型 (VLM) 的 最简单 方式。它是一个轻量级 工具包 ,让你可以在免费的 Colab Notebook上启动 VLM 训练。nano
阅读全文由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 联合发起的【AI Insight Talk】系列活动重磅来袭!本期我们将聚焦 强化学习(RL)与推
阅读全文🧭 TL;DR今天,我们希望向大家介绍一个新的模型: SmolVLA,这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型,专为机器人领域设计,并且可以在消费级硬件上运
阅读全文🌟 欢迎参加 Gradio & MCP 智能体主题黑客松!准备好了吗?一场以智能体 (Agent) 和模型上下文协议 (Model Context Protocol,简称 MCP) 为核心的全球在线黑
阅读全文B 站升级动画视频生成模型 Index-AniSora 技术并开源,支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成!整个工作技术原理基于 B 站提出的 A
阅读全文这是 大模型评估排障指南 系列文章的第三篇,敬请关注系列文章:关于推理关于 公式解析关于可复现性假设你读了一篇最近的新模型技术报告,然后心血来潮想要在本机复现他们的结果,却发现根本没法复现,这是为什
阅读全文2025 年 5 月 6 日,智源研究院在法国巴黎举行的 GOSIM 全球开源创新论坛上发布大型开源文本数据集 CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。C
阅读全文这是 大模型评估排障指南 系列文章的第二篇,敬请关注系列文章:关于推理关于 公式解析关于可复现性解析 LaTeX 很难。这个问题在评估输出为 的模型时经常会遇到,例如 Hugging Face 的
阅读全文Hugging Face Hub 已成为 AI 协作的核心平台,托管了数万个模型、数据集以及交互式应用程序 (Hugging Face Space)。 在开放生态系统中,用户知情同意的管理方式与那些更
阅读全文阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控
阅读全文