Wan2.7-Video 为创作自由而来
AI 视频创作,我们常遇到两大难题:内容生成不专业:想要一段紧张的追逐戏,AI 却不懂剧本;想要细腻的微表情,它只会呆板假笑。视频修改困难:多了一个路人,删不掉;动作差了点意思,改不了。换个机位?只能
阅读全文AI 视频创作,我们常遇到两大难题:内容生成不专业:想要一段紧张的追逐戏,AI 却不懂剧本;想要细腻的微表情,它只会呆板假笑。视频修改困难:多了一个路人,删不掉;动作差了点意思,改不了。换个机位?只能
阅读全文Qwen3.6其他开源尺寸模型和更强大的Qwen3.6Max模型近期发布,敬请期待继今年 2 月发布 Qwen3.5 系列后,今天我们正式推出 Qwen3.6-Plus,现已通过阿里云百炼 API 开
阅读全文一个月前,AgentScope 团队正式开源了 CoPaw,一款可快速部署在用户本地或云上环境的个人智能助理。CoPaw 开源以来,获得了大量来自社区的关注和贡献,我们已经合并了 900 多个 PR。
阅读全文为什么我们要做多模态模型?因为人与世界接触的方式是多维度的。所以我们要为 AI 装上“眼睛”和“耳朵”,让它能像人一样感知——看到你的手势,听懂你的语气,打破硅基智能与物理世界之间的次元壁。只有这样,
阅读全文当你看到一段视频:一匹马在草原上奔跑。要给这段视频配上声音,我们要保证声音像真的,还要和画面"合拍"。想完成上述这个"很简单"的任务,要同时通过四重考验:声音对吗? 必须是马蹄声,不能是鸟叫或风声(语
阅读全文同样的问题,不同的人,在不同的场景下,需要的答案可能截然不同。统一的标准,遇上千人千面的偏好,传统奖励模型显然不够用了。如何让 AI 真正适配动态变化的个性化需求?通义实验室自然语言智能团队提出了 P
阅读全文让 AI 给电影配音,这事难吗?能否还原出演员的情绪爆发?能否对上角色张嘴闭嘴的每一帧画面?能让观众听不出来是机器在说话吗?在影视、动画和游戏制作中,配音从来不是“把文字读出来”这么简单,它是一项需要
阅读全文大模型训练正在成为越来越多开发者和企业的刚需。但随着模型规模扩大,分布式训练的复杂度也呈指数级上升:显存不够用、通信开销大、配置太复杂......这些问题几乎每个做大模型训练的人都会遇到。最新开源的
阅读全文在传统语音生成中,表达方式往往依赖预设标签,例如:固定情绪选项预定义语气类别限定风格模板用户只能在有限选项中选择,而难以进行更自由、细腻的表达控制。FreeStyle 新范式的核心突破在于不再依赖固定
阅读全文年前,我们发布了《CoPaw 发布:即刻加载你的专属智能搭档》,向大家介绍了 CoPaw 这款可本地可云端部署的个人智能助理。在收集了大家对 CoPaw 的使用反馈后,AgentScope 团队对 C
阅读全文我们常用“大脑”比喻大模型,它负责“思考”。但落地到真实场景,还需要“外挂知识库”,为大模型提供语义检索能力。向量数据库,就是这个外挂知识库的核心引擎。它可存储多模态向量数据,让大模型快速检索到相关知
阅读全文大家期盼已久的 Qwen3.5,它来啦!旗舰模型 Qwen3.5-397B-A17B 首次以开源权重形式亮相。这是一款原生视觉语言模型,通过训练阶段的早期文本-视觉融合,让视觉与语言在统一表征空间中联
阅读全文今年年初,OpenClaw(前身 ClawdBot)以「本地优先、多频道接入、主动心跳」的智能体范式引起关注:个人 AI 不再只是聊天框里的问答,而是可以跑在用户自己的电脑里、连着用户常用的软件、能按
阅读全文近期,OpenClaw 在开发者社区引发广泛关注。作为一次面向企业应用场景的技术探索,我们尝试将其与通义晓蜜的外呼能力结合,验证了一条可行路径:将成熟的垂直 AI 能力封装为标准 Skill,供通用
阅读全文通义实验室语音团队提出一种基于心理学 PAD 模型的情感语音合成框架,支持用户在愉悦度(Pleasure)、唤醒度(Arousal)和支配度(Dominance)上灵活控制情感表达。无需依赖固定情感标
阅读全文小型混合模型,能胜任复杂的编程智能体任务吗? 为探索这一问题的边界,我们开源了 Qwen3-Coder-Next,一款专为编程智能体打造的高效混合专家(MoE)模型。总参数80B,激活参数仅3B,在权
阅读全文昨天,我们正式开源并发布了全新一代文生图基础模型 Z-Image —— 一个为高度创作自由度而生的、未经蒸馏的完整 Transformer 模型。不同于追求推理速度的轻量版本(Z-Image-Turb
阅读全文你的AI应用是不是“一上线就崩”?调优全靠感觉,修复一个 Bug 却引入两个新问题?很多开发者在从 POC(早期原型)走向真实生产环境时都会遇到这样的困境:在 Demo 中惊艳的 Agent,一旦面对
阅读全文在数学、代码等有标准答案的场景,强化学习已取得瞩目成绩。但在真实世界里,大多数问题没有唯一解——尤其是那些需求模糊、约束多元、解空间巨大的开放域任务。而出行规划正是这类任务的“天然试验场”。如:“帮我
阅读全文去年,我们开源了 Qwen3-Embedding 和 Qwen3-Reranker 模型,凭借其在多语言检索、聚类等任务中的领先性能,受到了开发者的喜爱。今天,Qwen 家族新成员+2,我们正式发布
阅读全文虽然通用语音识别模型在大多数场景下表现不错,但有些时候,面对专业术语、特定口音或私有词汇时,难免“听错”甚至“幻听”,比如把内部产品代号识别为常见词,或在方言会议中漏掉关键信息。如果你希望模型更贴合自
阅读全文“帮我查最早从杭州西站到上海虹桥的二等座车次,在钉钉前沿技术研讨群同步到达时间,再把我和水番的会议改到明天同一时间,并在群里@他说明因出差调整,问明天是否有空。”当用户发出这样一条指令,MAI-UI
阅读全文本次赛事共吸引 900+ 开发者报名,收到超 100 份高质量作品,覆盖智能家居、无障碍交互、科研辅助、教育、游戏、办公、工业巡检等多个真实场景。参赛团队不仅展现了对 Qwen 大模型、OpenVIN
阅读全文上篇文章中,我们通过模型下载、ComfyUI 配置、提示词调试和报错排查,完成了 Z-Image 的本地部署与使用。本文则介绍另一种更轻量的方式:使用 Docker 一键部署 Z-Image-Turb
阅读全文