全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    Transformer 大模型架构深度解析(2)RNN 循环神经网络模型在 NLP 中的应用

    作者:AI赛博空间发布日期:2026-02-11 09:09:00

    NLP 的序列数据与序列模型序列数据序列是数据点或事件的有序列表。与独立的图像或表格数据不同,序列数据中的元素具有内在的顺序和时间依赖性。 典型的例子包括:自然语言文本、语音、视频、股票价格、天气读数

    阅读全文
  • 文章封面

    Transformer 大模型架构深度解析(1)NLP 自然语言处理文本表示方法

    作者:AI赛博空间发布日期:2026-02-10 09:00:00

    NLP 的发展阶段NLP(Natural Language Processing,自然语言处理)是 AI 领域的一个重要分支,旨在使计算机能够理解和处理人类语言,实现人机之间的自然交流。语言是人类智力

    阅读全文
  • 文章封面

    LLaMA-Factory 大模型微调平台实践

    作者:AI赛博空间发布日期:2026-01-29 09:00:00

    LLM 微调微调是指在已经训练好的大型预训练模型的基础上,进一步训练该模型以适应特定任务或特定领域的数据。可以在特定任务上取得更好的性能,因为模型在微调过程中会重点学习与任务相关的特性。还可以在多种领

    阅读全文
  • 文章封面

    NVFP4 量化与 vLLM 大模型推理实践

    作者:AI赛博空间发布日期:2026-01-26 09:05:00

    NVFP4 量化技术随着大模型参数量的增长,显存优化技术之一的低精度量化技术得到了飞速发展。从行业的整体趋势来看,大模型正朝着低位宽浮点数的方向演进(FP32=>FP16=>FP8=>FP4)。并且在

    阅读全文
  • 文章封面

    大模型训练方法与数据集技术基本原理

    作者:AI赛博空间发布日期:2026-01-18 10:30:00

    模型训练学习方法有监督学习有监督学习:AI 模型使用被标注了的数据样本进行学习,通过样本的真实值和预测值来求得 Loss 值。有监督学习因为需要对数据样本进行标注,所以只适用于数据量较小的场景。MP

    阅读全文
  • 文章封面

    大模型分布式训练框架 Megatron-LM 技术解析与实践

    作者:AI赛博空间发布日期:2026-01-15 09:00:00

    Megatron-LMMegatron-LM 最初于 2019 年发布,是由 NVIDIA 开发的 Transformer 大模型高效训练框架。它专为数千亿甚至数万亿参数的模型二设计,具有高度可扩展性

    阅读全文
  • 文章封面

    人工智能发展史 — NLP 与 RNN/LSTM/Transformer/GPT 序列模型发展历程

    作者:AI赛博空间发布日期:2026-01-13 12:05:00

    前文列表人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼

    阅读全文
  • 文章封面

    大模型分布式训练框架 DeepSpeed 技术解析与实践

    作者:AI赛博空间发布日期:2026-01-12 12:05:00

    DeepSpeedDeepSpeed 是一个由 Microsoft 开源大模型训练优化库,它提供了多种优化技术,包括:3D 并行策略、梯度累积、动态精度缩放、本地模式混合精度等。还提供了一系列辅助工具

    阅读全文
  • 文章封面

    大模型预训练分布式并行技术(DP/PP/TP/EP/SP)基本原理详解

    作者:AI赛博空间发布日期:2025-12-15 09:00:00

    Scaling Laws 第一定律OpenAI 在 2020 年的论文中提出了 Scaling Laws(扩展定律),证明了 LLM 的性能(以交叉熵损失衡量)遵循一定的数学幂律关系(Power-la

    阅读全文
  • 文章封面

    MPI / NCCL 分布式并行计算通讯库技术原理

    作者:AI赛博空间发布日期:2025-11-19 08:00:00

    AI 分布式训练在一个最初的 AI 模型训练场景中,由于模型自身的程序体积、输入的权重参数量以及样本的数据量都比较有限,一张 GPU 的显存足以放下和处理这些数据,那么一张 GPU 既可以完成训练。但

    阅读全文
  • 文章封面

    智能体 MCP 协议技术原理与应用实践

    作者:AI赛博空间发布日期:2025-10-15 11:39:53

    MCP v.s. Function CallingMCP 出现之前的主流是 Function Calling,但后者存在 2 个关键问题:系统集成标准化需求:能够调用外部系统(数据、工具)是 Agen

    阅读全文
  • 文章封面

    LangChain Agent Tooling 技术原理与 Workflow 编程实例

    作者:AI赛博空间发布日期:2025-10-11 00:17:47

    前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManus 通用智能体实践与代

    阅读全文
  • 文章封面

    LangChain Model I/O 与 Chain 核心技术原理与智能问答机器人编程实例

    作者:AI赛博空间发布日期:2025-10-07 16:02:40

    前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManus 通用智能体实践与代

    阅读全文
  • 文章封面

    AI Workflow v.s. AI Agent v.s. Agentic Workflow 与应用建议

    作者:AI赛博空间发布日期:2025-10-05 20:03:46

    AI Agent v.s. AI Workflow在这里插入图片描述2025 年作为公认的 “智能体元年”,相关的技术和概念依旧在高速发展中。所以,至今为止业界依旧没有达成关于 AI Agent 和

    阅读全文
  • 文章封面

    OpenManus 通用智能体实践与代码分析

    作者:AI赛博空间发布日期:2025-10-04 15:48:35

    前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManusOpenManus

    阅读全文
  • 文章封面

    AI Agent 的体系化分类与产品形态分析

    作者:AI赛博空间发布日期:2025-10-03 14:40:28

    前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的分类基于自主程度的分类在这里插入图片描述根据 Agent “是

    阅读全文
  • 文章封面

    人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼机模型

    作者:AI赛博空间发布日期:2025-10-01 14:15:35

    2024 诺贝尔物理学奖与人工智能2024 年的诺贝尔物理学奖颁发给了 John Hopfield 和 Geoffrey Hinton,以表彰他们在实现机器学习的人工神经网络方面的基础性发现与发明。他

    阅读全文
  • 文章封面

    在 Windows GPU 机器上运行 Linux CUDA 并使用 Nsight System 和 Compute 分析性能

    作者:AI赛博空间发布日期:2025-09-28 08:00:00

    环境信息Win11 提供 GPU 设备WSL2 Ubuntu 22.04 提供 CUDA 运行时环境MacOS 作为编程和性能分析客户端WSLWSL 是一个与 Microsoft Windows 操作

    阅读全文
  • 文章封面

    AI Agent 软件工程关键技术综述

    作者:AI赛博空间发布日期:2025-09-18 09:09:23

    LangChain、LangGraph 和 LangSmith 开发框架LangChain v.s. LangGraphLangChain 和 LangGraph 出自于同一个团队,都被设计用于与 L

    阅读全文
  • 文章封面

    AI 智能体核心原理综述:从 Agentic AI 到 AI Agent

    作者:AI赛博空间发布日期:2025-09-15 08:45:00

    Agentic AI 的背景LLM 最初的产品形态是由 OpenAI 领衔的 ChatBot(聊天机器人),底层支撑技术是 Transformer 架构大语言模型,最初专注于语言文本领域的人工智能应用

    阅读全文
  • 文章封面

    GPU/CUDA 发展编年史:全系列 GPU 硬件架构和 CUDA 软件模型技术原理

    作者:AI赛博空间发布日期:2025-08-04 08:25:00

    前言本文旨在梳理全系列 GPU 芯片架构的发展历史、技术特性和 CUDA 技术实现原理,包括:费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(V

    阅读全文
  • 文章封面

    GPU 超级计算:NVIDIA NVL72 vs HW CloudMatrix384 vs AWS UltraServer64

    作者:AI赛博空间发布日期:2025-05-20 09:04:25

    为什么需要 SuperNode 和 SuperPOD?(Why)1. Scaling Laws 第一定律OpenAI 在 2020 年的论文中提出了 Scaling Laws(扩展定律),证明了大语言

    阅读全文
  • 文章封面

    人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型

    作者:AI赛博空间发布日期:2025-05-03 11:57:34

    前文目录人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用1982 年,Hopfield 联想和记忆神经网络模型1982 年,约翰·霍普菲尔德(John Hopfield)通过对生物大脑的

    阅读全文
  • 文章封面

    人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用

    作者:AI赛博空间发布日期:2025-04-26 08:00:00

    人工智能发展流派人工智能的发展历程中,主要形成了三大技术流派:符号主义、联结主义和行为主义。它们在理论基础、研究方向和应用场景上各有侧重,并随着技术的发展交叉融合形成新的研究方向。直至 2010 年之

    阅读全文
  • 文章封面

    AI 数理逻辑基础 — 统计学基本原理(上)

    作者:AI赛博空间发布日期:2025-04-05 12:13:11

    前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin

    阅读全文
  • 文章封面

    AI 算力的科学衡量与计算方式

    作者:AI赛博空间发布日期:2025-03-29 16:55:56

    前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin

    阅读全文
  • 文章封面

    NCCL AI 分布式训练集合通讯库技术基本原理

    作者:AI赛博空间发布日期:2025-03-14 08:24:27

    前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin

    阅读全文
  • 文章封面

    GPU/CUDA 发展编年史:从 3D 渲染到 AI 大模型时代,一文看懂技术原理(上)

    作者:AI赛博空间发布日期:2025-03-05 19:48:03

    前言要把 GPU/CUDA 的技术原理讲清楚并不容易,而回顾其发展历史则是一个好办法,所以本文采用编年纪的方式进行写作。把 GPU 和 CUDA 的来龙去脉梳理清楚。前文列表关注公众号查看:《从 re

    阅读全文
  • 文章封面

    大规模 RDMA AI 组网技术创新:算法和可编程硬件的深度融合

    作者:AI赛博空间发布日期:2025-02-24 09:00:00

    前言本文是 AI Infrastructure 主题的最后一篇,围绕训练一个 AI 大模型所需要的硬件基础设备展开,介绍了 GPU、GPU 服务器、RDMA 网络相关的内容。如果你觉得内容还不错请帮忙

    阅读全文
  • 文章封面

    【翻译】Figure 发布最新 AI 人形机器人控制模型 HELIX

    作者:AI赛博空间发布日期:2025-02-23 10:50:38

    Figure AI人形机器人公司于近日发布的文章《HELIX: A VISION-LANGUAGE-ACTION MODEL FOR GENERALIST HUMANOID CONTROL》中介绍了一

    阅读全文
下一页