Transformer 大模型架构深度解析(2)RNN 循环神经网络模型在 NLP 中的应用
NLP 的序列数据与序列模型序列数据序列是数据点或事件的有序列表。与独立的图像或表格数据不同,序列数据中的元素具有内在的顺序和时间依赖性。 典型的例子包括:自然语言文本、语音、视频、股票价格、天气读数
阅读全文NLP 的序列数据与序列模型序列数据序列是数据点或事件的有序列表。与独立的图像或表格数据不同,序列数据中的元素具有内在的顺序和时间依赖性。 典型的例子包括:自然语言文本、语音、视频、股票价格、天气读数
阅读全文NLP 的发展阶段NLP(Natural Language Processing,自然语言处理)是 AI 领域的一个重要分支,旨在使计算机能够理解和处理人类语言,实现人机之间的自然交流。语言是人类智力
阅读全文LLM 微调微调是指在已经训练好的大型预训练模型的基础上,进一步训练该模型以适应特定任务或特定领域的数据。可以在特定任务上取得更好的性能,因为模型在微调过程中会重点学习与任务相关的特性。还可以在多种领
阅读全文NVFP4 量化技术随着大模型参数量的增长,显存优化技术之一的低精度量化技术得到了飞速发展。从行业的整体趋势来看,大模型正朝着低位宽浮点数的方向演进(FP32=>FP16=>FP8=>FP4)。并且在
阅读全文模型训练学习方法有监督学习有监督学习:AI 模型使用被标注了的数据样本进行学习,通过样本的真实值和预测值来求得 Loss 值。有监督学习因为需要对数据样本进行标注,所以只适用于数据量较小的场景。MP
阅读全文Megatron-LMMegatron-LM 最初于 2019 年发布,是由 NVIDIA 开发的 Transformer 大模型高效训练框架。它专为数千亿甚至数万亿参数的模型二设计,具有高度可扩展性
阅读全文前文列表人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼
阅读全文DeepSpeedDeepSpeed 是一个由 Microsoft 开源大模型训练优化库,它提供了多种优化技术,包括:3D 并行策略、梯度累积、动态精度缩放、本地模式混合精度等。还提供了一系列辅助工具
阅读全文Scaling Laws 第一定律OpenAI 在 2020 年的论文中提出了 Scaling Laws(扩展定律),证明了 LLM 的性能(以交叉熵损失衡量)遵循一定的数学幂律关系(Power-la
阅读全文AI 分布式训练在一个最初的 AI 模型训练场景中,由于模型自身的程序体积、输入的权重参数量以及样本的数据量都比较有限,一张 GPU 的显存足以放下和处理这些数据,那么一张 GPU 既可以完成训练。但
阅读全文MCP v.s. Function CallingMCP 出现之前的主流是 Function Calling,但后者存在 2 个关键问题:系统集成标准化需求:能够调用外部系统(数据、工具)是 Agen
阅读全文前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManus 通用智能体实践与代
阅读全文前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManus 通用智能体实践与代
阅读全文AI Agent v.s. AI Workflow在这里插入图片描述2025 年作为公认的 “智能体元年”,相关的技术和概念依旧在高速发展中。所以,至今为止业界依旧没有达成关于 AI Agent 和
阅读全文前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的体系化分类与产品形态分析OpenManusOpenManus
阅读全文前文列表AI 智能体核心原理综述:从 Agentic AI 到 AI AgentAI Agent 软件工程关键技术综述AI Agent 的分类基于自主程度的分类在这里插入图片描述根据 Agent “是
阅读全文2024 诺贝尔物理学奖与人工智能2024 年的诺贝尔物理学奖颁发给了 John Hopfield 和 Geoffrey Hinton,以表彰他们在实现机器学习的人工神经网络方面的基础性发现与发明。他
阅读全文环境信息Win11 提供 GPU 设备WSL2 Ubuntu 22.04 提供 CUDA 运行时环境MacOS 作为编程和性能分析客户端WSLWSL 是一个与 Microsoft Windows 操作
阅读全文LangChain、LangGraph 和 LangSmith 开发框架LangChain v.s. LangGraphLangChain 和 LangGraph 出自于同一个团队,都被设计用于与 L
阅读全文Agentic AI 的背景LLM 最初的产品形态是由 OpenAI 领衔的 ChatBot(聊天机器人),底层支撑技术是 Transformer 架构大语言模型,最初专注于语言文本领域的人工智能应用
阅读全文前言本文旨在梳理全系列 GPU 芯片架构的发展历史、技术特性和 CUDA 技术实现原理,包括:费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(V
阅读全文为什么需要 SuperNode 和 SuperPOD?(Why)1. Scaling Laws 第一定律OpenAI 在 2020 年的论文中提出了 Scaling Laws(扩展定律),证明了大语言
阅读全文前文目录人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用1982 年,Hopfield 联想和记忆神经网络模型1982 年,约翰·霍普菲尔德(John Hopfield)通过对生物大脑的
阅读全文人工智能发展流派人工智能的发展历程中,主要形成了三大技术流派:符号主义、联结主义和行为主义。它们在理论基础、研究方向和应用场景上各有侧重,并随着技术的发展交叉融合形成新的研究方向。直至 2010 年之
阅读全文前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin
阅读全文前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin
阅读全文前文列表《从 re:Invent 2024 看 AWS 最前沿的 AI 基础设施架构》《GPU 基本运行原理》《GPU 芯片架构发展史》《GPU 虚拟化技术原理》《8 卡 GPU 服务器与 NVLin
阅读全文前言要把 GPU/CUDA 的技术原理讲清楚并不容易,而回顾其发展历史则是一个好办法,所以本文采用编年纪的方式进行写作。把 GPU 和 CUDA 的来龙去脉梳理清楚。前文列表关注公众号查看:《从 re
阅读全文前言本文是 AI Infrastructure 主题的最后一篇,围绕训练一个 AI 大模型所需要的硬件基础设备展开,介绍了 GPU、GPU 服务器、RDMA 网络相关的内容。如果你觉得内容还不错请帮忙
阅读全文Figure AI人形机器人公司于近日发布的文章《HELIX: A VISION-LANGUAGE-ACTION MODEL FOR GENERALIST HUMANOID CONTROL》中介绍了一
阅读全文