TensorRT-LLM 0.5.0 源码之七
graph_rewriting.pyLayerclass Layer: ''' Layer is a wrapper for TensorRT's ILayer with several
阅读全文graph_rewriting.pyLayerclass Layer: ''' Layer is a wrapper for TensorRT's ILayer with several
阅读全文Anthropic 在其 npm 包中意外附带了源映射文件,导致 Claude Code 完整源码暴露。本文带你深挖其中的核心细节。以当邵超凡(Chaofan Shou)今早发现,Anthropic
阅读全文事件核心概览2026年3月31日(愚人节前夜),Anthropic旗下AI编程工具Claude Code的完整源代码意外泄露,起因是npm包发布时的配置失误,而非黑客攻击。安全研究员Chaofan
阅读全文本文件详细介绍了在 TensorRT LLM 的 PyTorch 后端中,针对自回归模型实现的多头注意力(MHA)、多查询注意力(MQA)和分组查询注意力(GQA)的具体方法。多头注意力机制涉及一系
阅读全文Overview通常,在调试 TensorRT-LLM 模型时,我们希望打印出中间的张量值。TensorRT-LLM 遵循“define-and-run”的模式,因此我们需要将感兴趣的中间张量标记为
阅读全文在 CMake 项目中成功使用 find_package(TensorRT) 来定位和链接 TensorRT 库,关键在于确保 CMake 能够找到其特定的配置文件。由于 TensorRT 的安装方
阅读全文What is PagedAttention?随着大型语言模型(LLM)的发展,许多行业都在开发并利用这些模型为各种目的服务。像 GPT-4、Claude、Gemini 等众多模型已展现出理解、生成
阅读全文network.py_UniqueNameGenerator# name1 = generator('UserService', 'com.moduleA') # 返回 'com/moduleA/
阅读全文下面是待优化的代码,正则表达是已经预编译了,但性能还是差,大概需要 1.3ms 左右,优化后只需 33us。这里的pattern类似app,replacement类似a p p,模式简单,所以可以考
阅读全文Programmatic Dependent Launch (PDL) 是 NVIDIA 在 Hopper 架构中引入的一项关键技术,主要用于优化GPU内核(Kernel)的调度和执行效率。其核心目
阅读全文在 Nginx 中为 WebSocket (WS) 配置负载均衡,关键在于正确设置协议升级和保持长连接。下面是一个清晰的配置指南和实例。核心配置步骤WebSocket 连接始于一个 HTTP 升级请
阅读全文libcuckoo 被设计为一个高性能的并发哈希表,其“正确使用”的核心在于理解它提供的线程安全保证和相应的 API。下面我将详细解释在多线程编程中如何正确使用 libcuckoo。核心思想:线程安
阅读全文functional.pydef constant(ndarray: np.ndarray) -> Tensor: ''' Add a constant layer. Tensor
阅读全文Abstract端到端语音语言模型(SLM)的最新进展显著提升了人工智能系统进行自然语音交互的能力。然而,大多数现有模型仅仅将语音视为语言内容的载体,常常忽略了人类语音中蕴含的丰富副语言和说话者特征
阅读全文builder.pyclass _BuildingFlag: def __enter__(self): os.environ['IS_BUILDING'] = '1' de
阅读全文看了 0.17.0 的 release note 得知基础镜像为 nvcr.io/nvidia/pytorch:25.01-py3, TensorRT 依赖 10.8.0, CUDA 依赖 12.8
阅读全文trtllm 使用 Module 模块实现 Layer 的构图。class Module(object): def __init__(self) -> None: self._m
阅读全文BF16 模型在 softmax + multinomial后结果不一致BF16 模型在 softmax + multinomial 后结果不一致的问题,很可能源于 BF16 精度较低导致的数值计算
阅读全文在使用人工智能模型时,精心设计提示语是一项至关重要的技能。即使是经验丰富的用户也可能无意中引入矛盾、模糊或不一致之处,从而导致结果不够理想。这里展示的系统能够识别并解决常见问题,从而生成更可靠和有效
阅读全文推理优化是应用于生产环境的生成式人工智能应用中的关键部分。在大规模范围内高效使用大型语言模型是一个挑战,过去几年里已经开发出了许多技术来加快推理速度并降低成本。在本文中,我们将回顾这些技术。A Fo
阅读全文End-to-End (E2E) Latency从提交请求到最终接收到响应数据包这一完整过程所耗费的总时间。Time to First Token (TTFT)从发送请求到首次生成输出标记所经过的时
阅读全文_common.pynet = None # Newwork()_inited = Falsedef _init(log_level=None): global _inited if _
阅读全文Abstract语音合成的生成模型面临着一个根本性的权衡:离散标记能确保稳定性但会牺牲表现力,而连续信号能保留声学丰富性但会因任务纠缠而产生误差累积。这一挑战促使该领域朝着依赖预训练语音标记器的多阶
阅读全文给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中
阅读全文在 VS Code 中将默认换行符统一设置为 LF (\n) 是个好习惯,能有效避免跨平台协作时的换行符冲突。你可以通过以下几种方法进行配置,我会先用一个表格总结它们,方便你快速选择。方法适用场景特
阅读全文c10::intrusive_ptr_target 是 PyTorch C++ 代码库中侵入式智能指针系统的基础类。任何希望通过 c10::intrusive_ptr 进行引用计数管理的类,都必须继
阅读全文std::move_only_function 是 C++23 标准引入的一种仅支持移动语义的可调用包装器,旨在替代 std::function 的部分场景,尤其适用于处理不可复制的可调用对象。以下
阅读全文