AI大模型调参指北笔记

CosyVoice 3: Towards In-the-wild Speech Generation
作者：AI大模型调参指北笔记发布日期：2025-09-04 21:40:34
Abstract在我们之前的工作中，我们推出了一个可扩展的流式语音合成模型 CosyVoice 2，它将大型语言模型（LLM）与分块感知流匹配（FM）模型相结合，实现了低延迟的双流语音合成和人类同等
阅读全文
语音合成（TTS）中文自然度：问题、成因、解决方案
作者：AI大模型调参指北笔记发布日期：2025-09-03 21:00:00
我们来深度解析这篇关于中文语音合成（TTS）自然度问题、成因与解决方案的文章。文章结构清晰，内容深入，聚焦于中文TTS的独特挑战和前沿解决方案。核心主题：提升中文TTS的自然度，关键在于解决其特有
阅读全文
上下文工程如何实现
作者：AI大模型调参指北笔记发布日期：2025-09-02 21:00:00
核心技术更长的上下文并不一定会产生更好的响应，上下文过载可能会导致应用程序以意想不到的方式失败，上下文可能会变得有害、分散注意力、令人困惑或产生冲突。• 上下文污染（Context Poisonin
阅读全文
上下文工程（Context Engineering）
作者：AI大模型调参指北笔记发布日期：2025-09-01 21:00:00
背景目前Prompt工程已相对成熟，已有大量最佳实践和工具支持。但Prompt工程有一定的局限性，想象一下，你正在使用大模型解决一个复杂的工作问题，传统的做法是精心设计一个提示词，希望一次性得到满意
阅读全文
新手必看！LangGraph 101：手把手教你搭一个深度研究 Agent
作者：AI大模型调参指北笔记发布日期：2025-08-28 21:24:08
构建能够在实际中真正发挥作用的大型语言模型（LLM）程序并非易事。您需要考虑如何协调这一多步骤的工作流程，跟踪各参与者的状态，实施必要的限制措施，并实时监控决策过程。幸运的是，LangGrap
阅读全文
LangGraph 简介
作者：AI大模型调参指北笔记发布日期：2025-08-26 21:06:31
在这里插入图片描述LangGraph 是由 LangChain 团队开发的开源框架，专为构建状态化、多智能体（Multi-Agent）动态工作流而设计。它通过图结构（Graph）管理复杂任务流程，
阅读全文
SFT 泛化新解读：强化学习 + 奖励修正，一文读懂
作者：AI大模型调参指北笔记发布日期：2025-08-21 21:18:09
1. 研究背景与问题• SFT的局限性：传统监督微调（SFT）在LLM任务适配中简单高效，但泛化能力弱于强化学习（RL）。RL依赖奖励信号探索策略，但计算成本高且需人工设计奖励函数。• 核心问题：能
阅读全文
程序员狂喜！Self-Instruct 框架全解析：无限生成高质量指令集，从此告别标注噩梦！
作者：AI大模型调参指北笔记发布日期：2025-08-19 21:51:07
在这里插入图片描述MotivationHigh-level overview of InstructGPT with human annotated outputs and ranking for
阅读全文
Evol-Instruct 竟能精准生成领域专属数据？实操技巧速看！
作者：AI大模型调参指北笔记发布日期：2025-08-18 22:13:20
在不断发展的人工智能领域，能够对模型进行微调以使其理解并适应特定领域至关重要。这一过程类似于音乐家在表演前调校乐器；调校得越精准，在特定的声学环境中表现就越出色。在这里，我们的“声学环境”就是希望人
阅读全文
Pygame RPG Tutorial 7 – Attack Animations
作者：AI大模型调参指北笔记发布日期：2025-08-16 19:43:00
我们的球员目前缺少的一个主要组成部分是进攻系统。幸运的是，这与我们的运动动画系统的实现方式非常相似，所以本教程应该很容易理解。一旦我们创造了这个基本的攻击系统，我们就可以轻松地将其扩展为包含许多其他类
阅读全文
《Pygame RPG 开发实战：1-6 系列第 1 期代码细评，从逻辑到效率的提升指南》
作者：AI大模型调参指北笔记发布日期：2025-08-14 21:00:00
在这里，您可以查看我们到目前为止编写的Pygame RPG系列的完整代码。这次代码审查背后的主要原因是，到目前为止，我们一直在讨论小片段的代码（由于绝对的大小）。对于那些在将这些片段连接成一个整体时遇
阅读全文
指令微调数据-少即是多
作者：AI大模型调参指北笔记发布日期：2025-08-13 21:33:30
如何对大型语言模型进行微调以用于通用问题解答？一种颇具吸引力的方法是采用对少量高质量样本进行有监督微调的方式。近期的 LIMA（“对于对齐而言，少即是多”）研究大胆宣称，通过仅基于 1000 对
阅读全文
LLM generate 参数怎么用？
作者：AI大模型调参指北笔记发布日期：2025-08-12 21:51:47
要让 LLM 模型的推理结果更稳定、更确定（即减少随机性、提高可预测性），需要合理配置 temperature 和 top_p 参数。以下是具体策略和推荐配置：一、参数作用机制1. temperat
阅读全文
语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案
作者：AI大模型调参指北笔记发布日期：2025-08-11 21:14:29
一、问题本质与影响• 跳跃（Omission）：漏读音素/词/短语，表现为音频中断或静音段。• 重复（Repetition）：非预期重复音素/词/短语。• 根本影响：破坏语音清晰度、自然度与用户体验
阅读全文
大模型训练新思路：GEPA 靠 “反思” 赢过 RL，看完秒懂
作者：AI大模型调参指北笔记发布日期：2025-08-08 20:45:07
倘若一种人工智能模型能够从自身的错误中吸取教训，不是通过机械的反复训练，而是通过深思熟虑的反思，就像人类那样，那将会是怎样的情景呢？这就是“GEPA（基因-帕累托）”所承诺的效果，这一开创性的方法由
阅读全文
F5-TTS：用 Flow Matching 玩转语音，流畅度和真实感都 “拉满” 了
作者：AI大模型调参指北笔记发布日期：2025-08-06 22:16:13
Abstract本文介绍了 F5-TTS，这是一种基于流匹配与扩散变压器（DiT）的完全非自回归文本转语音系统。它无需诸如时长模型、文本编码器和音素对齐等复杂设计，直接将文本输入用填充标记填充至与输
阅读全文
E2 TTS：令人尴尬地简单、完全非自回归、零样本的语音合成技术
作者：AI大模型调参指北笔记发布日期：2025-08-04 22:00:00
ABSTRACT本文介绍了“毫不费力的文本转语音”（E2 TTS）系统，这是一款完全非自回归的零样本文本转语音系统，其具备接近人类水平的自然度、先进的说话人相似度和清晰度。在 E2 TTS 框架中，
阅读全文
为什么都在聊 Kimi K2？Open Agentic Intelligence 藏着哪些新惊喜
作者：AI大模型调参指北笔记发布日期：2025-07-30 22:30:17
ABSTRACT我们推出 Kimi K2，这是一款拥有 32B 激活参数和 1T 总参数的专家混合（MoE）大型语言模型。我们提出了 MuonClip 优化器，它在 Muon 的基础上采用了一种新颖
阅读全文
Step-Audio-AQAA 端到端音频模型
作者：AI大模型调参指北笔记发布日期：2025-07-28 22:03:00
1. 研究背景与核心问题• 现状：现有大型音频语言模型（LALMs）依赖文本输出，需额外调用ASR/TTS模块生成语音，导致级联错误累积和系统复杂性增加。• 关键挑战：缺乏端到端模型直接处理音频输入
阅读全文
CFM 与 OT-CFM：条件流匹配与最优传输的碰撞
作者：AI大模型调参指北笔记发布日期：2025-07-11 21:18:31
在这里插入图片描述1. 核心目标提出条件流匹配（CFM）及其优化版本OT-CFM，解决连续标准化流（CNF）中模拟ODE的困难，并通过最优传输减少路径交叉问题。2. 关键概念(1) Flow Ma
阅读全文
DPO损失实现
作者：AI大模型调参指北笔记发布日期：2025-07-09 21:34:00
以下是DPO（Direct Preference Optimization）损失函数的PyTorch实现及其详细解析：1. DPO损失函数原理DPO通过隐式奖励对比优化模型偏好，避免传统RLHF的复
阅读全文
Conditional Flow Matching : 常微分方程ODE、欧拉方法和Neural ODE
作者：AI大模型调参指北笔记发布日期：2025-07-08 21:49:42
核心目标文章是Conditional Flow Matching (CFM) 系列的开篇，旨在为理解CFM（一种新兴生成模型）奠定数学基础。重点介绍三个核心概念：常微分方程（ODE）、数值解法（欧拉
阅读全文
当 Normalizing flow 遇上语音生成：AI 说话变 “真人” 的秘密在这里！
作者：AI大模型调参指北笔记发布日期：2025-07-07 21:58:04
在这里插入图片描述好的，我们来梳理一下这篇文章的核心内容：Normalizing Flow 的基本原理及其在语音生成（特别是 WaveGlow 和 VITS）中的应用。文章主旨：解释 Normali
阅读全文
深度剖析：Kimi - Audio 中 BigVGAN 的神奇作用
作者：AI大模型调参指北笔记发布日期：2025-07-03 21:30:27
ABSTRACT尽管基于生成对抗网络（GAN）的语音编码器在近期取得了进展，即模型能够根据声学特征生成原始波形，但要为来自各种录音环境的众多说话者合成高质量的音频却颇具挑战性。在本研究中，我们提出了
阅读全文
MiniMax-Speech，零样本语音合成新突破，32 种语言轻松拿捏！
作者：AI大模型调参指北笔记发布日期：2025-06-27 21:00:00
我们推出了 MiniMax-Speech，这是一款基于自回归 Transformer 的文本转语音（TTS）模型，能够生成高质量的语音。其关键创新在于我们可学习的说话人编码器，它可以从参考音频中提取
阅读全文
SFT 中指令选择和响应选择哪个更重要？
作者：AI大模型调参指北笔记发布日期：2025-06-19 21:34:00
Think好的，用户问的是“指令选择更重要还是响应选择更重要”，我需要先回顾之前的对话和论文内容。用户之前让我精读了GRAPE这篇论文，其中主要关注响应选择，通过选择与目标模型预训练分布匹配的响应来
阅读全文
角色扮演大模型技术分享2-超拟人模型的困境
作者：AI大模型调参指北笔记发布日期：2025-06-17 21:03:18
时隔半年，最近的迷茫反而越来越多了。先碎碎念，有时间写干货。这次干货预计会更多，多到爆炸。本人太懒码字太累，因此可能会少次多量分几篇发出来，目前计划包括但不限于数据合成全流程分享篇、拟人化能力提升篇
阅读全文
如何低成本生成高质量指令微调数据？
作者：AI大模型调参指北笔记发布日期：2025-06-12 22:05:33
ABSTRACT高质量的指令数据对于对齐大型语言模型（LLM）至关重要。尽管一些模型（如 Llama-3-Instruct）的权重是公开的，但其对齐数据仍处于私有状态，这阻碍了人工智能的民主化。高昂
阅读全文
从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优
作者：AI大模型调参指北笔记发布日期：2025-06-11 21:35:02
Abstract在大型语言模型（LLMs）的领域中，指令数据的质量与数量之间的平衡是一个关键问题。鉴于此，我们提出了一种针对 LLM 的 self-guided 方法，使其能够自主地从开源数据集中识别
阅读全文
Kimi-Audio：开源音频基础模型全面解析
作者：AI大模型调参指北笔记发布日期：2025-06-10 21:24:59
Abstract我们推出了 Kimi-Audio，这是一款开源的音频基础模型，擅长音频理解、生成和对话。我们详细介绍了构建 Kimi-Audio 的方法，包括模型架构、数据整理、训练方案、推理部署和
阅读全文