大模型微调知识与实践分享
阿里妹导读本文详细介绍了大型语言模型(LLM)的结构、参数量、显存占用、存储需求以及微调过程中的关键技术点,包括Prompt工程、数据构造、LoRA微调方法等。一、微调相关知识介绍1.1. 认识大模型
阅读全文阿里妹导读本文详细介绍了大型语言模型(LLM)的结构、参数量、显存占用、存储需求以及微调过程中的关键技术点,包括Prompt工程、数据构造、LoRA微调方法等。一、微调相关知识介绍1.1. 认识大模型
阅读全文阿里妹导读本文旨在通过约束解码技术,赋予大型语言模型在生成SQL等结构化内容时更高的准确性、可控性与可解释性,从而满足企业级场景对“精准生成”的严苛要求。引言大型语言模型(LLM)在自然语言处理和代码
阅读全文本文从 Copilot 3.0 架构中的规划(Planning)模块出发,结合 DeepSeek R1 的强化学习(GRPO)训练实践,深入探讨在多智能体(Multi-Agent)架构下,大模型如何灵
阅读全文一、前言说实话,当我看到使用 MCP 服务还需要手动复制粘贴 JSON 的时候,包括现在很多 MCP 服务只有工具,没有资源和提示时,我认为 MCP 还不太成熟。随着今年“智能体”的大爆发,使用工具的
阅读全文阿里妹导读本文主要从规划的重要性、工具设计的作用、优化实践、适用场景几个方面讲述在构建多工具智能体(Agent)系统时,通过引入结构化的“思考与规划”工具和合理的提示工程,能够显著提升模型解决问题的效
阅读全文如果没有MCPMCP协议的初衷是希望能将大模型的工具调用来做统一,对于 MCP 的原理介绍的文章已经随处可见,相信大家都有自己的见解,这里简单介绍一些没有MCP之前的痛点问题,帮助大家理解为何需要MC
阅读全文前言本方案接入了最新开源的Qwen3-235B-A22B模型,在以往的MCP文章中,我们介绍了MCP的概念原理,今天这篇文章将结合实际场景,从用户角度出发,思考MCP在未来AI场景中更深度的用途和作用
阅读全文阿里妹导读可观测近年来已经成为一个关键概念,它不仅仅局限于监控,还包括了日志记录、指标收集、分布式追踪等技术手段,旨在帮助团队更好地理解系统运行状况、快速定位问题以及优化性能。可观测2.0融合 MCP
阅读全文阿里妹导读针对某个高并发系统不稳定问题,本文首先定位根因为系统内存索引切换时 GC 压力大导致。围绕此问题,基于让索引尽早晋升到老年代、让索引直接分配到老年代、加速索引复制、升级 GC 等思路做了持续
阅读全文阿里妹导读LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。iLog
阅读全文引言最近MCP爆火,同时也伴随着相关安全风险不断显现。安全研究机构Invariant近期发布报告[1],指出MCP存在严重安全漏洞,可能导致"工具投毒攻击"。Invariant的分析基于Cursor
阅读全文阿里妹导读本文重点讲述如何快速实战上手MCP。一、MCP介绍去年 11 月,由Claude的母公司 Anthropic 推出了模型上下文协议(MCP),MCP是一种开放协议,可以实现LLM应用与外部数
阅读全文MCP 为资源访问和 Multi Agent 互操作提供了标准化的可能。开源社区目前对 MCP 的生态建设非常火热,mcp.so 已经提供了近 1 万的 mcp server ,其他各种 MCP 生态
阅读全文团队做 AI 助理,而我之前除了使用一些 AI 类产品,并没有大模型相关的积累。故先补齐一些基本概念,避免和团队同学沟通起来一头雾水。这篇文章是学习李宏毅老师《生成式 AI 导论》的学习笔记。生成式
阅读全文新兴技术的出现,总会伴随着术语洪流和流派之争,带来认知摩擦。近期 OpenAI 发布了《A Practical Guide to Building Agents》电子书[1],随后 Langchain
阅读全文阿里妹导读本文从RAG 2.0 面临的主要挑战和部分关键技术来展开叙事,还包括了RAG的技术升级和关键技术等。一、Introduction过去一年可谓是RAG元年,检索增强生成技术迅速发展与深刻变革,
阅读全文MCP 是 Anthropic 公司提出的开源协议,旨在通过标准化交互方式解决AI大模型与外部数据源、工具的集成难题,阿里云百炼上线了业界首个的全生命周期 MCP 服务,大幅降低了 Agent 的开发
阅读全文阿里妹导读本文分享了作者的软考备考经验,尤其是如何在较短时间内高效备考并通过考试,希望能为大家提供一些参考。一、前言2024 年上半年,我用一个半月的时间备考软考高级系统架构设计师,并顺利通过。同年下
阅读全文一、前言本文主要讲述1688小程序随着业务加快节奏,技术上在做什么支撑业务的迭代、互动玩法的多样性;以及面向未来的能力布局。二、做了什么2.1 整体架构2.2 研发工程2.1.1 渲染架构双线程运行环
阅读全文阿里妹导读本文将分享如何使用不到 100 行的 Python 代码,实现一个具备通用智能潜力的简易 LLM Agent。你将看到整个实现过程——从核心原理、提示(Prompt)调优、工具接口设计到主循
阅读全文阿里妹导读文章结合了理论分析与实践案例,旨在帮助读者系统地认识AI Agent的核心要素、设计模式以及未来发展方向。背景前一阶段Manus大火,被宣传为全球首款“真正意义上的通用AI Agent”,其
阅读全文阿里妹导读本文详细描述 agents.json ,涵盖了其背景、工作原理、与 OpenAPI 的关系等内容。官网:https://docs.wild-card.ai/agentsjson/introd
阅读全文Bolt.new是stackblitz推出的一款AI编辑器,作为一个在线开发沙盒平台,结合了人工智能(AI)和WebContainers技术,其优势在于无需复杂配置即可在完整的开发环境下完成AI驱动的
阅读全文阿里妹导读作者通过深入分析、理解、归纳,最后解答了“为什么一定要做Agent”这个问题。最近一直在从事Agent智能体相关的工作,主要是聚焦在阿里云客户服务领域,我之前写过的一篇Agent落地文章《阿
阅读全文阿里妹导读文章探讨了AI Agent的发展趋势,并通过一个实际案例展示了如何基于MCP(Model Context Protocol)开发一个支持私有知识库的问答系统。前言业界推测 2025 年是 A
阅读全文阿里妹导读本文主要介绍Google于2025年4月9日发布的Agent2Agent Protocol(简称“A2A”),这是一个旨在促进不同类型智能体(Agent)之间高效沟通与协作的开放协议。序言2
阅读全文阿里妹导读本文通过100行代码看到MCP的核心原理并不复杂,但它的设计巧妙深入理解使我们能够超越简单的SDK使用,创建更强大、更灵活的AI应用集成方案。当我开始研究 Model Context Pro
阅读全文阿里妹导读本文是作者基于自己的学习经历重新组织的一篇更易于初心者理解的关于DeepSeek的文章,也可以说是作者阶段性的学习笔记。前言距离DeepSeek发布已近三个月,DeepSeek的热度仍在持续
阅读全文阿里妹导读本文讲述了MCP 原理解析和作者的MCP Client实践,希望能实现一个自己的 agent,让 AI 不仅能与人交流,还能协助工作。文末附源码!MCP(Model Context Prot
阅读全文阿里妹导读MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。通过本文,我们可以了解到MCP的本质、价值、使用与开发。MCP是什么MCP 是 Ant
阅读全文