DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 作为大模型强化学习训练的新兴算法,通过四项核心改进有效解决了GRPO在长序列优化中的痛点问题,在数学推理等复杂任务中取得了显著的性能提升。
LLM 训练:GSPO 算法详解与 GRPO 对比
GSPO(Group Sequence Policy Optimization,群组序列策略优化)是对 GRPO 的重要改进。通过将优化粒度从 token 级 提升到 序列级,GSPO 从根本上解决了 GRPO 在处理长文本、MoE 模型时的训练不稳定问题,同时保持了轻量化的优势(无需 Critic 模型)。
让 LLM 输出规范 JSON 的方法
在现代 AI 应用开发中,让大语言模型(LLM)生成结构化的 JSON 数据是一个关键需求。无论是构建 API 服务、数据处理流水线,还是与现有系统集成,结构化输出都是必不可少的。本文将深入探讨多种让 LLM 生成规范 JSON 的方法,从基础技巧到高级工程实践。
翻译《如何构建多智能体研究系统:Anthropic 的工程实践》
最近在看打造 Agent 相关的研究,发现 Anthropic 他们的一篇文章写的特别好,有很多工程实践经验值得参考。虽然没有披露更多细节,但是也指出了很多方向。以下基本是原文翻译。
RAG 中的检索核心问题
RAG(检索增强生成)系统的核心在于能否准确、高效地检索到与用户查询最相关的文档片段。检索质量的好坏直接决定了最终生成结果的准确性和可靠性。本文将深入探讨 RAG 系统中检索优化的关键策略和最佳实践。
LLM 训练:ZeRO 技术详解
在大语言模型(LLM)训练中,显存不足是一个普遍存在的问题。随着模型规模的不断增长,单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO(Zero Redundancy Optimizer)技术通过创新的数据分片策略,有效解决了这一问题,使得我们能够训练远超单卡显存上限的超大规模模型。
LLM 训练:GRPO 算法详解
在之前的 PPO 细节探讨中,我们详细介绍了 PPO 算法和 GAE 优势估计。今天我们来深入探讨 GRPO(Group Relative Policy Optimization)算法,这是 PPO 在大语言模型训练中的一个重要改进版本。
LLM 推理: KV Cache 原理与优化
继续梳理 LLM 知识,这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术,能够显著减少计算量,提高推理速度。本文将从 Attention 计算原理出发,详细推导 KV Cache 的数学等价性,并分析其优化效果。