DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 作为大模型强化学习训练的新兴算法,通过四项核心改进有效解决了GRPO在长序列优化中的痛点问题,在数学推理等复杂任务中取得了显著的性能提升。
大模型训练方法:GRPO 和 GSPO
GSPO (Group Sequence Policy Optimization) 作为 GRPO (Generalized Reinforcement Policy Optimization) 的升级版,通过将优化粒度从 “token 级” 提升到 “序列级”,从根本上解决了 GRPO 在训练大模型 (特别是 MoE 模型) 时的不稳定问题,同时保持了 GRPO 的轻量特性。
让 LLM 输出规范 JSON 的方法
在现代 AI 应用开发中,让大语言模型(LLM)生成结构化的 JSON 数据是一个关键需求。无论是构建 API 服务、数据处理流水线,还是与现有系统集成,结构化输出都是必不可少的。本文将深入探讨多种让 LLM 生成规范 JSON 的方法,从基础技巧到高级工程实践。
翻译《如何构建多智能体研究系统:Anthropic 的工程实践》
最近在看打造 Agent 相关的研究,发现 Anthropic 他们的一篇文章写的特别好,有很多工程实践经验值得参考。虽然没有披露更多细节,但是也指出了很多方向。以下基本是原文翻译。
RAG 中的检索核心问题
RAG(检索增强生成)系统的核心在于能否准确、高效地检索到与用户查询最相关的文档片段。检索质量的好坏直接决定了最终生成结果的准确性和可靠性。本文将深入探讨 RAG 系统中检索优化的关键策略和最佳实践。
LLM 训练:ZeRO 技术详解
在大语言模型(LLM)训练中,显存不足是一个普遍存在的问题。随着模型规模的不断增长,单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO(Zero Redundancy Optimizer)技术通过创新的数据分片策略,有效解决了这一问题,使得我们能够训练远超单卡显存上限的超大规模模型。
LLM 训练:GRPO 算法详解
在之前的 PPO 细节探讨中,我们详细介绍了 PPO 算法。今天我们来深入探讨 GRPO(Group Relative Policy Optimization)算法,这是 PPO 的一个重要改进版本。GRPO 的核心创新在于改进了优势函数的计算方式,使得训练更加稳定和高效。
LLM 推理: KV Cache 原理与优化
继续梳理 LLM 知识,这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术,能够显著减少计算量,提高推理速度。本文将从 Attention 计算原理出发,详细推导 KV Cache 的数学等价性,并分析其优化效果。