拾荒志

大模型训练方法：DAPO

发表于 2025-12-01 分类于 LLM
本文字数： 6.6k 阅读时长 ≈ 11 分钟

DAPO (Decoupled Clip and Dynamic Sampling Policy Optimization) 作为大模型强化学习训练的新兴算法，通过四项核心改进有效解决了GRPO在长序列优化中的痛点问题，在数学推理等复杂任务中取得了显著的性能提升。

阅读全文 »

大模型训练方法：GRPO 和 GSPO

发表于 2025-11-18 更新于 2025-12-01 分类于 LLM
本文字数： 6.9k 阅读时长 ≈ 12 分钟

GSPO (Group Sequence Policy Optimization) 作为 GRPO (Generalized Reinforcement Policy Optimization) 的升级版，通过将优化粒度从 “token 级” 提升到 “序列级”，从根本上解决了 GRPO 在训练大模型 (特别是 MoE 模型) 时的不稳定问题，同时保持了 GRPO 的轻量特性。

阅读全文 »

让 LLM 输出规范 JSON 的方法

发表于 2025-09-15 更新于 2025-09-16 分类于 LLM
本文字数： 1.3k 阅读时长 ≈ 2 分钟

在现代 AI 应用开发中，让大语言模型（LLM）生成结构化的 JSON 数据是一个关键需求。无论是构建 API 服务、数据处理流水线，还是与现有系统集成，结构化输出都是必不可少的。本文将深入探讨多种让 LLM 生成规范 JSON 的方法，从基础技巧到高级工程实践。

阅读全文 »

翻译《如何构建多智能体研究系统：Anthropic 的工程实践》

发表于 2025-09-01 分类于 Agent
本文字数： 6k 阅读时长 ≈ 10 分钟

最近在看打造 Agent 相关的研究，发现 Anthropic 他们的一篇文章写的特别好，有很多工程实践经验值得参考。虽然没有披露更多细节，但是也指出了很多方向。以下基本是原文翻译。

阅读全文 »

RAG 中的检索核心问题

发表于 2025-08-29 更新于 2025-09-01 分类于 RAG
本文字数： 3.3k 阅读时长 ≈ 6 分钟

RAG（检索增强生成）系统的核心在于能否准确、高效地检索到与用户查询最相关的文档片段。检索质量的好坏直接决定了最终生成结果的准确性和可靠性。本文将深入探讨 RAG 系统中检索优化的关键策略和最佳实践。

阅读全文 »

RAG 分块策略

发表于 2025-08-28 更新于 2025-09-01 分类于 RAG
本文字数： 1.7k 阅读时长 ≈ 3 分钟

在构建一个高效的检索增强生成（RAG）系统时，一个常常被忽视但至关重要的环节是分块（Chunking）。这个过程是将大型文档切分成小块，以便 LLM 可以轻松地检索和理解。如果分块策略不当，即使拥有最先进的语言模型和向量数据库，你的 RAG 系统也可能表现不佳。

阅读全文 »

Agent 几个问题思考

发表于 2025-07-29 更新于 2025-09-02 分类于 Agent
本文字数： 5.7k 阅读时长 ≈ 10 分钟

最近遇到了几个大模型模型算法应用的关键问题，作为记录。

阅读全文 »

LLM 训练：ZeRO 技术详解

发表于 2025-07-23 分类于 LLM
本文字数： 2k 阅读时长 ≈ 3 分钟

在大语言模型（LLM）训练中，显存不足是一个普遍存在的问题。随着模型规模的不断增长，单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO（Zero Redundancy Optimizer）技术通过创新的数据分片策略，有效解决了这一问题，使得我们能够训练远超单卡显存上限的超大规模模型。

阅读全文 »