在现代 AI 应用开发中,让大语言模型(LLM)生成结构化的 JSON 数据是一个关键需求。无论是构建 API 服务、数据处理流水线,还是与现有系统集成,结构化输出都是必不可少的。本文将深入探讨多种让 LLM 生成规范 JSON 的方法,从基础技巧到高级工程实践。
翻译《如何构建多智能体研究系统:Anthropic 的工程实践》
最近在看打造 Agent 相关的研究,发现 Anthropic 他们的一篇文章写的特别好,有很多工程实践经验值得参考。虽然没有披露更多细节,但是也指出了很多方向。以下基本是原文翻译。
RAG 中的检索核心问题
RAG(检索增强生成)系统的核心在于能否准确、高效地检索到与用户查询最相关的文档片段。检索质量的好坏直接决定了最终生成结果的准确性和可靠性。本文将深入探讨 RAG 系统中检索优化的关键策略和最佳实践。
LLM 训练:ZeRO 技术详解
在大语言模型(LLM)训练中,显存不足是一个普遍存在的问题。随着模型规模的不断增长,单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO(Zero Redundancy Optimizer)技术通过创新的数据分片策略,有效解决了这一问题,使得我们能够训练远超单卡显存上限的超大规模模型。
LLM 训练:GRPO 算法详解
在上一篇博客中,我们详细介绍了 PPO 和 DPO 算法。今天我们来深入探讨 GRPO(Group Relative Policy Optimization)算法,这是 PPO 的一个重要改进版本。GRPO 的核心创新在于改进了优势函数的计算方式,使得训练更加稳定和高效。
LLM 推理: KV Cache 原理与优化
继续梳理 LLM 知识,这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术,能够显著减少计算量,提高推理速度。本文将从 Attention 计算原理出发,详细推导 KV Cache 的数学等价性,并分析其优化效果。
LLM:RAG 中的文本检索技术
继续准备 LLM 面试知识,这次写文本检索技术。文本检索是 RAG(检索增强生成)系统的核心组件,也是面试中经常被问到的问题。本文将详细介绍稠密向量检索、稀疏向量检索、BM25算法以及混合检索策略,帮助理解现代文本检索系统的技术原理。