0%

在现代 AI 应用开发中,让大语言模型(LLM)生成结构化的 JSON 数据是一个关键需求。无论是构建 API 服务、数据处理流水线,还是与现有系统集成,结构化输出都是必不可少的。本文将深入探讨多种让 LLM 生成规范 JSON 的方法,从基础技巧到高级工程实践。

阅读全文 »

RAG(检索增强生成)系统的核心在于能否准确、高效地检索到与用户查询最相关的文档片段。检索质量的好坏直接决定了最终生成结果的准确性和可靠性。本文将深入探讨 RAG 系统中检索优化的关键策略和最佳实践。

阅读全文 »

在构建一个高效的检索增强生成(RAG)系统时,一个常常被忽视但至关重要的环节是分块(Chunking)。这个过程是将大型文档切分成小块,以便 LLM 可以轻松地检索和理解。如果分块策略不当,即使拥有最先进的语言模型和向量数据库,你的 RAG 系统也可能表现不佳。

阅读全文 »

最近遇到了几个大模型模型算法应用的关键问题,作为记录。

阅读全文 »

在大语言模型(LLM)训练中,显存不足是一个普遍存在的问题。随着模型规模的不断增长,单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO(Zero Redundancy Optimizer)技术通过创新的数据分片策略,有效解决了这一问题,使得我们能够训练远超单卡显存上限的超大规模模型。

阅读全文 »

在上一篇博客中,我们详细介绍了 PPO 和 DPO 算法。今天我们来深入探讨 GRPO(Group Relative Policy Optimization)算法,这是 PPO 的一个重要改进版本。GRPO 的核心创新在于改进了优势函数的计算方式,使得训练更加稳定和高效。

阅读全文 »

继续梳理 LLM 知识,这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术,能够显著减少计算量,提高推理速度。本文将从 Attention 计算原理出发,详细推导 KV Cache 的数学等价性,并分析其优化效果。

阅读全文 »

继续准备 LLM 面试知识,这次写文本检索技术。文本检索是 RAG(检索增强生成)系统的核心组件,也是面试中经常被问到的问题。本文将详细介绍稠密向量检索、稀疏向量检索、BM25算法以及混合检索策略,帮助理解现代文本检索系统的技术原理。

阅读全文 »

LLM 的幻觉和重复问题是 LLM 应用中的核心挑战,也是面试中经常被问到的问题。本文将从底层机理出发,深入分析这两个问题的成因,并探讨有效的解决方案。

阅读全文 »