拾荒志

LLM 推理： KV Cache 原理与优化

发表于 2025-07-01 更新于 2026-01-07 分类于 LLM
本文字数： 5k 阅读时长 ≈ 8 分钟

继续梳理 LLM 知识，这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术，能够显著减少计算量，提高推理速度。本文将从 Attention 计算原理出发，详细推导 KV Cache 的数学等价性，并分析其优化效果。

阅读全文 »

LLM：RAG 中的文本检索技术

发表于 2025-06-30 更新于 2026-01-07 分类于 LLM
本文字数： 4.2k 阅读时长 ≈ 7 分钟

继续准备 LLM 面试知识，这次写文本检索技术。文本检索是 RAG（检索增强生成）系统的核心组件，也是面试中经常被问到的问题。本文将详细介绍稠密向量检索、稀疏向量检索、BM25算法以及混合检索策略，帮助理解现代文本检索系统的技术原理。

阅读全文 »

LLM 幻觉与重复问题

发表于 2025-06-27 更新于 2026-01-07 分类于 LLM
本文字数： 3.4k 阅读时长 ≈ 6 分钟

LLM 的幻觉和重复问题是 LLM 应用中的核心挑战，也是面试中经常被问到的问题。本文将从底层机理出发，深入分析这两个问题的成因，并探讨有效的解决方案。

阅读全文 »

LLM 训练：DPO 深入与实践

发表于 2025-06-24 更新于 2026-01-13 分类于 LLM
本文字数： 1.4k 阅读时长 ≈ 2 分钟

上一篇详细介绍了 RLHF 训练中的 PPO 原理和实现细节。本文聚焦于 Direct Preference Optimization（DPO）在 LLM 对齐训练中的原理与实践。从直观动机与数学推导入手，给出训练流程与实现要点，随后比较 DPO 与基于奖励的 PPO 在适用场景、训练复杂度与稳定性上的异同，最后给出工程建议与常见陷阱。

阅读全文 »

LLM 训练：PPO 原理和实现细节

发表于 2025-05-25 更新于 2026-01-13 分类于 LLM
本文字数： 13k 阅读时长 ≈ 21 分钟

本文详细讲解大模型 RLHF 阶段使用的 PPO（Proximal Policy Optimization）训练原理和实现细节。我们将从强化学习基础概念开始，逐步深入到 PPO 在 LLM 中的具体应用，最后分析 PPO 的损失函数和优势估计计算。

阅读全文 »

图像生成基础：DDPM

发表于 2024-07-31 更新于 2026-01-07 分类于 AIGC
本文字数： 2.1k 阅读时长 ≈ 4 分钟

目前所采用的扩散模型大都是来自于 2020 年的工作 DDPM。DDPM 对之前的扩散模型进行了简化，并通过变分推断（variational inference）来进行建模，这主要是因为扩散模型也是一个隐变量模型（latent variable model），相比 VAE 这样的隐变量模型，扩散模型的隐变量是和原始数据是同维度的，而且推理过程（即扩散过程）往往是固定的。

阅读全文 »