0%

在大语言模型(LLM)训练中,显存不足是一个普遍存在的问题。随着模型规模的不断增长,单个 GPU 的显存容量成为了训练大规模模型的主要瓶颈。DeepSpeed ZeRO(Zero Redundancy Optimizer)技术通过创新的数据分片策略,有效解决了这一问题,使得我们能够训练远超单卡显存上限的超大规模模型。

阅读全文 »

在上一篇博客中,我们详细介绍了 PPO 和 DPO 算法。今天我们来深入探讨 GRPO(Group Relative Policy Optimization)算法,这是 PPO 的一个重要改进版本。GRPO 的核心创新在于改进了优势函数的计算方式,使得训练更加稳定和高效。

阅读全文 »

继续梳理 LLM 知识,这次写 KV Cache。KV Cache 是大语言模型推理过程中的重要优化技术,能够显著减少计算量,提高推理速度。本文将从 Attention 计算原理出发,详细推导 KV Cache 的数学等价性,并分析其优化效果。

阅读全文 »

继续准备 LLM 面试知识,这次写文本检索技术。文本检索是 RAG(检索增强生成)系统的核心组件,也是面试中经常被问到的问题。本文将详细介绍稠密向量检索、稀疏向量检索、BM25算法以及混合检索策略,帮助理解现代文本检索系统的技术原理。

阅读全文 »

LLM 的幻觉和重复问题是 LLM 应用中的核心挑战,也是面试中经常被问到的问题。本文将从底层机理出发,深入分析这两个问题的成因,并探讨有效的解决方案。

阅读全文 »

已经接近 3 年没有更新博客了。今天立下一个 flag,开始准备 LLM 面试知识,主要是八股文为主,想到哪写到哪。第一篇没想到写啥,觉得对 PPO 和 DPO 比较了解,就先直接写这个吧。

阅读全文 »

目前所采用的扩散模型大都是来自于 2020 年的工作 DDPM。DDPM 对之前的扩散模型进行了简化,并通过变分推断(variational inference)来进行建模,这主要是因为扩散模型也是一个隐变量模型(latent variable model),相比 VAE 这样的隐变量模型,扩散模型的隐变量是和原始数据是同维度的,而且推理过程(即扩散过程)往往是固定的。

阅读全文 »