虚怀若谷，大智若愚

0%

LLM 八股文：PPO 和 DPO

发表于 2025-06-24 更新于 2025-06-25 分类于 LLM
本文字数： 7.6k 阅读时长 ≈ 13 分钟

已经接近 3 年没有更新博客了。今天立下一个 flag，开始准备 LLM 面试知识，主要是八股文为主，想到哪写到哪。第一篇没想到写啥，觉得对 PPO 和 DPO 比较了解，就先直接写这个吧。

阅读全文 »

图像生成基础-DDPM

发表于 2024-07-31 更新于 2025-06-25 分类于 AIGC
本文字数： 2.1k 阅读时长 ≈ 4 分钟

目前所采用的扩散模型大都是来自于2020年的工作DDPM。DDPM对之前的扩散模型进行了简化，并通过变分推断（variational inference）来进行建模，这主要是因为扩散模型也是一个隐变量模型（latent variable model），相比VAE这样的隐变量模型，扩散模型的隐变量是和原始数据是同维度的，而且推理过程（即扩散过程）往往是固定的。

阅读全文 »

大模型RLHF训练中的PPO算法细节

发表于 2024-07-25 更新于 2025-06-25 分类于 LLM
本文字数： 2.8k 阅读时长 ≈ 5 分钟

虽然了解大模型训练中的RLHF训练，但是都是有点不够深刻，特别是PPO算法的细节。

阅读全文 »

STL 旋转序列算法 rotate

发表于 2022-12-07 更新于 2025-06-25 分类于 C/C++
本文字数： 395 阅读时长 ≈ 1 分钟

最近开发需要不管刷新缓冲区，发现了一个有用的 STL 算法。

阅读全文 »

vscode C++ 开发之使用 clangd、C/C++、clang-format

发表于 2022-12-07 更新于 2025-06-25 分类于 C/C++
本文字数： 1.6k 阅读时长 ≈ 3 分钟

最近比较忙，废话少说，vscode 开发 C/C++ 需要很繁琐的配置，之前也说过 launch 和 tasks 的配置。这篇文章主要结合自身使用经历讲讲 C++ 相关插件。

阅读全文 »

golang select 机制和超时

发表于 2022-06-25 更新于 2025-06-25 分类于 Golang
本文字数： 1.6k 阅读时长 ≈ 3 分钟

golang 中的协程使用非常方便，但是协程什么时候结束是一个控制问题，可以用 select 配合使用。

阅读全文 »

C++ 链接一个不需要的库(--no-as-needed)

发表于 2022-04-18 更新于 2025-06-25 分类于 C/C++
本文字数： 8.3k 阅读时长 ≈ 14 分钟

使用 libtorch 的 C++ 动态链接库遇到了一个非常诡异的问题…

阅读全文 »

shared_ptr 和 unique_ptr 深入探秘

发表于 2022-03-24 更新于 2025-06-25 分类于 C/C++
本文字数： 3k 阅读时长 ≈ 5 分钟

C++ 中 shared_ptr 和 unique_ptr 是 C++11 之后被广泛使用的两个智能指针，但是其实他们在使用上还是有一些“秘密”的，我根据平时遇到的两个问题，总结记录一些知识。

阅读全文 »

使用 pyenv 搭建任意 python 环境

发表于 2022-01-13 更新于 2025-06-25 分类于 Python
本文字数： 1.9k 阅读时长 ≈ 3 分钟

开发和部署的过程中，常常遇到 python 版本和环境导致的冲突不兼容问题，pyenv 能够完美解决。

阅读全文 »

SSH 穿越多个跳板机的连接方法

发表于 2021-12-27 更新于 2025-06-25 分类于 Linux
本文字数： 1.3k 阅读时长 ≈ 2 分钟

鉴于安全原因，工作需要使用跳板机登录；鉴于服务器环境老旧，我需要在服务器上使用 docker 来搞个开发环境，所以需要有一种方法穿越层层阻隔，让我的 vscode 直接连过去。

阅读全文 »

AngryBirds

虚怀若谷，大智若愚

GitHub E-Mail