拾荒志
虚怀若谷,大智若愚
首页
分类
标签
归档
关于
0%
大模型
标签
2024
大模型 RLHF 训练中的 PPO 算法细节
07-25