一个GRPO的单次迭代: 1. 采样:为每个提示生成N个候选回复。 `model.generate(pr... | SciDraw Gallery