單次 GRPO 迭代: 1. 採樣:為每個提示生成 N 個候選回應。 `model.generate(p... | SciDraw Gallery