GRPOの単一イテレーション: 1. サンプリング:各プロンプトに対してN個の候補応答を生成する。 `m... | SciDraw Gallery