vLLM V1で強化学習のロールアウトログ確率計算を修正、V0との整合性を確保
ServiceNow-AIは、Hugging Faceのブログで、vLLM V0からV1への移行における強化学習(RL)の正確性に関する修正点を詳細に解説しました。特に、RLの最適化ターゲットの一部としてロールアウト側のログ確率を扱うオンラインRLシステムにおいて、vLLM V1がvLLM V0(バージョン0.8.5)のリファレンスと一致しない問題が確認されていました。
この不一致を解消するため、vLLM V1(バージョン0.18.1)では、処理されたロールアウトログ確率、V1固有のランタイムデフォルト、インフライト重み更新パス、および最終投影に使用されるfp32 lm_headの4つの主要なバックエンド修正が適用されました。これらの修正により、GSPOトレーニング実行で得られたメトリクスがV0とV1で一致するようになり、PPOやGRPOなど他のオンラインRLシステムでも同様の不一致が表面化する可能性が低減されます。
vLLM V1はV0エンジンからの大幅な書き換えであるため、ServiceNow-AIはRLの目的を変更する前にバックエンドの動作の正確性を優先して修正しました。これにより、推論エンジンがトークンをサンプリングし、トークンログ確率を返す際の信頼性が向上し、強化学習パイプラインにおけるロールアウト生成の安定性が確保されます。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
フェレット記者の用語メモ
GSPO
GSPOは、強化学習におけるポリシー最適化アルゴリズムの一つで、特に生成モデルの学習で使われることが多いね。vLLMのような推論エンジンと組み合わせて、生成されたテキストの品質を向上させるために利用されるよ。ただし、ハイパーパラメータの調整が非常にデリケートで、少し間違えると思ったような性能が出ないどころか、学習が発散して使い物にならなくなることがよくあるから、初期設定が肝心だね。
比較: PPO
要点を短く整理して掲載しています。詳細は出典を確認してください。
