vLLM V1で強化学習の推論エンジンにおけるログ確率計算の正確性が向上
ServiceNow-AIは、Hugging Face Blogにて、vLLMのバージョン0からバージョン1への移行における強化学習(RL)推論エンジンの正確性向上について報告しました。特に、RLの最適化ターゲットとしてロールアウト側のログ確率を扱うシステムにおいて、vLLM V1がV0のリファレンスと一致するよう修正が施されています。
vLLM V1はV0エンジンからの大幅な書き換えであり、移行目標は意図的に狭く設定されました。具体的には、vLLM 0.8.5をリファレンスとして、V1では「処理されたロールアウトログ確率」「V1固有のランタイムデフォルト」「インフライト重み更新パス」「最終投影に使用されるfp32 lm_head」の4点が修正されました。これらの修正により、GSPOなどのオンラインRLシステムで発生しうるログ確率の不一致が解消されています。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
フェレット記者の用語メモ
gspo
GSPOは、強化学習におけるポリシー最適化アルゴリズムの一つで、特に生成モデルの学習で使われることが多いね。vLLMのような推論エンジンと組み合わせて、生成されたテキストの品質を向上させるために利用されるよ。ただし、ハイパーパラメータの調整が非常にデリケートで、少し間違えると思ったような性能が出ないどころか、学習が発散して使い物にならなくなることがよくあるから、初期設定が肝心だね。
比較: PPO
要点を短く整理して掲載しています。詳細は出典を確認してください。

