ai 重要度 4/5 2026/5/6 19:06:55

vLLM V1で強化学習のロールアウトログ確率計算を修正、V0との整合性を確保

ServiceNow-AIは、Hugging Faceのブログで、vLLM V0からV1への移行における強化学習（RL）の正確性に関する修正点を詳細に解説しました。特に、RLの最適化ターゲットの一部としてロールアウト側のログ確率を扱うオンラインRLシステムにおいて、vLLM V1がvLLM V0（バージョン0.8.5）のリファレンスと一致しない問題が確認されていました。

この不一致を解消するため、vLLM V1（バージョン0.18.1）では、処理されたロールアウトログ確率、V1固有のランタイムデフォルト、インフライト重み更新パス、および最終投影に使用されるfp32 lm_headの4つの主要なバックエンド修正が適用されました。これらの修正により、GSPOトレーニング実行で得られたメトリクスがV0とV1で一致するようになり、PPOやGRPOなど他のオンラインRLシステムでも同様の不一致が表面化する可能性が低減されます。

vLLM V1はV0エンジンからの大幅な書き換えであるため、ServiceNow-AIはRLの目的を変更する前にバックエンドの動作の正確性を優先して修正しました。これにより、推論エンジンがトークンをサンプリングし、トークンログ確率を返す際の信頼性が向上し、強化学習パイプラインにおけるロールアウト生成の安定性が確保されます。

Related tools

この記事に関連するおすすめツール

比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。

AI 開発 High intent

Cursor

AI コーディング支援を強く打ち出せる。AI・backend・frontend 記事との親和性が高い。

Cursor を見る

LLM API API spend

OpenAI API

LLM 導入の比較対象として出しやすい。生成 AI 記事からの遷移先として意図が合いやすい。

API を確認

生成 AI API spend

Anthropic API

Claude 系の検討読者に刺さりやすい。安全性や長文処理の文脈と相性が良い。

Anthropic を見る

フェレット記者の用語メモ

GSPO

GSPOは、強化学習におけるポリシー最適化アルゴリズムの一つで、特に生成モデルの学習で使われることが多いね。vLLMのような推論エンジンと組み合わせて、生成されたテキストの品質を向上させるために利用されるよ。ただし、ハイパーパラメータの調整が非常にデリケートで、少し間違えると思ったような性能が出ないどころか、学習が発散して使い物にならなくなることがよくあるから、初期設定が肝心だね。

比較: PPO