vLLM V1が強化学習の推論精度を修正、ログ確率計算の不一致を解消しV0との互換性を確保
ServiceNowの研究チームは、大規模言語モデルの推論エンジンであるvLLMのV1(バージョン0.18.1)において、強化学習(RL)実行時のログ確率計算の正確性を向上させたと発表しました。エンジンの大幅な書き換えに伴い、従来のV0(バージョン0.8.5)との間で最適化対象となるトークンのログ確率に乖離が生じていた問題を解消しています。
具体的には、ランタイムのデフォルト設定の不一致、インフライトでの重み更新パス、および最終プロジェクションで使用されるfp32精度のlm_headの処理という4つの主要なバグが修正されました。これにより、GSPOやPPO、GRPOといったオンライン強化学習システムにおいて、推論エンジン側のログ確率をそのまま最適化ターゲットとして扱う際の計算精度が安定しました。
従来のV1環境では学習曲線が赤色の初期試行のように不安定でしたが、修正後のV1ではV0リファレンスと同等の収束性を確認しています。ただし、依然としてfp32精度の適用範囲など細かい数値計算の差異が残る可能性があるため、モデル移行時にはチェックポイント間のログ確率の乖離幅を個別に検証するフローが必要です。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
フェレット記者の用語メモ
gspo
GSPOは、強化学習におけるポリシー最適化アルゴリズムの一つで、特に生成モデルの学習で使われることが多いね。vLLMのような推論エンジンと組み合わせて、生成されたテキストの品質を向上させるために利用されるよ。ただし、ハイパーパラメータの調整が非常にデリケートで、少し間違えると思ったような性能が出ないどころか、学習が発散して使い物にならなくなることがよくあるから、初期設定が肝心だね。
比較: PPO
PPO
強化学習でポリシーの更新幅を制限して学習を安定させるアルゴリズムだよ。報酬の計算に推論エンジンのログ確率を直接使うから、エンジンの仕様変更で数値が少しでもズレると、モデルが予期せぬ方向に最適化されて学習が崩壊するよ。ハイパーパラメータ調整以前に、計算環境の再現性を疑うべき箇所だね。
比較: TRPO
要点を短く整理して掲載しています。詳細は出典を確認してください。