ai 重要度 4/5 2026/5/6 19:06:55

vLLM V1で強化学習の推論エンジンにおけるログ確率計算の正確性が向上

ServiceNow-AIは、Hugging Face Blogにて、vLLMのバージョン0からバージョン1への移行における強化学習（RL）推論エンジンの正確性向上について報告しました。特に、RLの最適化ターゲットとしてロールアウト側のログ確率を扱うシステムにおいて、vLLM V1がV0のリファレンスと一致するよう修正が施されています。

vLLM V1はV0エンジンからの大幅な書き換えであり、移行目標は意図的に狭く設定されました。具体的には、vLLM 0.8.5をリファレンスとして、V1では「処理されたロールアウトログ確率」「V1固有のランタイムデフォルト」「インフライト重み更新パス」「最終投影に使用されるfp32 lm_head」の4点が修正されました。これらの修正により、GSPOなどのオンラインRLシステムで発生しうるログ確率の不一致が解消されています。

Related tools

この記事に関連するおすすめツール

比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。

AI 開発 High intent

Cursor

AI コーディング支援を強く打ち出せる。AI・backend・frontend 記事との親和性が高い。

Cursor を見る

LLM API API spend

OpenAI API

LLM 導入の比較対象として出しやすい。生成 AI 記事からの遷移先として意図が合いやすい。

API を確認

生成 AI API spend

Anthropic API

Claude 系の検討読者に刺さりやすい。安全性や長文処理の文脈と相性が良い。

Anthropic を見る

フェレット記者の用語メモ

gspo

GSPOは、強化学習におけるポリシー最適化アルゴリズムの一つで、特に生成モデルの学習で使われることが多いね。vLLMのような推論エンジンと組み合わせて、生成されたテキストの品質を向上させるために利用されるよ。ただし、ハイパーパラメータの調整が非常にデリケートで、少し間違えると思ったような性能が出ないどころか、学習が発散して使い物にならなくなることがよくあるから、初期設定が肝心だね。

比較: PPO