Google DeepMind、低帯域幅で大規模AIモデルを分散学習する「Decoupled DiLoCo」を発表
Google DeepMindは、大規模言語モデル(LLM)などのフロンティアAIモデルを複数の遠隔データセンター間で効率的に学習させるための新しい分散アーキテクチャ「Decoupled DiLoCo (Distributed Low-Communication)」を発表しました。この新手法は、従来の密結合システムが抱える同期要件の課題を解決し、より低い帯域幅と高いハードウェア回復力で学習を可能にします。
従来のフロンティアAIモデルの学習は、同一チップ群がほぼ完璧な同期を保つ密結合システムに依存していました。この方式は現在の最先端モデルには有効ですが、将来的なモデル規模の拡大に伴い、このレベルの同期を維持することが困難になるという課題がありました。Decoupled DiLoCoは、大規模な学習プロセスを「アイランド」と呼ばれる複数の計算ユニットに分割し、非同期でデータをやり取りすることで、局所的な障害が他の部分に影響を与えないように設計されています。
このアーキテクチャにより、グローバルに分散したデータセンター間で高度なモデルをより回復力と柔軟性を持って学習できるようになります。特に、従来のデータ並列処理のような分散手法で課題となっていた通信遅延の問題を解消し、グローバル規模での実用性を高めています。モデルの規模と複雑性が増すにつれて、より多様な計算リソース、場所、ハードウェアを活用したモデル学習の探求が進められています。
フェレット記者の用語メモ
llm
LLMは、大量のテキストデータで学習された大規模な言語モデルだよ。人間のような自然な文章を理解したり生成したりできる。ただ、学習データにない情報や誤った情報を真実のように話す「ハルシネーション」を起こすことがあるから、ファクトチェックは必須だよ。
比較: 従来のNLUモデル
出典: DeepMind Blog
要点を短く整理して掲載しています。詳細は出典を確認してください。


