DeepMind、70以上の言語に対応した表現力豊かな音声生成AI「Gemini 3.1 Flash TTS」をリリース

DeepMindは、表現力豊かなAI音声生成モデル「Gemini 3.1 Flash TTS」をGoogle製品全体で利用可能にしたと発表しました。この新しいオーディオモデルは、粒度の高いオーディオタグを導入しており、AI音声のスタイルやペースを70以上の言語で精密に制御できる点が大きな特徴です。
Gemini 3.1 Flash TTSは、従来のバージョンと比較して音声品質が向上し、より自然な響きを実現しています。開発者はGoogle AI StudioやVertex AI、Google Vidsでこのモデルを試すことができ、自然言語コマンドを使用してボーカルスタイルや配信ペースを調整できます。これにより、特定の感情やトーンを反映した音声を生成する際の柔軟性が大幅に向上しました。
実務においては、コンテンツ制作やカスタマーサポート、教育プラットフォームなど、多言語対応が必要な場面でAI音声の表現力を高めることが可能になります。例えば、特定の地域のアクセントや感情を付与することで、ユーザーエンゲージメントの向上が期待できます。また、生成されたすべてのオーディオにはSynthIDによる透かしが埋め込まれており、AI生成コンテンツの識別を容易にし、誤情報の拡散防止に貢献します。
このモデルの導入により、開発者はより高度な音声合成機能をアプリケーションに組み込むことが可能になりますが、表現の微調整には試行錯誤が必要になる場合があります。特に、特定のニュアンスを正確に再現するには、オーディオタグの適切な使用方法を習得することが重要です。今後のアップデートで、さらに多くの言語や表現オプションが追加される可能性もあります。
フェレット記者の用語メモ
TTS
TTS(Text-to-Speech)は、テキストデータを人間の音声に変換する技術だよ。単に文字を読み上げるだけでなく、最近では感情やアクセント、話速まで調整できるものが増えてる。どこでハマるかというと、イントネーションが不自然だったり、特定の固有名詞の読み上げがおかしくて、結局手動で修正する羽目になることだね。特に多言語対応だと、言語ごとの発音規則や抑揚の調整が泥沼化しやすいよ。
比較: 音声合成LSI
出典: DeepMind Blog
要点を短く整理して掲載しています。詳細は出典を確認してください。


