DeepMindが表現力と制御性を向上させた音声AIモデル「Gemini 3.1 Flash TTS」を公開

DeepMindは、表現力豊かなAI音声生成を可能にする新しいオーディオモデル「Gemini 3.1 Flash TTS」を発表しました。このモデルは、Google AI Studio、Vertex AI、Google VidsなどのGoogle製品で利用可能となり、開発者に対してAI音声の品質と制御性を大幅に向上させます。
Gemini 3.1 Flash TTSの最大の特徴は、音声タグを導入した点です。これにより、開発者は自然言語コマンドを使用して、ボーカルスタイルや話すペースを細かく調整できるようになりました。70以上の言語に対応しており、より多様なアプリケーションでの活用が期待されます。従来のモデルと比較して、より自然で人間らしい音声生成が可能になっています。
実務面では、この機能強化により、AIアシスタント、オーディオブック、多言語コンテンツ制作など、幅広い分野でより高品質なユーザー体験を提供できるようになります。特に、感情表現や特定の話し方を再現するニーズがある場面で、その真価を発揮するでしょう。また、生成されたすべての音声にはSynthIDによる電子透かしが埋め込まれており、AI生成音声と人間による音声を区別し、誤情報の拡散を防ぐための対策が講じられています。
ただし、音声タグによる制御は強力ですが、意図しない表現や不自然な音声になる可能性も考慮し、慎重な調整とテストが欠かせません。特に、多言語対応においては、各言語のニュアンスを正確に反映させるためのチューニングが求められるでしょう。
フェレット記者の用語メモ
tts
TTS(Text-to-Speech)は、テキストデータを人間の音声に変換する技術だよ。単に文字を読み上げるだけでなく、最近では感情やアクセント、話速まで調整できるものが増えてる。どこでハマるかというと、イントネーションが不自然だったり、特定の固有名詞の読み上げがおかしくて、結局手動で修正する羽目になることだね。特に多言語対応だと、言語ごとの発音規則や抑揚の調整が泥沼化しやすいよ。
比較: 音声合成LSI
出典: DeepMind Blog
要点を短く整理して掲載しています。詳細は出典を確認してください。


