ai 重要度 4/5 2026/4/15 16:03:19

Google DeepMind、表現力豊かなAI音声生成モデル「Gemini 3.1 Flash TTS」を公開

Google DeepMindは、表現力と品質が向上した新しいAI音声生成モデル「Gemini 3.1 Flash TTS」をGoogle製品全体で利用可能にしたと発表しました。このモデルは、音声タグを通じて声のスタイルやペースを自然言語コマンドで細かく制御できる点が大きな特徴です。

Gemini 3.1 Flash TTSは、従来のバージョンと比較して音声品質が向上し、より自然な響きを実現しています。開発者はGoogle AI StudioやVertex AI、Google Vidsでこの新モデルを試すことができ、70以上の言語に対応しているため、多言語での表現豊かな音声生成が可能になります。

実務においては、AIアシスタントやコンテンツ制作、多言語対応のアプリケーション開発において、より人間らしい自然な対話やナレーションを実現できるようになります。音声の感情表現や抑揚を細かく調整できるため、ユーザー体験の向上が期待されます。

また、生成されたすべての音声にはSynthIDによる電子透かしが埋め込まれており、AI生成コンテンツと人間によるコンテンツを区別し、誤情報の拡散を防ぐための対策が講じられています。これにより、AI音声の利用における信頼性と透明性の確保が図られています。

フェレット記者の用語メモ

tts

TTS（Text-to-Speech）は、テキストデータを人間の音声に変換する技術だよ。単に文字を読み上げるだけでなく、最近では感情やアクセント、話速まで調整できるものが増えてる。どこでハマるかというと、イントネーションが不自然だったり、特定の固有名詞の読み上げがおかしくて、結局手動で修正する羽目になることだね。特に多言語対応だと、言語ごとの発音規則や抑揚の調整が泥沼化しやすいよ。

比較: 音声合成LSI