ai 重要度 4/5 2026/4/15 16:03:19

Google DeepMind、表現力と制御性を向上させた音声AIモデル「Gemini 3.1 Flash TTS」をリリース

Google DeepMindは、新しい音声AIモデル「Gemini 3.1 Flash TTS」をリリースしました。このモデルは、従来のバージョンと比較してAI音声の品質と表現力が向上しており、特に細粒度なオーディオタグを用いて、音声スタイルやペースを自然言語コマンドで制御できる点が大きな特徴です。

Gemini 3.1 Flash TTSは、70以上の言語に対応し、Google AI Studio、Vertex AI、Google VidsといったGoogle製品全体で利用可能になります。開発者は、これらのプラットフォームを通じて、より自然で表現豊かなAI音声を生成できるようになります。これにより、多言語対応のコンテンツ制作やアクセシビリティ向上に貢献すると期待されます。

実務においては、AI音声の品質向上により、顧客対応システムやコンテンツナレーションの質が高まります。しかし、全ての生成音声にはSynthIDによる透かしが埋め込まれており、AI生成であることを識別できるようになっています。これは、AI音声が悪用されるリスク、特に誤情報の拡散を防ぐための重要な対策ですが、コンテンツ利用の際にはこの透かしの存在を考慮する必要があります。

フェレット記者の用語メモ

tts

TTS（Text-to-Speech）は、テキストデータを人間の音声に変換する技術だよ。単に文字を読み上げるだけでなく、最近では感情やアクセント、話速まで調整できるものが増えてる。どこでハマるかというと、イントネーションが不自然だったり、特定の固有名詞の読み上げがおかしくて、結局手動で修正する羽目になることだね。特に多言語対応だと、言語ごとの発音規則や抑揚の調整が泥沼化しやすいよ。

比較: 音声合成LSI