ai 重要度 4/5 2026/4/17 22:30:13

DeepMind、70以上の言語に対応した表現力豊かな音声生成AI「Gemini 3.1 Flash TTS」をリリース

DeepMindは、表現力豊かなAI音声生成モデル「Gemini 3.1 Flash TTS」の提供を開始しました。この新しいオーディオモデルは、きめ細やかなオーディオタグを導入しており、開発者はAI音声のスタイルやペースを正確に制御できます。Google AI Studio、Vertex AI、Google VidsといったGoogle製品群で利用可能となり、AI生成音声の品質と制御性が大幅に向上しています。

Gemini 3.1 Flash TTSは、従来のバージョンと比較して、より自然な音声品質を実現しています。オーディオタグを使用することで、70以上の言語でボーカルスタイルや話す速度を自然言語コマンドで調整できるようになりました。これにより、開発者は特定の感情やニュアンスを音声に持たせることが可能となり、より多様なアプリケーションでの利用が期待されます。

実務面では、このモデルの導入により、多言語対応の音声アシスタント、ナレーション、コンテンツ生成など、幅広い分野で高品質なAI音声を手軽に利用できるようになります。特に、音声の表現力を細かく調整できる点は、ユーザー体験の向上に直結するでしょう。また、生成されたすべてのオーディオにはSynthIDによる透かしが埋め込まれており、AI生成コンテンツの誤情報拡散防止策が講じられています。これは、AI技術の悪用を防ぐ上で重要な機能ですが、透かしの検出精度や、悪意のあるユーザーによる回避策の可能性については、今後の動向を注視する必要があります。

フェレット記者の用語メモ

tts

TTS（Text-to-Speech）は、テキストデータを人間の音声に変換する技術だよ。単に文字を読み上げるだけでなく、最近では感情やアクセント、話速まで調整できるものが増えてる。どこでハマるかというと、イントネーションが不自然だったり、特定の固有名詞の読み上げがおかしくて、結局手動で修正する羽目になることだね。特に多言語対応だと、言語ごとの発音規則や抑揚の調整が泥沼化しやすいよ。

比較: 音声合成LSI