NVIDIA、Nemotron 3 Nano Omniモデルで画像・音声・言語を統合しAIエージェントの効率を最大9倍向上

NVIDIAは、本日「Nemotron 3 Nano Omni」モデルを発表しました。このオープンなマルチモーダルモデルは、画像、音声、言語の各機能を単一システムに統合することで、AIエージェントの応答速度と推論精度を大幅に向上させます。従来のAIエージェントシステムでは、ビジョン、スピーチ、言語処理にそれぞれ異なるモデルを使用しており、データ受け渡し時に時間とコンテキストの損失が発生していました。
Nemotron 3 Nano Omniは、この課題を解決し、ビデオ、オーディオ、画像、テキストといった多様な入力形式からテキスト出力を生成できます。これにより、複雑なドキュメントインテリジェンスやオーディオ・ビデオ理解の分野で6つのリーダーボードでトップを獲得し、オープンなマルチモーダルモデルとして最高レベルの効率と精度を実現しました。企業や開発者は、このモデルを活用して、コンピュータ操作、ドキュメント解析、オーディオ・ビデオ推論といったエージェントワークフローを最大9倍効率化できるとNVIDIAは述べています。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
出典: NVIDIA
要点を短く整理して掲載しています。詳細は出典を確認してください。


