NVIDIA、Nemotron 3 Nano Omniモデルを発表し、マルチモーダルAIエージェントの効率を最大9倍向上

NVIDIAは本日、AIエージェントシステム向けにNemotron 3 Nano Omniモデルを発表しました。従来のAIエージェントは視覚、音声、言語処理をそれぞれ異なるモデルで実行しており、データの受け渡しで時間とコンテキストの損失が発生していました。Nemotron 3 Nano Omniはこれらの機能を単一システムに統合することで、ビデオ、オーディオ、画像、テキストにわたる高度な推論を可能にし、より高速でスマートな応答を実現します。
このオープンなオムニモーダル推論モデルは、複雑なドキュメントインテリジェンス、ビデオ、オーディオ理解において6つのリーダーボードでトップを獲得し、オープンマルチモーダルモデルの新たな効率フロンティアを確立しました。テキスト、画像、音声、ビデオ、ドキュメント、チャート、グラフィカルインターフェースを入力として受け付け、テキストを出力します。
実務においては、企業や開発者がAIエージェントワークフローを構築する際の生産パスを提供し、コンピューター利用、ドキュメントインテリジェンス、オーディオ・ビデオ推論といったタスクの効率と精度を大幅に向上させることが期待されます。これにより、複数のモデルを連携させる際の複雑さが軽減され、開発期間の短縮とコスト削減に寄与する可能性があります。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
出典: NVIDIA
要点を短く整理して掲載しています。詳細は出典を確認してください。

