ServiceNow AI、コードスイッチング対応のASR評価ベンチマークを公開

ServiceNow AIは、バイリンガルユーザーが文中で言語を切り替える「コードスイッチング」に特化した音声認識(ASR)性能のベンチマーク結果と評価ツール「AU-Harness」を公開しました。世界人口の半分以上が複数言語を話し、特にコンタクトセンターやITヘルプデスクでの実務において言語が混在する発話は一般的ですが、これまでの音声エージェント評価ではこの側面が十分に考慮されていませんでした。
本調査では、スペイン語・フランス語・ドイツ語をベースに英語を織り交ぜた4つの言語ペアを対象に、12語から40語程度のITサポートおよび人事関連の対話コーパスを用いています。OpenAIのWhisperを含む最新のフロンティアモデルや大規模音声言語モデル(LALM)など7つのシステムを比較した結果、言語ペアや単語の埋め込み長によって認識精度に大きな差が生じることが明らかになりました。
従来、多くの商用ASRは単一の「主要言語」を指定して認識を行うため、コードスイッチングが発生すると認識率が著しく低下する課題がありました。今回の公開データにより、実務環境に近い多言語混在条件下でのエラー率(WER)の定量化が可能となり、音声インターフェースの実装判断における具体的な指標が提供されます。
Related tools
この記事に関連するおすすめツール
比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。
フェレット記者の用語メモ
LALM
LLMに音声理解の機能を統合した大規模音声言語モデルのことだよ。従来のASRと翻訳機を繋ぐ構成より文脈理解に強いけど、プロンプトでの言語指定が甘いと勝手に他言語で要約を始める『ハルシネーションの多言語版』が起きるのが落とし穴。推論コストの重さも考慮しないと本番投入で詰むよ。
比較: Whisper
WER
音声認識の正確さを測るワードエラー率という指標で、数値が低いほど優秀だよ。単純な置換だけでなく、不要な語の挿入や脱落もカウントされる。一見低スコアでも、専門用語や製品名の1文字違いで致命的な誤動作を招くから、実務では固有名詞の認識率を別で評価しないと現場で使えない判定を食らうよ。
比較: CER
要点を短く整理して掲載しています。詳細は出典を確認してください。
