← 一覧へ戻る

ai 重要度 4/5 2026/6/9 19:38:28

ServiceNow AI、コードスイッチング対応のASR評価ベンチマークを公開

ServiceNow AI、コードスイッチング対応のASR評価ベンチマークを公開

ServiceNow AIは、バイリンガルユーザーが文中で言語を切り替える「コードスイッチング」に特化した音声認識（ASR）性能のベンチマーク結果と評価ツール「AU-Harness」を公開しました。世界人口の半分以上が複数言語を話し、特にコンタクトセンターやITヘルプデスクでの実務において言語が混在する発話は一般的ですが、これまでの音声エージェント評価ではこの側面が十分に考慮されていませんでした。

本調査では、スペイン語・フランス語・ドイツ語をベースに英語を織り交ぜた4つの言語ペアを対象に、12語から40語程度のITサポートおよび人事関連の対話コーパスを用いています。OpenAIのWhisperを含む最新のフロンティアモデルや大規模音声言語モデル（LALM）など7つのシステムを比較した結果、言語ペアや単語の埋め込み長によって認識精度に大きな差が生じることが明らかになりました。

従来、多くの商用ASRは単一の「主要言語」を指定して認識を行うため、コードスイッチングが発生すると認識率が著しく低下する課題がありました。今回の公開データにより、実務環境に近い多言語混在条件下でのエラー率（WER）の定量化が可能となり、音声インターフェースの実装判断における具体的な指標が提供されます。

Related tools

この記事に関連するおすすめツール

比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。

AI 開発 High intent

AI コーディング支援を強く打ち出せる。AI・backend・frontend 記事との親和性が高い。

Cursor を見る

LLM API API spend

LLM 導入の比較対象として出しやすい。生成 AI 記事からの遷移先として意図が合いやすい。

生成 AI API spend

Claude 系の検討読者に刺さりやすい。安全性や長文処理の文脈と相性が良い。

Anthropic を見る

フェレット記者の用語メモ

LALM

LLMに音声理解の機能を統合した大規模音声言語モデルのことだよ。従来のASRと翻訳機を繋ぐ構成より文脈理解に強いけど、プロンプトでの言語指定が甘いと勝手に他言語で要約を始める『ハルシネーションの多言語版』が起きるのが落とし穴。推論コストの重さも考慮しないと本番投入で詰むよ。

比較: Whisper

WER

音声認識の正確さを測るワードエラー率という指標で、数値が低いほど優秀だよ。単純な置換だけでなく、不要な語の挿入や脱落もカウントされる。一見低スコアでも、専門用語や製品名の1文字違いで致命的な誤動作を招くから、実務では固有名詞の認識率を別で評価しないと現場で使えない判定を食らうよ。

比較: CER

#asr #servicenow #huggingface #benchmark #multilingual

出典: Hugging Face Blog

要点を短く整理して掲載しています。詳細は出典を確認してください。

次のニュースを見る出典を開く

この記事は役に立ちましたか？

朝の要約メール待機リスト

毎朝7時に「今日の3本」をメールで受け取る（先行導入）。

関連記事

Native-speed vLLM transformers modeling backend

backend 2026/7/8

Native-speed vLLM transformers modeling backend

Hugging Face Blogでバックエンド関連の更新があり、API互換性と処理性能への影響範囲が示されました。

#huggingface #ai #models

IBM Research、Javaのフレームワーク移行に特化した評価指標ScarfBenchを公開

backend 2026/6/30

IBM Research、Javaのフレームワーク移行に特化した評価指標ScarfBenchを公開

AIエージェントによるEnterprise Javaのフレームワーク移行精度を測るScarfBenchが公開されました。既存のバグ修正ベンチマークとは異なり、ビルドシステムやランタイム依存関係の解決…

#java #ai #benchmark

Hugging Face、エージェント性能を独自ツールで評価するベンチマーク手法を公開

ai 2026/6/18

Hugging Face、エージェント性能を独自ツールで評価するベンチマーク手法を公開

AIエージェントの評価指標として、最終回答だけでなく推論プロセス全体を計測する手法が提案されました。transformersライブラリを例にした検証では、モデルがライブラリをバイパスしてロジックを再…

#huggingface #llm #agent