← 一覧へ戻る
ai 重要度 4/5 2026/6/4 12:24:58

ServiceNow、121個のツール連携を検証する音声エージェント評価基盤EVA-Bench 2.0を公開

ServiceNow、121個のツール連携を検証する音声エージェント評価基盤EVA-Bench 2.0を公開

ServiceNowの研究部門は、エンタープライズ向けの音声AIエージェントを評価するためのデータセット「EVA-Bench 2.0」を公開しました。この基盤は、ITサービス管理、カスタマーサービス、人事(HR)の3つの主要ドメインを網羅しており、合計121個のツールと213個の具体的な対話シナリオで構成されています。特定の語彙や複雑なワークフローへの適応力を測定することで、実運用環境に近い精度評価を実現します。

従来の評価指標がテキストベースの汎用的な対話に依存していたのに対し、EVA-Bench 2.0は「音声ファースト」の設計原則を採用しています。実際の電話対応で発生頻度が高いタスクを抽出し、航空券の再予約や複雑な人事規定の照会といった35種類以上の実務ワークフローを定義しました。これにより、アルファベットと数字の組み合わせによる確認コードの処理など、音声対話特有の失敗パターンを詳細に検証できるようになりました。

多言語サポートも含まれており、開発者は独自の音声エージェントを多様なエンタープライズシナリオに対してベンチマークすることが可能です。一方で、全てのビジネスワークフローが音声ベンチマークに適しているわけではなく、実際の通話パターンに基づいたシナリオ選択がなされているため、適用範囲が現実の電話対応業務に即しているかを確認するプロセスが重要となります。

Related tools

この記事に関連するおすすめツール

比較検討しやすい導入候補を優先して表示しています。一部リンクは広告・アフィリエイトを含む場合があります。

出典: Hugging Face Blog

要点を短く整理して掲載しています。詳細は出典を確認してください。

朝の要約メール待機リスト

毎朝7時に「今日の3本」をメールで受け取る(先行導入)。

関連記事