{site_name}

オペレーションを進化させる
現場のWEBマガジン
音声認識の勢力図が変わる!?GoogleとMicrosoftの音声認識APIの比較
  • #音声認識

DIGITAL

宮本知宜

2022.01.27

(まもなく2月ですが)新年あけましておめでとうございます。本年も現場ドリブンをよろしくお願い致します。

さて、当社が提供させていただいている、音声認識を搭載したクラウド型IP-PBX:Omnia LINK(オムニアリンク)は、まさに音声認識の勢力図を変えるのではないかという、Microsoft社のAzure(以下、「Azure」)のエンジンを搭載しました。Omnia LINK(オムニアリンク)は、元々、Google社のGoogle Cloud Platform (以下、「GCP」)のSpeech to TextのAPIを採用していました。

「GCP」と「Azure」の音声認識API:Speech の両方を搭載することとなりましたが、この両エンジンはそれぞれ一長一短があり、なかなか甲乙つけ難い実力を発揮してくれており、今回はこの音声認識エンジンの特徴や違いについてご紹介していきたいと思います。

なぜ、Omnia LINKは当時「GCP」のSpeech to Textを採用したか

日本のコンタクトセンター市場で、音声認識が活用されたセンセーショナルなニュースが飛び交ったのは、2015年、みずほ銀行がIBMのWatsonを使い、オペレーター支援のソリューションとしてリアルタイムにFAQをリコメンドする仕組みを入れたことでした。2014年頃から、メガバンクが相次いでWatsonのコールセンター活用を発表し、第3次AIブームが加速した印象がありました。

Omnia LINKは2017年2月16日にリリースしましたが、リリース当初から音声認識の『標準実装』を謳っていました。これは、クラウド型のIP-PBXとしては業界では最後発だった為、なんらかの尖った機能を搭載したいという想いがありました。その答えの一つが『音声認識』でした。そして、この音声認識のAPIを提供しているプロバイダーで検証しようと考えました。  

ただ、当時はWatsonや日本市場では老舗のAmiVoiceも、基本的にはオンプレミスでの提供が主流で、音声認識のAPIをデベロッパーに公開している企業は、ニュアンス社(iPhoneのsiriやロボットのPepperで採用)か「GCP」しかありませんでした。そして、その中で日本語の認識率が最も高かった「GCP」のAPIを採用し、2017年11月にリアルタイムの音声認識機能を標準搭載し、サービスリリースしました。

このリリースでOmnia LINKが実現したかったことは…

①    システムインテグレーションすることなく、すぐに使える音声認識
②    膨大な教師データが必要なチューニングからの解放
③    リアルタイムでの音声認識がもたらすSV支援とオペレーター支援の世界

でした。

みずほ銀行のリリースから約2年。コンタクトセンターでのAI活用や音声認識をより一般化し「高くて手が届かない」ものから「あって当たり前」を実現する世界へと、今日まで追い求めてきました。

ただ、「GCP」のAPIにも弱点がいくつかありました…

なぜ、GCP/Azureの二刀流にしたか

音声認識を使いこなす為には、業務上の用語を辞書登録する必要があります。例えば、『お客様番号』という業務用語があったとすると、音声認識のエンジンは『お客様』と『番号』を別の単語として認識してしまいますが、『お客様番号』という一つの単語であるということを辞書登録することで、一つの単語としての変換をしてくれるようになります。

ただ、GCPはこの辞書の機能がイマイチでした。(一応辞書登録のインターフェースは作っていましたが、反映されるものとされないものがあったのです。)その為、あまり専門用語の多くないBtoCのコンタクトセンターでは活用いただけましたが、BtoBのコンタクトセンターでは専門用語や難解な業界用語が頻発するため、なかなか実用的ではないのが現状でした。

そこで、次の音声認識エンジンの候補を検討し始めた頃、WatsonはWatsonAPIをリリースし、AmiVoiceもAPIの提供を開始し、GCP以外のAWSやAzureといったクラウドのメガプラットフォーマーも次々と日本語対応した音声認識のAPIを提供し始めました。

検証や研究をしていく中で、

 ・コスト
 ・大量のトラフィック時のAPIで音声を投げた際のレスポンス
 ・日本語の認識率の高さ

といった評価をしていく中で、AzureのAPIが圧倒的に高い結果を叩き出しました。

さらに、AzureのAPIは辞書登録の機能が非常に優秀であり、専門用語や固有名詞等、登録するとすぐに変換してくれます。そして、Azureがもうひとつ優れている点は「周囲の雑音に強い」ことです。

これまでは、周囲の雑音が大きいとなかなか認識できなかったり、誤変換されたりすることが多く、お客様の発話やノイズキャンセリング機能が無いヘッドセットを使っているコンタクトセンターでは実用性に乏しい側面もありましたが、辞書登録でチューニングしたいニーズを実現すべく、Azureのエンジンも実装することになりました。

GCP vs Azure音声認識3番勝負

今回、それぞれに特徴や強みがあるGCPとAzureでテーマを決めた認識率の3番勝負をやってみました。

①    1回戦:住所対決
まず、GCPとAzureの音声認識で住所の発話で勝負させてみました。発話する住所は難住所の方がわかりやすいので、静岡県静岡市清水区蒲原町(かんばらちょう)を組み込んだシナリオにしました。





②    2回戦:専門用語対決
続いて、GCPとAzureの音声認識で専門用語を伴う発話で勝負させてみました。化粧品通販業務で出てきそうな用語を集めました。




③    3回戦:固有名詞(有名人の名前)対決
最後に、みなさんご存じの有名人の名前を発話して対決してみました。




GCP vs Azure音声認識3番勝負の結果

GCPとAzureの3番勝負の結果、それぞれの強みや特徴を垣間見ることができました。

①    1回戦:住所対決
GCPの方がしっかりと認識できていました。Azureも難住所の部分はしっかりと認識していたものの、番地の「-」の“の”と発音される部分が抜けてしまいました。

②    2回戦:専門用語対決
GCPは、角層を一瞬「格闘」と変換しましたが、前後の流れからしっかりと「角層」に戻せました。一方Azureは「各相」と変換してしまいましたが、セラミドや皮脂、NMFはしっかりと変換していました。

③    3回戦:固有名詞(有名人の名前)対決
木村拓哉さんと中居正広さんのSMAPコンビは両エンジン共にしっかりと変換できていましたが、Azureは「工藤」を「駆動」、「千堂」を「1000堂」と誤変換してしまいました。

今回は辞書登録無しで勝負させてみましたが、Azureの辞書機能を活用することで補完できる部分も多くあると思います。


<辞書登録画面イメージ>


GCP vs Azure音声認識の特徴まとめ

今回は検証結果の一部をご紹介しましたが、色々なシナリオで検証した結果、それぞれのエンジンの特徴をまとめてみました。


個人的には、業務の特性ごとにそれぞれのエンジンを使い分けることで、それぞれのエンジンの特徴を十分享受できると考えています。

例えば、専門用語が多用される業務であればAzureを採用した上で、しっかりと辞書登録を活用することで実用に耐えうるものと思いますし、配達先等の住所をヒアリングする業務であれば、GCPを採用頂くことで難住所でもしっかりと住所を認識することができます。

実用性を前提とした音声認識元年は2021年だったのかもしれないと思うほど、昨年から多くのお問合せを頂き、また導入数を伸ばすことができました。

Omnia LINKでは、業務ごとに使用する音声認識エンジンを切り替えることができます。そして、無償PoCでそれぞれの認識率を皆さんの実際の業務でのトークで検証頂くことも可能です。

2022年、新たな目標を掲げていらっしゃるセンターもあると思いますが、ぜひ皆さんのセンターでもこの音声認識を活用して後処理の削減、VoCの分析、FAQの改善等に取り組んではいかがでしょうか。

ビーウィズが提供するクラウドコンタクトセンターシステム(クラウドPBX)『Omnia LINK』は、音声認識機能を搭載し、お客様との会話のリアルタイムテキスト化をはじめ、コンタクトセンターでのAI活用を促進いたします。

コールログの残し忘れや聞き取りミスを抑止し、通話録音を聞き返す手間も省け、オペレーターの生産性を大幅に向上させます。    


詳しい資料は、以下からご覧いただけます。
https://www.bewith.net/gemba-driven/download/entry-126.html


関連記事