音声認識って本当に使えるの？と思っている皆さんへ

百発百中ではないまでも、十分使える音声認識

最近では、iPhoneの”Siri”や、Androidの”OK Google”、スマートスピーカーの普及などが相まって音声認識が身近なものになってきています。

私は日々、Omnia LINKというコールセンターの声認識を活用したソリューションを提案していますが、関心の高いお客様からはこのようなご質問をいただきます。

「認識精度はどれくらいなのか？」

「方言って、ちゃんと認識できるのか？」

「うちの会社は結構専門用語が多いけれど変換できるのか？」

この3つは、必ずと言っていいほど聞かれます。
その度に私は「百発百中ではないまでも、十分使えるレベル」とお答えしていますが、なかなか言葉だけでは伝わりにくいですね。

そこで今回は、よくある質問３つについて実際に、Google Cloud Speech-To-Textで、どのように認識できるのかを試してみました。
文中に掲載している動画は、実際に喋っている内容をそのままキャプチャしていますので、ぜひ音声を聞きながらご覧ください。

パターン１：認識精度はどれくらいなのか？

まずはGoogle Cloud Speech-To-Textの認識精度についてです。
読書大好き文学女子のOさんに、夏目漱石の「吾輩は猫である」の冒頭の一部を読んでもらいました。

ご覧いただきますと、かなりのスピードで認識され、結果についても”獰悪(どうあく)”→”得”、”別段”→”仏壇”など若干の間違いはあるものの、かなり正確に変換できています。

ここで注目していただきたいのが、00:29辺りの「しかも後で聞くとそれは処世という人間の中で一番得な種族であったそうだ」という文章です。
”処世”ではなく”書生”が正解ですが、しばらくすると0:36あたりで、ちゃんと”書生”に再変換されています。

Google Cloud Speech-To-Textは、ただ単に音声を認識して単語に変換するのではなく、ディープラーニングを活用しAIが前後の文脈を理解して”意味のある文章”に変換しています。これによって「百発百中ではないまでも、十分使えるレベル」を実現しています。

パターン２：方言って、ちゃんと認識できるのか？

方言をAIは認識するか、というお問い合わせも多いです。出来れば津軽弁のような特徴的な方言で試したかったのですが、私の周りに青森県出身の人がいなく者がおらず、私が津軽弁を喋っても嘘っぽくなってしまうので諦めて、今回は兵庫県出身でバリバリの関西弁を喋るMさんと一緒に、地元のお好み焼き宅配専門店『OKOTAKU(おこ宅)』に電話注文するというシナリオで試してみました。

ちなみに、『OKOTAKU(おこ宅)』というお店はMさんが考えた架空のお店で実在しません。

三丁目のハマダさんの認識結果ですが、「注文したいんやけど」、「分からへんわ」、「よろしゅうたのんます」など関西弁を正確に認識しています。
このように方言は認識できるものであれば、ちゃんと平仮名に変換をしてくれます。

ただ、「方言って、ちゃんと認識できるのか？」というご質問は　「方言を標準語に訳すこと」を指している場合は、将来的には可能かもしれませんが、現時点では難しそうですね。

パターン3：専門用語は変換できるのか？

こちらも、よくご質問頂いただくテーマですが、“専門用語”が何を指しているのかによります。
例えば、企業名、製品名、サービス名等のGoogle検索でヒットするような固有名詞であれば高い確率で認識できますが、社内や業界内でだけ使われるような略語は流石に難しいです。
以前、医療関係のお客様にロールプレイングをして頂いただいたのですが、この業界では「皮下注射」のことを”ひかちゅー”と略すらしく、何回か試しましたがどうしても”黄色いキャラクター”になってしまいました。
さて、今回ですが本来であれば、製品名やサービス名などの固有名詞を使って試してみたかったのですが、なかなか選定が難しく、よくある社内の会話というシナリオで試してみました。

タナカさんのように日頃からカタカナ語を使う上司が、皆さんの社内にもいらっしゃるのではないでしょうか？
今回は、ちょっとイラッとくるくらいにマシマシにして喋ってみたのですが、結果をご覧頂いただくと多少の間違いはあるものの、「ブレスト(ブレインストーミング)」、「デフォルト」、「テンパってる」、「営業マター」、「アジェンダ」など正しく変換されています。
個人的には、よくわからないカタカナ語をAIが正しい日本に置換してくれたらいいのですが、それはまだ難しそうですね。

コールセンターでの音声認識

今回の3つの例をご覧いただきました通り、現状の音声認識が「百発百中ではないまでも、十分使えるレベル」であることがおわかりいただけたのではないでしょうか？
Google Cloud Speech-To-Textのワードエラー率(単語が正しく聞き取れなかった割合)は日々改善されていますので認識精度はこれからも更に向上していきますが、それでも残る課題としては、お電話頂いただくお客様のシチュエーションです。
例えば、携帯電話の電波が届きづらく、しかも交通量の多い場所からお電話頂いただいた場合など、人の耳でも聞き取りづらいような時、お客様に「お客様の声が聞き取りづらく、音声認識が出来ないので静かな場所からおかけ直し下さい」とは流石に言えないですね。
しかしながら、このような場合の対処方法は簡単です。それは”オペレーターが復唱する”ことです。コールセンターで使っているヘッドセットは、ノイズキャンセル機能や指向性タイプのマイクが実装されたものが多くありますので、音声認識結果も向上します。テキストとして残したい重要な部分はオペレーターが復唱することで正しく認識することが出来ます。

音声認識の特長を正しく理解し、活用することで皆さんの業務における生産性は今よりも向上するのではないでしょうか。
今回、ご紹介させていただきました音声認識機能搭載クラウド型IP-PBX「Omnia LINK」を試してみたいという方がいらっしゃいましたら、お気軽にお問い合わせください。
最後までお読みいただき、有難うございました。

本当に使える音声認識「Omnia LINK」を開発・販売しています。
Omnia LINK（オムニアリンク）は、クラウド型IP-PBXを基盤としたコールセンター向けトータルテレフォニーソリューションです。
基本の通話・管理機能はもちろん、AIを利用した通話音声のリアルタイムテキスト化や、FAQリコメンデーションなど次世代機能を提供します。在宅コールセンターにも対応しています。

その他関連サービス