オペレーションを進化させる
現場のWEBマガジンpowered by Bewith

まるで人間!?音声合成技術の現在地

  • #音声合成
  • #コールセンター
  • #Withコロナ

DIGITAL

宮本知宜

2021.03.10

こんにちは。寒暖差が激しい日々から、だいぶ暖かい日が多くなってきました。しかし、花粉症の方々にはとってもつらい季節でもあります。

かくいう私も、小学校5年生から約30年近く花粉症と付き合ってきました。毎日花粉症の飛散予測を見ては一喜一憂する日が、私の場合はゴールデンウィークを終わるころまで続きます。そしてこの季節だけは雨の予報がとてもうれしい情報になります。

さて、私には欠かせないこの花粉情報を『音声合成』を使って流すという取組が3月からFMヨコハマ で始まりました。NTTテクノクロス社の技術協力で声優、エッセイストの池澤春菜さんの声をナチュラルに合成音声化したAIアナウンサー「池澤春菜AI」が毎日花粉情報をお届けするそうです。

音声認識と音声合成

改めて、『音声合成』とは何か。
端的に言えば、人間の音声を人工的に作り出す事になります。

前述のような、実際の人の声を学習させ、あたかもその方が話す声色で色々な発話をテキストから行う事ができたりします。多くの使われ方としては、テキスト音声合成:TTS(Text to Speech)としてAIスピーカーや電車の車内アナウンス、音声翻訳機でも使われています。

以前現場ドリブンでも取り上げた、「音声認識って本当に使えるの?と思っている皆さんへ」 の『音声認識:STT(Speech to Text)』とは対極の技術となりますが、『音声認識』と『音声合成』は非常に親和性が高い技術となっています。


例えば、明石家さんまさんが出演しているCMでおなじみの、ポケトー ク(ソースネクスト社)は、以下の流れで『音声認識』と『音声合成』の両方の技術が活かされています。


この『音声合成』は近年目覚ましい進化を遂げています。

『音声合成』の進化と提供されているサービスとは

音声合成の歴史は古く、コンピューターを用いた音声合成が開発されたのは1950年代と言われていますが、長きにわたって、所謂、機械的なロボット声が主流で、なかなか人の発話までは難しい時代が続いていました。

ただ、ここ数年は目覚ましい進歩を遂げており、ヒトが話す言葉に限りなく近づいています。

日本では、エーアイ社やHOYA社によって様々な音声合成のサービスが提供されており、身近なところでは、テレビ東京で放送されている『モヤモヤさまぁ~ず』のナレーション担当のショウ君 もHOYA社の音声合成作られています。(ただ、ショウ君はあえて、機械的な声となっています)

HOYA社は音声合成の声優事務所 という取組もしており、興味深いです。

エーアイ社は、有名なアニメやゲームのキャラクターの声で自由な発話ができるサービスを提供していたり、サンプルの声で学習させたうえで音声合成が作れるソフトの提供も行っています。つまり、例えば横浜流星さんの声のサンプルを集めて音声合成が出来るようにすると、名前を呼んでもらったり、愛を囁いてもらったりも技術的にはできるという事です。

こんな『音声合成』ですが、近年コンタクトセンターでも多く使われるようになってきました。

コロナ禍が後押ししたコンタクトセンターでの『音声合成』活用

コンタクトセンターでの『音声合成』活用は時間外アナウンスなどの音声ガイダンスに多く使われています。

以前は、コンタクトセンターの音声ガイダンスや問合せ窓口を番号選択するガイダンスは、声色の美しいオペレーターさんに雑音の入らない部屋で文章を読んでもらい、録音し、PBXに設定をしていました。

ただ、オペレーターさんに録音をお願いする場合は、シフトや業務の閑散タイミングを意識したり、退職してしまった場合は別のオペレーターさんにお願いをしなければならなかったりと中々クイックな対応が出来ませんでした。

又、録音した音源をPBXに設定するにしても、システム部門への申請やPBXの保守会社への設定依頼をする事でコストや時間がかかってしまう事が多く、急な設定変更への対応は難しい状況でした。そして、今もそういった現場は多く存在するかもしれません。

ビーウィズで提供しているOmnia LINKは、いち早くGoogleの音声合成API:Text-to-Speechを搭載し、システムに案内文を入力するだけできれいな音声を作ることができる機能が搭載されていました。

しかしながら、昨年まではヒトの声を録音した音源を設定するお客様が多く、なかなか音声合成は使われる機会が少ない状況でしたが、コロナ禍でその利用状況は一変しました。

理由は、在宅オペレーションをしているセンターの増加、稼働を減らして運営している為繋がりにくくなっているセンターの増加、急遽コロナの影響に対応する為のセンターの立ち上げ等、録音をして設定依頼をする時間が無い為、音声合成で急いで音声ガイダンスを作りたいというニーズが爆発的に増えたためです。

その一部をご紹介いたします。


個人的には、事例①は斬新だなと思いました。あえて、こちらから在宅オペレーターで運営している事を宣言してしまう事で、お客様のハードルを下げるというアプローチは新しいなと思いました。

実際、この事例のお客様にお話を伺うと、ペットのワンちゃんが吠えてしまったり、宅配便のインターホンが鳴ってしまったりと、生活音が入ってしまっても、お客様からは「在宅でも対応してくれてありがとう」というこれまでのコンタクトセンターのサービスレベルではありえない状況に対して、親近感を持っていただく事ができたと伺いました。

それでは、Googleの音声合成がどの程度ヒトの発話に近づいているか、ご紹介したいと思います。

音声合成の発話を聞いてみよう

先ほどの事例①~③のテキストから音声合成をすると次のような発話になります。




そして、この音源はほんの数十秒で作成できてしまいます。


<操作方法/画面イメージ>

『音声合成』のメリットと今後の展望

『音声合成』の世界はまだまだ発展途上ではありますが、今後ますます活用シーンは増えてくると考えます。英語の発話レベルは既にヒトを超えていると言われており、GoogleのSTTはアメリカではアナウンサー以上に流暢という評価を得ています。日本語の発話レベルも今後更に高まる事が期待されますが、改めてメリットを纏めてみます。


そして、この『音声合成』の技術は、音声botとしても既にサービス提供されています。

音声botは通常、オペレーターさんがご案内する内容を音声合成を活用して、自動で応答ができる仕組みです。まだ、単一的な機能や一問一答しか対応できないものは多くありますが、近い将来、無人コンタクトセンターが出来る日も夢ではないかもしれません。

ビーウィズでも、seekassistという音声認識を活用した、FAQのリコメンデーションツールを提供しています。このFAQの内容を読み上げる音声合成を組み合わせる事で理論上は無人コンタクトセンターが出来ると考えていますが、まだまだサービス提供までは時間がかかりそうです。日々研究を続けていきたいと思います。

まだ、第4波がくる可能性や、台風や地震の際のリスクヘッジの検討も必要かもしれません。皆さんのセンターでも音声合成の導入を検討してみてはいかがでしょうか。

Omnia LINK(オムニアリンク)は、クラウド型IP-PBXを基盤としたコールセンター向けトータルテレフォニーソリューションです。基本の通話・管理機能はもちろん、AIを利用した通話音声のリアルタイムテキスト化や、FAQリコメンデーションなど次世代機能を提供します。在宅コールセンターにも対応しています。

以下のようなお客様にお勧めです。
 ・オンプレ型のPBXからクラウド型に移行したい
 ・通信費や保守費用などのコストを削減したい
 ・毎月使う分だけライセンスフィーを支払いたい
 ・場所にとらわれず、電話が取れる環境を整えたい

詳しい資料は、以下からご覧いただけます。
https://www.bewith.net/gemba-driven/download/entry-126.html

その他関連サービス

■クライアント企業に合わせた、最適運用を実現
コールセンター・コンタクトセンター

■クライアント企業のマーケティング活動を最適化
アウトバウンド

■お客様のニーズに寄り添い、お客様に合わせたミライを提供
インバウンド


関連記事