18.220.160.216

【活用事例あり】音声認識とは?仕組み、4つの導入効果を徹底解説

音声認識とはコンピューターに音声を自動認識させる技術です。

「音声認識とは」を説明した図

人間が発する音声をコンピューターに理解させることで、話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。

私たちにとって身近な音声認識の例として、スマートフォンの音声入力が挙げられますが、実は、現在さまざまな業界において新たなソリューションとして実用化が進んでいる技術なのです。

例えば、以下のようなシーンで音声認識は既に活用が始められています。

「音声認識が活用されているシーン」を説明した図

音声認識は近年、企業や行政など特別なシーンだけでなく、スマートフォンでの音声入力やスマートデバイスなど様々なシーンで日常的にも使われるようになってきました。

今後はますます、あらゆるシーンにおいてスタンダードな技術になっていくと考えられます。特に、2020年以降のコンタクトセンター(コールセンター)では音声認識がスタンダードになってきています。

そこで本記事では、いま大きな注目を集めている「音声認識」について、基礎知識から解説します。

本記事のポイント

  • 音声認識の基本がわかる
  • コンタクトセンターへの導入メリットを把握できる
  • 音声認識を導入するうえでの注意点まで解説

「音声認識の概要をキャッチアップしたい」
「自社にとって導入の価値があるのか見極めたい」

という方におすすめの内容となっています。この解説を最後までお読みいただければ、「音声認識で何ができるのか」はもちろん、その必要性まで理解できるようになるでしょう

導入の注意点も解説しているので、導入の際には失敗を回避できるはずです。
では、さっそく音声認識の解説を始めましょう。

目次

1.音声認識とは

まず音声認識の基礎知識から解説します。 

1-1.音声認識とはコンピューターに音声を自動認識させる技術

「音声認識とは」を説明した図

冒頭でも触れましたが、音声認識とは「コンピューターに人間の音声を自動認識させる技術」のことです。 

人間が発する音声をコンピューターに取り込んで解析し、話し言葉をテキスト(文字)に変換して表示したり、音声の特徴から発声者を識別したります。

音声認識は、行政から医療や顧客対応の現場までさまざまなシーンで活用されていますが、多くの人にとってイメージしやすいのはスマートフォンの音声認識」です。

「身近な音声認識はスマートフォン」のイメージ画像

あなたがお持ちのスマートフォンにも、音声認識機能があるのではないでしょうか。

スマートフォンのマイクに向かって話しかけるだけで話した言葉を認識し、テキストに変換してくれる便利な機能です。ここにも、音声認識の技術が活用されています。 

1-2.より高精度の「AI音声認識」とは

この音声認識の技術は、日進月歩で進化を続けています。

中でも近年画期的だったのは、AI(=人工知能)の導入です。

AI音声認識は、人間の脳を模した「ニューラルネットワーク」という仕組みによって「ディープラーニング(=深層学習)」を行い、音声を認識する精度を格段に向上させることに成功しました。

また、音声を単にテキスト化するだけでなく、音声から感情にかかわる特徴を抽出し、データベース化する「感情分析」や、トラブルにつながるリスクがある「要注意ワード」を検出、アラートを出すこともできます。

これにより、コンタクトセンターで顧客対応する際に、オペレーターが顧客の感情の変化をリアルタイムで把握することができたり、トラブルになりそうな気配があればスーパーバイザーが対応を指示して問題発生を未然に防いだりすることが可能になります。

その結果、応対品質を向上させ、顧客満足度アップにつなげることもできる、非常に有用な技術なのです。

2.音声認識の仕組み

では、その音声認識は、どのような仕組みで音声をテキスト化するのでしょうか?

簡単にいえば、音声認識は、最先端のデジタル技術を活用し、「声の情報」と「言語の情報」を密接に組み合わせて実現しています。音声認識はディープラーニング(深層学習)などの最先端のデジタル技術を活用し、「音響モデル」と「言語モデル」を組み合わせることでより正確な認識を行います。

以下は、音声認識の仕組みのイメージ図です。

音声認識の仕組みのイメージ図

流れでいえば、以下の4つのステップを経て行われます。

1)音響分析:音声データをコンピュータが認識しやすく変換する
2)音響モデル:音声データから音素を抽出する
3)発音辞書:音素から単語を認識する
4)言語モデル:単語を文章化する

それぞれのステップを説明しましょう。

2-1.音響分析:音声データをコンピューターが認識しやすく変換する

まず、録音された音声や、マイクを通してリアルタイムで受け取る音声を、コンピューターが認識しやすいデータに変換する「音響分析」を行います。

音声は本来アナログ信号ですので、それをデジタル信号に変換するのです。

具体的な方法としては、音の周波数、強弱、抑揚、音と音の間隔、時系列などの特徴を数値化します。

この数値を「特徴量」と呼びますが、これを抽出して、コンピューターが認識できるデータの形に整えます。

このときに、雑音などのノイズがあると、コンピューターが正確に認識できない恐れがあるので、ノイズを除去する作業も行われます。

できれば音声を録音する段階で、なるべく雑音が入らないようにするといいでしょう。

2-2.音響モデル:音声データから音素を抽出する

次に、抽出された特徴量が、どの「音素」にどれくらい近いかを見つけ出す「音響モデル」という作業に移ります。

音素とは、音声の最小単位で、日本語の場合は以下の3種からなっています。

・母音×5:「a」「i」「u」「e」「o」
・子音×15:「k」「g」「s」「z」「t」 他
・その他:撥音「ん」、促音「っ」、長音「ー」

たとえば「ありがとう」という音声は「a-r-i-g-a-t-o」という音素からなっていますが、コンピューターは特徴量のデータひとつひとつがどの音素に近いかを探し出し、「arigato」という音声だと判断するのです。

この判断のもととなるのは、コンピューターがあらかじめ学習した膨大な人数・量の音声データです。

そのパターンの中から、特徴量がなるべく近いものをマッチングさせることで、どの音素かがわかる仕組みになっています。

2-3.発音辞書:音素から単語を認識する

音素の構成がわかったら、次に「発音辞書」を用いて音素と単語とをマッチングさせます。

「発音辞書」は、音声とそれが表す単語を照らし合わせることができるデータベースです。

コンピューターはこれを使って、「arigato」という音素を「ありがとう」という意味のある言葉に変換していくことができます。

ただ、同音異義語がある単語、たとえば「katei」の場合などは、「かてい」という単語であることはわかりますが、言葉の意味は、「家庭」「過程」「仮定」「下底」などが候補になるでしょう。

2-4.言語モデル:単語を文章化する

最後に、「言語モデル」を用いて発音辞書で認識した単語をつなぎ合わせて、日本語として自然な文章を組み立てます。

言語モデルには、ある単語のあとに続く確率が高い単語は何か、といったデータが膨大に蓄積されています。

それに照らし合わせることで、同音異義語があってもどれがもっとも使われる可能性が高いかを判断でき、正確な日本語の文章としてテキストデータ化することができるのです。

このように、音声データをもとに、最終的に文章として組み立てたテキストデータを出力するまでが、音声認識の流れです。

3.音声認識でできること

ここまで音声認識の仕組みについて解説してきました。

では、この技術を用いて私たちは何ができるのでしょうか?

その用途は多岐にわたりますので、中でも代表的なものを以下に挙げてみました。

・音声データの文字起こし
・多言語での通訳、翻訳
・音声のみによる文字入力
・音声による電子機器の操作
・音声合成によるテキスト読み上げ
・電話対応

3-1.音声データの文字起こし

最もシンプルな使い道は、音声データをテキスト化する「文字起こし」です。

会議の内容を議事録にしたり、医師がカルテに記入したり、コンタクトセンター(コールセンター)で顧客とのやりとりを記録したりと、多くのシーンで活用できます。

話したことがそのままテキストデータにできるため、人力でキーボードを打って入力するという手間がなくなります。

3-2.多言語での通訳、翻訳

音声認識は、翻訳ソフト、翻訳アプリにも活用されています。

多言語を学習、辞書を搭載することで、多様な国の言葉をリアルタイムで翻訳できるのが利点です。

外国語話者との会議でも、通訳なしでコミュニケーションが取れたり、議事録を自動作成できたりと活躍するでしょう。

3-3.音声のみによる文字入力

テキストデータの作成を、キーボードなしに行うことも可能です。

例えば、移動の車の中でメールの文面を作成する、工場などで作業をしながら記録を残す、といったシーンでは、声に出すだけでテキスト化されるので便利です。

また、キーボードでの入力が苦手な人や、障害があってキーボード操作が難しい人なども、自由にPCが使えるようになります。

3-4.音声による電子機器の操作

声だけで電子機器を操作することもできます。

代表的なのはスマートスピーカーでしょう。

「Googleアシスタント」や「Alexa」などは、話しかけて指示するだけで、家電のスイッチをオンオフしたり、音楽をかけたり、知りたいことを検索してくれたりします。

デジタル技術で快適な住環境をつくる「スマートホーム」の実現にも、音声認識は欠かせない技術だと言えるでしょう。

3-5.音声合成によるテキスト読み上げ

音声からテキストを自動作成するのとは反対に、テキストをコンピューターの音声で読み上げることも可能です。

たとえば、テキストデータをコンピューターにスキャンさせると、音声を合成してその内容を読み上げます。

目が不自由な人が、文章を読む必要があるときなどに使われる機能です。

3-6.電話対応

AI音声認識であれば、人間のかわりに電話に応対することもできます。

コンタクトセンターなどの中には、かかってきた電話に自動応答する「ボイスボット」を導入しているところもあります。

ボイスボットは、かかってきた電話の内容を音声認識によって解析し、それに対する適切な回答をAIが作成、それを合成音声で読み上げることで、人間と「会話」します。

ボイスボットの仕組み

録音した音声を流すIVRとは違い、個別の問い合わせ内容に対してより適した回答を提供できるのが特徴です。

4.音声認識の活用分野・活用例

このように音声認識は、すでにさまざまな分野で実用化されています。

その主な活用分野、活用例をいくつかあげてみましょう。

・コンタクトセンター(コールセンター)
・書類作成
・議事録作成

4-1.コンタクトセンター(コールセンター)

コンタクトセンターでは、音声認識を活用できるシーンが多々あります。

顧客とのやりとりを自動でテキストデータ化する

これまではオペレーターが対応後に内容を要約して手入力していましたが、音声認識を活用することで後処理の工数削減、より多くの応対が可能になります。正確な記録が残るため、トラブル防止にもつながります。

また、アナログなやりとりがデータベース化 されることで、統計化、分析がしやすくなり、応対品質の向上や、製品・サービスの改善にも役立てることができます。

顧客の会話内容を感情分析する

1-2.より高精度の「AI音声認識」とは」で前述したように、音声から感情にかかわる特徴を抽出する「感情分析」で、応対中にリアルタイムで顧客の感情を的確に把握できるようになり、それに応じた最適な対応が可能になります。

応対中に「要注意ワード」を検出、アラートを出す

こちらも「1-2.より高精度の「AI音声認識」とは」で触れたように、トラブルにつながりやすい「要注意ワード」をあらかじめ登録し、それが会話中に出てきた際にはオペレーターやスーパーバイザーにアラートを出します。

アラートを受け、トラブルを未然に回避することができるようになります。

ボイスボットが顧客対応する

3-6.電話対応」で解説した、AIが人間のように顧客と会話するボイスボットを導入、簡単な問い合わせはボイスボットで完了できるようになります。

これらを実施することで、より多くの問い合わせ件数に対応できるようになる、顧客の待ち時間を減らせる、業務を効率化できるといったさまざまなメリットが得られます。

その結果、顧客満足度の向上や、業績アップが期待できるでしょう。

4-2.書類作成

製造業や建設業では、現場で記録を取ったり、書類に記入して確認したりすることが多くあります。そのたびに作業の手を止めて記入したり、あるいは帰社後にPC入力したりといった手間が発生し、現場のストレスになっているケースも多いでしょう。

また医療現場では、カルテの記入、看護記録、診断書や紹介状の作成などでも音声認識が活用されています。

音声認識を利用すれば、作業をしながら並行して必要なデータ入力ができるようになり、作業効率を大きく向上させることができるのです。

4-3.議事録作成

業種や分野にかかわらず活用できるのは、議事録の作成です。

これまでの議事録は、会議を録音した音声データを聴きながら、人の手でテキストデータに打ち直したり、メモと記憶をもとに要約して記録したりしていました。

しかしそのやり方では時間もかかりますし、タイプミスなども発生します。

その点音声認識であれば、リアルタイムで文字起こしすることも可能です。

AI音声認識を用いることで、正確性も保てるでしょう。

5.音声認識の4つの効果

音声認識を導入することで、どのような効果が期待できるのでしょうか?

この章では音声認識がもたらす効果として、以下の4つのポイントについて解説します。     

1.業務効率化が可能になる
2.人員不足解消される
3.顧客データの細かな分析が容易になる
4.入力ミスが減り業務精度が向上する

それぞれについて見ていきましょう。

5-1.業務の効率化が可能になる

音声認識を導入することで、業務効率化が可能となります。例えば、第1章でも紹介した実用例をもう一度ご覧ください。

・音声データの文字起こし
・多言語での通訳、翻訳
・音声のみによる文字入力
・音声による電子機器の操作
・音声合成によるテキスト読み上げ
・電話対応

このように音声認識を行うことで、日常的に音声を使う機会が多い業種に関しては、音声を文字に起こす作業がなくなり大幅な業務効率化が可能となります。

5章では音声データの文字起こしについて、コンタクトセンターに音声認識システムを導入した場合についてもう少し詳しく掘り下げてみます。

音声認識システムを導入すると、以下のようなことが可能となります。

・オペレーターの正確な応対を自動サポートできる
・履歴記録などの後処理時間を短縮できる など

音声認識を導入していない場合、オペレーターは1つ1つの問合せに対して必要な情報を探しながら対応することとなります。ナレッジドキュメントが準備されていてもそのドキュメントを見つけて開くまでに時間がかかってしまうこともあります。

そのため、場合によっては顧客を待たせてしまうことも考えられます。

しかし音声認識のシステムを導入することで、問い合わせの音声をAIが自動的に解析し、ナレッジをポップアップさせたり必要な応対を自動的にサポートするといったことも可能です。この場合、音声認識を導入しない場合に比べて大幅な業務効率化が可能となります。

また、オペレーターは問い合わせが終わるとその都度対応の記録を残すことが一般的です。内容によってはそうした後処理に時間がかかってしまい、対応件数を増やすことができなくなることもあります。

音声認識を導入すると、会話から自動的にレポートを作成するといったことも可能となります。

このように、音声認識は様々なケースにおいて業務効率化を実現してくれるツールと言えるでしょう。

5-2.人員不足が解消される

音声認識を導入することで業務効率化を実現した結果、人員不足の解消が可能となります。

これまでは手作業により行ってきた業務を音声認識が担うことにより、人的リソースを使わずに業務を行うことが可能となるためです。

例えばこれまで会議の議事録を従業員に依頼していた場合。

会議の音声を録音したデータを耳で聞きながら、手作業で議事録を作成したのでは数時間がかかってしまいます。
もしも音声認識を導入することでこの作業を数十分に短縮できれば、その分リソースを割く必要はなくなります。

また、企業にとって貴重なリソースを温存し、より重要な業務に充てることで利益を生むことも可能です。

特に音声に関わる作業が膨大なコンタクトセンターなどでは、その効果を顕著に感じられるでしょう。

5-3.顧客データの細かな分析が容易になる

音声認識を導入することで、これまでよりも細やかな顧客のデータ分析が容易になるでしょう。

音声認識により顧客の声をデータベース化することで、これまでにできなかった分析や解析を行うことが可能となるためです。

音声データのテキスト化はこれまでは手作業で行うことが一般的でした。そのため、顧客からコンタクトセンターなどに寄せられた問い合わせなどの声は手作業で行った対応履歴を基に分析するしかありませんでした。

手作業で行った対応履歴ではオペレーターによって表現が違ったり、要約の仕方も統一しきれないという課題がありました。

しかし、音声認識機能を活用することで、膨大な音声データをテキスト化することが可能です。テキスト化を行うと必要なワードや情報を抽出することが可能となり、細かなデータ分析や顧客分析を行うことも可能となるのです。

結果的に、これまでは見えていなかった新しいニーズや知見を発見できるため、商品開発やマーケティングにおいても利点が大きいと言えるでしょう。特にコンタクトセンターにおいては効果を実感しやすいことと思います。

コンタクトセンターにおいて音声認識の導入にどのような効果があるか、より詳しい内容に関しては、「9.コンタクトセンター(コールセンター)に音声認識を導入した4つの活用例」で解説していますので、参考にしてみてください。

5-4.入力ミスが減り業務精度が向上する

さらに、音声認識を利用することで、人が手入力するよりもミスを減らすことができます。

手入力すると、どうしてもタイプミス、誤字脱字といったミスが発生します。

特に、数値データは正確でなければならないので、入力した内容をダブルチェックするなど、余計な業務工数をかけているケースもあるでしょう。

その点音声認識は、発声したそのままをテキスト化しますので、ヒューマンエラーが入り込む余地を減らすことができるのです。

ただ、あいまいな発音だったりまわりに雑音が多かったりすると、音声認識の正確性は下がります。そのため、明瞭にゆっくり発音すること、精度の高い音声認識を利用することなどを心がけなければなりません。

もちろんそれでも、音声認識も誤認識することはあります。しかし上記のような適切な使い方をすることでミスを減らし、業務精度を高めることができるでしょう。

6.音声認識の課題

このように音声認識には様々な利点がありますが、一方で音声認識には課題も残されています。それは以下のような点です。

・雑音があると精度が下がる
・方言などは認識しにくい
・AI音声認識の場合、学習データを用意しなければならない

6-1.雑音があると精度が下がる

音声認識は、録音データやマイクがリアルタイムで拾った音声をテキスト化することができます。

しかしこのときに雑音が入ると、音声を認識する精度が下がってしまい、間違った単語、文章を生成する恐れがあります。

また、複数人が同時に話したことも、正確に認識できない場合があるでしょう。そのため、認識精度を確保できるように、以下のような点に留意してください。

・できるだけ雑音のない環境で利用する
・高性能のマイクを使う
・ノイズを低減させるソフトを利用する
・会議などではひとりずつ発言し、複数人の発言が重ならないようにする など

6-2.方言などは認識しにくい

また、方言やなまり、一般的ではない言葉(特定の業界用語やスラングなど)も認識できない可能性があります。

標準語でなら認識できる言葉も、アクセントが変わるとわからなくなってしまうかもしれません。

このような、人によって異なる発声、会話の特性に合わせて個別にチューニングし、どんな話し方でも正しく認識できる技術の開発が待たれています。

現状でこの問題には、顧客が一般的ではないアクセントをしていた場合にはオペレーターが一般的なアクセントで復唱するなど対処が必要です。

6-3.AI音声認識の場合、学習データを用意しなければならない

さらに、AI音声認識の場合、精度を高めるには膨大な学習データが必要ですが、それを用意するのは簡単ではありません。

AI音声認識は、数千人、数万人といった人のさまざまな話し声のデータを学習することで、その中からパターンを見つけ出して判断の基準にします。

画像認識の場合は、このような画像の学習データセットがインターネットなどで多数入手できるため、AIに学ばせて精度を上げることが可能です。

画像認識に比べて音声認識の学習データのセットは多くないため、十分な精度を確保できるだけのデータを集めることが課題となっています。

無償で公開されている音声データセットもありますが、今後はさらに利用できるものが増えることが期待されます。

7.音声認識を導入する流れ

そこではこの章では、実際に音声認識を導入する流れについて詳しく解説していきます。
具体的には、以下のステップで導入を行います。
 

・音声認識サービスを選ぶ
・録音環境を整備する
・音声認識を実行し業務の中で改善を行う

それぞれについて解説していきます。

7-1.音声認識サービスを選ぶ

まず初めに、音声認識を提供するサービスを選びます。

音声認識は企業が行いたい業務のために独自に開発することが困難で、音声認識を提供するサービスを選んで導入することが一般的です。

具体的には、以下の2つのポイントを意識してサービスを選ぶことをおすすめします。

・実績があり信頼できるサービスを選ぶ
・現場にとっての使い勝手(UI)を重視する

実績があり信頼できるサービスを選ぶ

音声認識サービスを選ぶ際には、実績が十分にあり動作が安定している、信頼できるサービスを選びましょう。

 これは音声認識に限ったことではなく、あらゆるシステムにいえることですが、開発された直後の新しいシステムは、プログラムの不具合や誤りがあることがあり、安定していません。

そうした新しいシステムの場合は運用開始と同時に、さまざまな不具合に見舞われるリスクがあるため、注意しましょう。

一方、導入実績が十分なシステムの場合は、運用の過程で不具合などが発見され改善されていますので、安定しています。AIのデータ学習も進んでいることが多いため精度も高く、エラーが出にくいと言えるでしょう。

具体的には、下記のようなシステムを選ぶのがおすすめです。    

・提供開始から数年以上が経過している
・導入実績数が多い

現場にとっての使い勝手(UI)を重視する

 音声認識サービスを選ぶ2つめの注意点は「現場にとっての使い勝手(UI)を重視する」ことです。

システムの選定は、システム担当者や経営者が中心になって行うことが多いのですが、忘れてはならないのは実際に使う担当者にとっての使い勝手の良さです。

どんなにシステム担当者や経営者にとって魅力的に見えるシステムでも、活用する現場で使いにくければ期待する効果を実感することはできません。

対策として、デモ版やテスト版を利用して、実際にシステムを利用するコンタクトセンター(コールセンター)管理者やオペレーター自身が動作確認したうえで、現場が納得するシステムを選定しましょう。

現場目線で使いやすいシステムを導入すれば、期待した効果をしっかりと発揮できます。

7-2.録音環境を整備する     

音声認識サービスの選定を行ったら、実際に運用を始める前に録音環境の整備を行いましょう。

第三章でも解説した通り、音声認識は録音環境によってその精度に大きな差が生まれます。

具体的には、以下のような業務環境を整えることをおすすめします。

議事録や医療現場などコールセンター(顧客対応)の場合

・雑音のない静かな部屋を用意する
・発言者にマイクを活用させるか、マイクを近くに置く
・標準語で会話する

・オペレーター側には静かな部屋を用意
・ヘッドセットを活用する

音声認識を活用するデータを録音する場合には、なるべく静かな部屋で行うようにしましょう。

また、録音の際にはヘッドセットを活用するなど、マイクと口元をなるべく近づけるようにすると綺麗に収録できます。

特にコンタクトセンターで活用する場合には、同じ部屋内で多くのオペレーターが声を出して対応するといったことが予想されます。

大きな声を出さなくても明確に録音できるように、ヘッドセットの導入は必須と言えるでしょう。

7-3.音声認識を実行し業務の中で改善を行う

音声認識サービスの選定を行い、録音環境を設定したらいよいよ音声認識を実行していきましょう。

会議の録音データを音声認識で文字起こしをしたり、コンタクトセンターでの会話をきちんと音声認識するかどうかを実際に活用して見ましょう。

業務に音声認識を取り入れたら、業務を行いながら必要に応じて改善を加えます。実際に活用してみると、どれくらいの精度で音声認識ができるかが分かってきます。

それに応じて録音環境を整えてみるなど改善しながら業務を進めていきましょう。

8.コンタクトセンター(コールセンター)で音声認識の活用が注目される

 

音声認識の活用シーンはさまざまありますが、そのなかでも注目されているのが「コンタクトセンター(コールセンター)」での音声認識です。

ではなぜコンタクトセンターでは音声認識が特に注目されているのでしょうか。

その背景としては以下のようなことが考えられます。

・人手不足への対応が急務である
・顧客応対がカスタマーエクスペリエンス(CX)向上のカギを握っている

8-1.人手不足への対応が急務のコンタクトセンター(コールセンター)業界

第一に挙げられるのは、コンタクトセンター(コールセンター)業界は人手不足が続いており、人手不足への対応が急務であるということです。

現在、日本では少子高齢化にともなってあらゆる業界で人手不足が課題となっており、コンタクトセンターでも同様に人手不足が加速しています。

よって、コンタクトセンターの業務は、できるだけ効率化・合理化しなければなりません。コンタクトセンター業務の効率化・合理化において、大きな期待を寄せられているのが音声認識の技術です。

コンタクトセンターで音声認識を導入すると、具体的にどんな利点があるのかはこの後「9.コンタクトセンター(コールセンター)に音声認識を導入した4つの活用例」にて詳しく解説しますが、音声認識によってコンタクトセンター業務は大幅な効率化が可能です。

8-2.カスタマー・エクスペリエンス(CX)向上のカギを握る顧客応対

「カスタマーエクスペリエンス(CX)」を説明した図

コンタクトセンターにおいては、顧客応対の質が直接カスタマーエクスペリエンス(CX)向上のカギを握っている、と言う点も挙げられます。
音声認識は、カスタマーエクスペリエンス(CX、顧客体験)を向上させるために大変有益な技術なのです。

カスタマーエクスペリエンス(CX、顧客体験)とは、顧客と企業やブランドが接触するあらゆる接点での「顧客体験」のことを指します。
顧客は商品を利用するときだけでなく、購入前から購入後に至るまでを通して「顧客体験」として認識します。

コンタクトセンターに音声認識を導入すると顧客対応への質があがり、結果としてカスタマーエクスペリエンスが向上するのです。

例えば、音声認識は以下のようなことを可能とします。

・顧客への対応が迅速になる
・顧客のニーズに合わせた対応が可能となる
・オペレーターの人材育成の精度が上がる
・顧客の音声データを活用した分析が可能となる

音声認識を活用することで、顧客への対応が迅速になるだけでなく、それぞれの顧客のニーズに合わせた対応も可能となります。

音声認識で音声データを解析する機能を活用すれば、人材育成の資料作成や顧客分析の精度も高まります。

これにより、顧客対応の品質が向上し、結果としてカスタマーエクスペリエンスの向上も望めることとなるでしょう。

コンタクトセンター(コールセンター)への音声認識の導入効果は、単なる効率化にとどまらないのです。

近年では、あらゆるビジネスにおいて、顧客体験の質を向上させる重要性が叫ばれています。
そして、顧客と直接 “音声” でのコミュニケーションを交わすコンタクトセンターでのCXが、顧客に与えるインパクトは非常に大きなものです。

「CXを向上させたいのなら、真っ先にコンタクトセンターから着手すべき」といっても過言ではありません。

まとめると、コンタクトセンターへの音声認識の導入は、「人手不足に対応する」という “受け身・防御施策”の一面と、「次世代のCXを実現する」という “攻め・攻撃施策” の 両面を持っていることから、コンタクトセンターでの音声認識活用に注目が集まっているのです。

カスタマーエクスペリエンス(CX、顧客体験)についてより詳しくお知りになりたい方は、「顧客体験(CX)とは?基礎知識とコンタクトセンターのCX評価手法」をぜひ参考にしてみてください。

9.コンタクトセンター(コールセンター)に音声認識を導入した4つの活用例

音声認識システムはコンタクトセンター(コールセンター)運営においても利点が多く、導入がおすすめです。

この章では、具体的に導入することで可能となる4つの活用例をご紹介します。

・オペレーターの正確な応対を自動サポート
・複数の応対をリアルタイムに把握してリスク回避
・応対の課題を可視化して効果的な人材育成を可能にした
・履歴記録などの後処理時間を短縮

    それぞれ見ていきましょう。

    ※補足:音声認識システムにはさまざまな種類がありますが、ここではコンタクトセンター向け音声認識ソリューション『transpeech(トランスピーチ)』を導入した場合を例にご紹介します。

    9-1.【サービス業】受注窓口で後処理時間を20%削減

    まず、オペレーターの正確な応対を自動サポートできるという事例を見ていきましょう。

    音声認識によって、顧客およびオペレーターの音声をコンピューターに認識させると、認識した言葉に応じて、オペレーターに適切なサポートを自動的に行うことが可能です。

    例えば、“「支払い方法」というキーワードを検知したら、オペレーターのパソコン画面上に、支払い方法に関するナレッジを自動ポップアップさせる”といった設定ができます。

    「ナレッジの自動ポップアップ」のイメージ画像

    あるいは、“「解約」というキーワードを検知したら、トークスクリプトを自動表示させ注意喚起する”といった使い方をすれば、品質の維持と迅速化が見込めます。

    キーワード検知によるトークスクリプトの自動表示を解説した図

    このように、ナレッジ支援、クレームなどの早期発見、トーク遵守の注意喚起など、さまざまな目的に応じて音声認識を活用すると、オペレーターの負担を軽減しながら良質なCX(顧客体験)を実現できるのです。

    実際にトランスコスモスが運用しているキャンペーン系の受注窓口においても、新人比率が高くなるため、注文受付時に聴取事項を失念してしまい、顧客に再確認発信をするという事象が生じていました。

    そこでナレッジ支援を導入し、注文に繋がるキーワードが発話された際に、聴取事項をポップアップしていくことで聴取漏れに関する差し戻しはなくなり、流れに沿って聴取したことから後処理時間も20%削減することができました。

    「従来のオペレーション」と「ナレッジ支援によるオペレーション」を比較した図2

    9-2.【保険業】アウトバウンド業務で獲得率126%UP・売上金額112%UP

    次に、複数の応対をリアルタイムに把握してリスク回避できる」という事例もみてみましょう。

    これまで、1人のコンタクトセンター(コールセンター)管理者(SV、スーパーバイザー)がリアルタイムにモニタリングできるのは1人のオペレーターのみでした。どの通話をモニタリングするかは、管理者の経験や勘によって判断されています。

    一方、通話を音声ではなくテキスト化して把握できる音声認識なら、一度に複数のモニタリングが可能です。

    音声認識により複数人のモニタリングが可能であることを解説した図

    NG応対をアラート通知したり、オペレーターから支援要求を受けたりすることもできます。

    音声認識があれば、オペレーターの“応対の品質”だけでなく、管理者の“マネジメントの質”を向上できるため、リスクの高い通話の早期発見・介入が可能になり、トラブル予防や早期収束に効果的です。

    「従来のオペレーション」と「ナレッジ支援によるオペレーション」を比較した図3

    トランスコスモスが運用している保険加入勧奨のアウトバウンド業務においても、管理者稼働がひっ迫しており獲得見込み顧客をリアルタイムに把握することが難しく、機械損失が発生していました。

    そこでtranspeechを導入し、座席表を活用したテキストモニタリングにより多くのオペレーターを同時にサポートすることが可能となりました。

    対応履歴がテキスト化されていることで効率的に顧客ニーズを把握することができ、管理者が応対状況を把握したうえで適切な指示が出せるようになっためより獲得率が126%、売上も112%向上し、お客様企業の売上拡大に貢献しています。

    9-3.【サービス業】アウトバウンドの新人育成期間を従来の2/3に短縮

    3つめの事例は応対の課題を可視化して効果的な人材育成を可能にした例です。

    オペレーターを教育するうえでは、“課題への気付き”が欠かせませんが、自分の課題を客観的に把握するのは難しい現状があります。

    そこで音声認識によって応対内容を可視化すると、具体的にどんな課題があるのか、客観的に解析できます。

    応対内容可視化による課題の解析例えば、顧客・オペレーターの感情、発話のかぶり、特定キーワードの出現箇所などを見える化することで、応対にどんな問題があるのか、解析できます。

    教育担当の管理者にとっては、自分の主観ではなく音声認識による解析を根拠に自信を持って指導ができますし、オペレーター自身も視覚的に理解することで、改善に取り組みやすくなります。

    「従来のオペレーション」と「ナレッジ支援によるオペレーション」を比較した図4

    実際にトランスコスモスの来店促進業務において、新人オペレーターの早期育成が課題となっていましたが、品質評価のための録音聞き起こし作業に時間が掛かり、モニターフォローやフィードバックの時間がとりづらいという事象が発生していました。

    そこでtranspeechを導入し、新人オペレーターに対し即時に指導・フィードバックを行いました。テキストデータを活用することによりオペレーターへのフィードバック機会を増加することができ、新人育成期間を従来の2/3まで短縮することに成功しています。

    コンタクトセンターにおけるオペレーターの教育に関して、より詳しい内容は「コールセンターのオペレーター教育で取り組むこと3つを解説」を参考にしてみてください。

    9-4.【電気機器業】ACWを約100秒短縮、応答率90%以上を達成

    4つめは履歴記録などの後処理時間を短縮した例です。

    従来のコンタクトセンターでは、オペレーターが通話内容を要約して履歴を保管する作業が行われていました。

    音声認識を導入すると、応対テキストをそのまま履歴として残すことができるので、大幅な時間短縮が可能です。

    音声認識導入により大幅な時間短縮が可能であることを解説した図

    履歴記録のほかに、例えば社内の他部署(システム部、マーケティング部)などに顧客の要望を共有する際など、テキストデータを活用することで処理効率が向上します。

    「従来のオペレーション」と「ナレッジ支援によるオペレーション」を比較した図1

    トランスコスモスの修理受付業務では、応対ログの入力内容が煩雑で、特に新人オペレーターは後処理に時間を要しており、応答率が低下していました。

    そこでtranspeechを導入し、再入電の可能性が少ない案件については応対ログのキーワードと応対ログが保存されているURLをCTSに張り付ける運用に変更し、後処理時間の大幅短縮に成功しています。

    導入から2か月で新人オペレーターの後処理時間を約100秒短縮し、CPHも12件向上しました。

    コンタクトセンターでの後処理時間の短縮に関して、より詳しい内容は「コールセンターにおける後処理時間の短縮方法6つを徹底解説」でも解説していますので、ぜひ参考にしてみてください。

    コンタクトセンターの音声認識の導入をお考えならお問い合わせください

    コンタクトセンターの音声認識の導入をお考えなら、ぜひトランスコスモスにお問合せください。トランスコスモスでは、transpeechの導入から活用までノンストップでの支援を行っています。

    音声認識によって次世代のコンタクトセンターを構築することは、すなわち“次世代の高レベルな顧客対応を実現すること”に直結します。音声認識というデジタル技術を活用し、自社の顧客にワンランク上のCX(顧客体験)を提供しましょう。

    具体的な取り組みについて検討したい方は、お気軽にお問い合わせフォームからご連絡いただければ幸いです。

    コンタクトセンターを知り尽くした専門スタッフが、貴社に最適なソリューションをご提案いたします。

    またtranspeechの特徴やメリットをまとめたソリューションページもご用意しています。是非こちらもご覧ください。

    まとめ

    音声認識とはコンピューターに音声を自動認識させる技術です。

    人間が発する音声をコンピューターに理解させることで、人間の話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。

    音声認識の仕組みには最先端のデジタル技術であるディープラーニング(深層学習)が使われており、多種多様な「声の情報」「言語の情報」を解析することで、音声をテキストへ変換しています。

    特に注目したいのが「コンタクトセンター」での音声認識の活用で、人手不足への対応やカスタマー・エクスペリエンス(CX)向上の効果が期待できます。

    トランスコスモスの音声認識ソリューション transpeech は、音声認識だけでなく
    トークの自動応対チェック・Chat GPTを活用した対話要約AIなど自社開発機能を追加し、7つの機能へ進化
    トランスコスモスの音声認識ソリューション transpeech は、音声認識だけでなく
    トークの自動応対チェック・Chat GPTを活用した対話要約AIなど自社開発機能を追加し、7つの機能へ進化