
音声認識とはコンピューターに音声を自動認識させる技術です。
人間が発する音声をコンピューターに理解させることで、話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
私たちにとって身近な音声認識はスマホの音声入力ですが、実は、現在さまざまな業界において新たなソリューションとして実用化が進んでいるのが音声認識です。
例えば、以下のようなシーンで音声認識は既に活用が始められています。
音声認識は近年、企業や行政など特別なシーンだけでなく、スマートフォンでの音声入力やスマートデバイスなど様々なシーンで日常的にも使われるようになってきました。
今後はますます、音声認識技術はあらゆるシーンにおいてスタンダードになっていくと考えられます。
特に、2020年代以降のコンタクトセンター(電話やメールに加え、SNS、チャットなど幅広いコミュニケーションチャネルを利用して、顧客と企業を結ぶ部署を指す。以前は電話コミュニケーションのみだったので、コールセンターと呼ばれており、現在でもコールセンターで表現されている所も多い。)では音声認識がスタンダードになってきています。
そこで本記事では、いま大きな注目を集めている「音声認識」について、基礎知識から解説します。
本記事のポイント
- 音声認識の基本がわかる
- コンタクトセンターへの導入メリットを把握できる
- 音声認識を導入するうえでの注意点まで解説
「音声認識の概要をキャッチアップしたい」
「自社にとって導入の価値があるのか見極めたい」
…という方におすすめの内容となっています。この解説を最後までお読みいただければ、あなたは「音声認識で何ができるのか」はもちろん、その必要性まで理解できるようになります。
導入の注意点も解説しているので、導入の際には失敗を回避できるはずです。
では、さっそく音声認識の解説を始めましょう。
目次
1.音声認識とは
まず音声認識の基礎知識から解説します。
1-1.音声認識とはコンピューターに音声を自動認識させる技術
冒頭でも触れましたが、音声認識とは「コンピューターに人間の音声を自動認識させる技術」のことです。
人間が発する音声をコンピューターに取り込んで解析し、話し言葉をテキスト(文字)に変換して表示したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
音声認識は、行政から医療や顧客対応の現場までさまざまなシーンで活用されていますが、多くの人にとってイメージしやすいのは「スマホの音声認識」です。
あなたがお持ちのスマートフォンにも、音声認識機能があるのではないでしょうか。
スマホのマイクに向かって話しかけるだけでスマホが話した言葉を認識し、テキストに変換してくれる便利な機能です。ここにも、音声認識の技術が活用されています。
1-2.音声認識の仕組み
まずは音声認識の仕組みについて解説します。
音声認識は、最先端のデジタル技術を活用し、「声の情報」と「言語の情報」を密接に組み合わせて実現しています。
人間の音声には、“言語”としての内容のほかに、性別、年齢、話し方の癖、発音の個性、言葉遣いなど多数の情報が含まれており、それらは人によって・場面によって多種多様に変化します。
音声認識はディープラーニング(深層学習)などの最先端のデジタル技術を活用し、「音響モデル」と「言語モデル」を組み合わせることでより正確な認識を行います。
以下は音声認識の仕組みのイメージ図です。
人間が言葉を発声すると、それをコンピューターが認識して解析し、テキストに変換します。
解析・変換のプロセスでは、声の情報と言語の情報を統計処理した膨大なデータ量の“辞書”が重要な役割を担います。
▼ 音声認識を支える要素
音響モデル | 周波数成分、時間変化の解析などによって、その声が何かを判別する |
言語モデル | 日本語として適切な文字列や単語列を判断する |
発音辞書 | 音響モデルの情報と言語モデルを結び付ける |
音声に含まれる周波数など“声の情報”を解析した「音響モデル」、
日本語のテキストを多く集めて“正しい文法の情報”を解析した「言語モデル」、
音響モデルの情報と言語モデルを結び付けるために使われる「発音辞書」の3つが密接に組み合わされた結果、人間の音声がテキストに変換されるという仕組みになっています。
1-3.音声認識の活用シーン
音声認識は、具体的にどんなシーンで活用されているのでしょうか。音声認識の実用例を見てみましょう。
▼ 音声認識の実用化例
・スマートフォンやタブレットの音声入力 |
音声認識の活用で最も身近な例としては、先にも触れたスマートフォンやタブレットなどの端末への音声入力が挙げられます。音声入力機能をONにしてマイクに向かい話しかけると、音声認識によって言葉をテキストに変換する機能です。
「Hey Siri」「OK, Google」「Alexa」などの呼びかけでおなじみの音声アシスタントやスマートスピーカーも、音声認識によって成り立っています。
さらには、行政・医療・企業の業務の場でも、音声認識の実用化が進んでいます。
なかでも特に注目したいのが「音声認識によるコンタクトセンターでの応対支援」です。
コンタクトセンターについて詳しくは、第5章でも詳しく解説します。
2.音声認識の3つの効果
音声認識を導入することで、どのような効果が期待できるのでしょうか?
この章では音声認識がもたらす効果として、以下の3つのポイントについて解説します。
1.業務効率化が可能 |
それぞれについて見ていきましょう。
2-1.業務効率化が可能
音声認識を導入することで、業務効率化が可能となります。
例えば、第1章でも紹介した実用例をもう一度ご覧ください。
・スマートフォンやタブレットの音声入力 |
このように音声認識を行うことで、日常的に音声を使う機会が多い業種に関しては、音声を文字に起こす作業がなくなり大幅な業務効率化が可能となります。
コンタクトセンターに音声認識システムを導入した場合についてもう少し詳しく掘り下げてみます。
音声認識システムを導入すると、例えば以下のようなことが可能となります。
・オペレーターの正確な応対を自動サポートできる |
音声認識を導入していない場合、オペレーターは1つ1つの問合せに対して必要な情報をマニュアルで探しながら対応することとなります。
そのため、場合によっては時間がかかってしまい顧客を待たせてしまうことも考えられます。
しかし音声認識のシステムを導入することで、問い合わせの音声をAIが自動的に解析し、必要な応対を自動的にサポートするといったことも可能です。
この場合、音声認識を導入しない場合に比べて大幅な業務効率化が可能となります。
また、オペレーターは問い合わせが終わるとその都度対応の記録を残すことが一般的です。内容によってはそうした後処理に時間がかかってしまい、対応件数を増やすことができなくなることもあります。
音声認識を導入すると、会話から自動的にレポートを作成するといったことも可能となります。
このように、音声認識は様々なケースにおいて業務効率化を実現してくれるツールと言えるでしょう。
2-2.人員不足の解消
音声認識を導入することで業務効率化を実現した結果、人員不足の解消が可能となります。
これまでは手作業により行ってきた業務を音声認識が担うことにより、人的リソースを使わずに業務を行うことが可能となるためです。
例えばこれまで会議の議事録を従業員に依頼していた場合。
会議の音声を録音したデータを耳で聞きながら、手作業で議事録を作成したのでは数時間がかかってしまいます。
もしも音声認識を導入することでこの作業を数十分に短縮できれば、その分リソースを割く必要はなくなります。
また、企業にとって貴重なリソースを温存し、より重要な業務に充てることで利益を生むことも可能です。
特に音声に関わる作業が膨大なコンタクトセンターなどでは、その効果を顕著に感じられるでしょう。
2-3.細やかな顧客のデータ分析が容易になる
音声認識を導入することで、これまでよりも細やかな顧客のデータ分析が容易になるでしょう。
音声認識により顧客の声をデータ化することで、これまでにできなかった分析や解析を行うことが可能となるためです。
音声データのテキスト化はこれまでは手作業で行うことが一般的でした。
そのため、顧客からコンタクトセンターなどに寄せられた問い合わせなどの声は手作業で行った対応履歴を基に分析するしかありませんでした。
手作業で行った対応履歴ではオペレーターによって表現が違ったり、要約の仕方も統一しきれないという課題がありました。
しかし、音声認識機能を活用することで、膨大な音声データをテキスト化することが可能です。
テキスト化を行うと必要なワードや情報を抽出することが可能となり、細かなデータ分析や顧客分析を行うことも可能となるのです。
結果的に、これまでは見えていなかった新しいニーズや知見を発見できるため、商品開発やマーケティングにおいても利点が大きいと言えるでしょう。特にコンタクトセンターにおいては効果を実感しやすいことと思います。
コンタクトセンターにおいて音声認識の導入にどのような効果があるか、より詳しい内容に関しては、「6.コンタクトセンター(コールセンター)に音声認識を導入した5つの活用例」で解説していますので、参考にしてみてください。
3.音声認識の課題
このように音声認識には様々な利点がありますが、一方で音声認識には課題も残されています。それは、音声認識技術の精度が完璧ではない点です。
音声認識は、以下のようなシーンでの活用で制度が下がってしまうことがあります。
・訛りや方言の多い会話の認識 |
例えば音声認識を活用して音声データをテキスト化する場合。
現代の音声認識の技術ではかなりの精度でテキスト化を行えるとはいえ、人間が耳で聞いてテキスト化する精度に比べたら若干劣ってしまうと言うのが現実です。
原則として標準語で構築されているため、方言やなまりを正確に認識できないといった点も課題と言えるでしょう。
ただし、録音環境を整えるなどの工夫でそうした課題はある程度の解決が可能です。
また音声認識の技術は日々進歩しているため、今後はより精度が高まっていくことは間違いがないでしょう。
4.音声認識を導入する流れ
そこではこの章では、実際に音声認識を導入する流れについて詳しく解説していきます。
具体的には、以下のステップで導入を行います。
・音声認識サービスを選ぶ |
それぞれについて解説していきます。
4-1.音声認識サービスを選ぶ
まず初めに、音声認識を提供するサービスを選びます。
音声認識は企業が行いたい業務のために独自に開発することが困難で、音声認識を提供するサービスを選んで導入することが一般的です。
具体的には、以下の2つのポイントを意識してサービスを選ぶことをおすすめします。
・実績があり信頼できるサービスを選ぶ |
4-1-1.実績があり信頼できるサービスを選ぶ
音声認識サービスを選ぶ際には、実績が十分にあり動作が安定している、信頼できるサービスを選びましょう。
これは音声認識に限ったことではなく、あらゆるシステムにいえることですが、開発された直後の新しいシステムは、プログラムの不具合や誤りがあることがあり、安定していません。
そうした新しいシステムの場合は運用開始と同時に、さまざまな不具合に見舞われるリスクがあるため、注意しましょう。
一方、導入実績が十分なシステムの場合は、運用の過程で不具合などが発見され改善されていますので、安定しています。
AIのデータ学習も進んでいることが多いため精度も高く、エラーが出にくいと言えるでしょう。
具体的には、
- 提供開始から数年以上が経過している
- 導入実績数が多い
このようなシステムを選ぶのがおすすめです。
4-1-2.現場にとっての使い勝手(UI)を重視する
音声認識サービスを選ぶ2つめの注意点は「現場にとっての使い勝手(UI)を重視する」ことです。
システムの選定は、システム担当者や経営者が中心になって行うことが多いのですが、忘れてはならないのは実際に使う担当者にとっての使い勝手の良さです。
どんなにシステム担当者や経営者にとって魅力的に見えるシステムでも、活用する現場で使いにくければ期待する効果を実感することはできません。
対策として、デモ版やテスト版を利用して、実際にシステムを利用するコンタクトセンター(コールセンター)管理者やオペレーター自身が動作確認したうえで、現場が納得するシステムを選定しましょう。
現場目線で使いやすいシステムを導入すれば、期待した効果をしっかりと発揮できます。
4-2.録音環境を整備する
音声認識サービスの選定を行ったら、実際に運用を始める前に録音環境の整備を行いましょう。
第三章でも解説した通り、音声認識は録音環境によってその精度に大きな差が生まれます。
具体的には、以下のような業務環境を整えることをおすすめします。
議事録や医療現場など | コールセンター(顧客対応)の場合 |
・雑音のない静かな部屋を用意する | ・オペレーター側には静かな部屋を用意 |
音声認識を活用するデータを録音する場合には、なるべく静かな部屋で行うようにしましょう。
また、録音の際にはヘッドセットを活用するなど、マイクと口元をなるべく近づけるようにすると綺麗に収録できます。
特にコンタクトセンターで活用する場合には、同じ部屋内で多くのオペレーターが声を出して対応するといったことが予想されます。
大きな声を出さなくても明確に録音できるように、ヘッドセットの導入は必須と言えるでしょう。
4-3.音声認識を実行し業務の中で改善を行う
音声認識サービスの選定を行い、録音環境を設定したらいよいよ音声認識を実行していきましょう。
会議の録音データを音声認識で文字起こしをしたり、コンタクトセンターでの会話をきちんと音声認識するかどうかを実際に活用して見ましょう。
業務に音声認識を取り入れたら、業務を行いながら必要に応じて改善を加えます。
実際に活用してみると、どれくらいの精度で音声認識ができるかが分かってきます。
それに応じて録音環境を整えてみるなど改善しながら業務を進めていきましょう。
5.コンタクトセンター(コールセンター)で音声認識の活用が注目される
音声認識の活用シーンはさまざまありますが、そのなかでも注目されているのが「コンタクトセンター(コールセンター)」での音声認識です。
ではなぜコンタクトセンターでは音声認識が特に注目されているのでしょうか。
その背景としては以下のようなことが考えられます。
・人手不足への対応が急務である |
5-1.人手不足への対応が急務のコンタクトセンター(コールセンター)業界
まず第一に挙げられるのは、コンタクトセンター(コールセンター)業界は人手不足が続いており、人手不足への対応が急務であるということです。
現在、日本では少子高齢化にともなってあらゆる業界で人手不足が課題となっていますが、もともと離職率が高い業種として知られるコンタクトセンターでは、特に人手不足が加速しています。
よって、コンタクトセンターの業務は、できるだけ効率化・合理化しなければなりません。コンタクトセンター業務の効率化・合理化において、大きな期待を寄せられているのが音声認識の技術です。
コンタクトセンターで音声認識を導入すると、具体的にどんな利点があるのかはこの後「6.コンタクトセンター(コールセンター)に音声認識を導入した5つの活用例」にて詳しく解説しますが、音声認識によってコンタクトセンター業務は大幅な効率化が可能です。
5-2.カスタマー・エクスペリエンス(CX)向上のカギを握る顧客応対
コンタクトセンターにおいては、顧客応対の質が直接カスタマーエクスペリエンス(CX)向上のカギを握っている、と言う点も挙げられます。
音声認識は、カスタマーエクスペリエンス(CX、顧客体験)を向上させるために大変有益な技術なのです。
カスタマーエクスペリエンス(CX、顧客体験)とは、顧客と企業やブランドが接触するあらゆる接点での「顧客体験」のことを指します。
顧客は商品を利用するときだけでなく、購入前から購入後に至るまでを通して「顧客体験」として認識します。
コンタクトセンターに音声認識を導入すると顧客対応への質があがり、結果としてカスタマーエクスペリエンスが向上するのです。
例えば、音声認識は以下のようなことを可能とします。
・顧客への対応が迅速になる |
音声認識を活用することで、顧客への対応が迅速になるだけでなく、それぞれの顧客のニーズに合わせた対応も可能となります。
音声認識で音声データを解析する機能を活用すれば、人材育成の資料作成や顧客分析の精度も高まります。
これにより、顧客対応の品質が向上し、結果としてカスタマーエクスペリエンスの向上も望めることとなるでしょう。
コンタクトセンター(コールセンター)への音声認識の導入効果は、単なる効率化にとどまらないのです。
近年では、あらゆるビジネスにおいて、顧客体験の質を向上させる重要性が叫ばれています。
そして、顧客と直接 “音声” でのコミュニケーションを交わすコンタクトセンターでのCXが、顧客に与えるインパクトは非常に大きなものです。
「CXを向上させたいのなら、真っ先にコンタクトセンターから着手すべき」といっても過言ではありません。
まとめると、コンタクトセンターへの音声認識の導入は、「人手不足に対応する」という “受け身・防御施策”の一面と、「次世代のCXを実現する」という “攻め・攻撃施策” の 両面を持っていることから、コンタクトセンターでの音声認識活用に注目が集まっているのです。
カスタマーエクスペリエンス(CX、顧客体験)についてより詳しくお知りになりたい方は、「顧客体験(CX)とは?基礎知識とコンタクトセンターのCX評価手法」をぜひ参考にしてみてください。
6.コンタクトセンター(コールセンター)に音声認識を導入した5つの活用例
音声認識システムはコンタクトセンター(コールセンター)運営においても利点が多く、導入がおすすめです。この章では、具体的に導入することで可能となる5つの活用例をご紹介します。
・オペレーターの正確な応対を自動サポート |
それぞれ見ていきましょう。
※補足:音声認識システムにはさまざまな種類がありますが、ここではコンタクトセンター向け音声認識ソリューション『transpeech(トランスピーチ)』を導入した場合を例にご紹介します。
6-1.オペレーターの正確な応対を自動サポート
まず、オペレーターの正確な応対を自動サポートできるという事例を見ていきましょう。
音声認識によって、顧客およびオペレーターの音声をコンピューターに認識させると、認識した言葉に応じて、オペレーターに適切なサポートを自動的に行うことが可能です。
例えば、“「支払い方法」というキーワードを検知したら、オペレーターのパソコン画面上に、支払い方法に関するナレッジを自動ポップアップさせる”といった設定ができます。
あるいは、“「解約」というキーワードを検知したら、トークスクリプトを自動表示させ注意喚起する”といった使い方をすれば、品質の維持と迅速化が見込めます。
このように、ナレッジ支援、クレームなどの早期発見、トーク遵守の注意喚起など、さまざまな目的に応じて音声認識を活用すると、オペレーターの負担を軽減しながら良質なCX(顧客体験)を実現できるのです。
実際にトランスコスモスが運用しているキャンペーン系の受注窓口においても、新人比率が高くなるため、注文受付時に聴取事項を失念してしまい、顧客に再確認発信をするという事象が生じていました。
そこでナレッジ支援を導入し、注文に繋がるキーワードが発話された際に、聴取事項をポップアップしていくことで聴取漏れに関する差し戻しはなくなり、流れに沿って聴取したことから後処理時間も20%削減することができました。
6-2.複数の応対をリアルタイムに把握してリスク回避
次に、複数の応対をリアルタイムに把握してリスク回避できる」という事例もみてみましょう。
これまで、1人のコンタクトセンター(コールセンター)管理者(SV、スーパーバイザー)がリアルタイムにモニタリングできるのは1人のオペレーターのみでした。どの通話をモニタリングするかは、管理者の経験や勘によって判断されています。
一方、通話を音声ではなくテキスト化して把握できる音声認識なら、一度に複数のモニタリングが可能です。
NG応対をアラート通知したり、オペレーターから支援要求を受けたりすることもできます。
音声認識があれば、オペレーターの“応対の品質”だけでなく、管理者の“マネジメントの質”を向上できるため、リスクの高い通話の早期発見・介入が可能になり、トラブル予防や早期収束に効果的です。
トランスコスモスが運用している保険加入勧奨のアウトバウンド業務においても、管理者稼働がひっ迫しており獲得見込み顧客をリアルタイムに把握することが難しく、機械損失が発生していました。
そこでtranspeechを導入し、座席表を活用したテキストモニタリングにより多くのオペレーターを同時にサポートすることが可能となりました。
対応履歴がテキスト化されていることで効率的に顧客ニーズを把握することができ、管理者が応対状況を把握したうえで適切な指示が出せるようになっためより獲得率が126%、売上も112%向上し、お客様企業の売上拡大に貢献しています。
6-3.応対の課題を可視化して効果的な人材育成を可能にした
3つめの事例は応対の課題を可視化して効果的な人材育成を可能にした例です。
オペレーターを教育するうえでは、“課題への気付き”が欠かせませんが、自分の課題を客観的に把握するのは難しい現状があります。
そこで音声認識によって応対内容を可視化すると、具体的にどんな課題があるのか、客観的に解析できます。
教育担当の管理者にとっては、自分の主観ではなく音声認識による解析を根拠に自信を持って指導ができますし、オペレーター自身も視覚的に理解することで、改善に取り組みやすくなります。
実際にトランスコスモスの来店促進業務において、新人オペレーターの早期育成が課題となっていましたが、品質評価のための録音聞き起こし作業に時間が掛かり、モニターフォローやフィードバックの時間がとりづらいという事象が発生していました。
そこでtranspeechを導入し、新人オペレーターに対し即時に指導・フィードバックを行いました。テキストデータを活用することによりオペレーターへのフィードバック機会を増加することができ、新人育成期間を従来の2/3まで短縮することに成功しています。
コンタクトセンターにおけるオペレーターの教育に関して、より詳しい内容は「コールセンターのオペレーター教育で取り組むこと3つを解説」を参考にしてみてください
6-4.履歴記録などの後処理時間を短縮
4つめのは履歴記録などの後処理時間を短縮した例です。
従来のコンタクトセンター(コールセンター)では、オペレーターが通話内容を要約して履歴を保管する作業が行われていました。
音声認識を導入すると、応対テキストをそのまま履歴として残すことができるので、大幅な時間短縮が可能です。
履歴記録のほかに、例えば社内の他部署(システム部、マーケティング部)などに顧客の要望を共有する際など、テキストデータを活用することで処理効率が向上します。
トランスコスモスの修理受付業務では、応対ログの入力内容が煩雑で、特に新人オペレーターは後処理に時間要しており、応答率が低下していました。
そこでtranspeechを導入し、再入電の可能性が少ない案件については応対ログのキーワードと応対ログが保存されているURLをCTSに張り付ける運用に変更し、後処理時間の大幅短縮に成功しています。
導入から2か月で新人オペレーターの後処理時間を約100秒短縮し、CPHも12件向上しました。
コンタクトセンターでの後処理時間の短縮に関して、より詳しい内容は「コールセンターにおける後処理時間の短縮方法6つを徹底解説」でも解説していますので、ぜひ参考にしてみてください。
6-5.VOC(顧客の声)を収集・解析
5つめはVOC(顧客の声)を収集・解析できるした例です。VOC (Voice of Customer、自社商品やサービスに対する顧客の意見や感想のこと)の活用は、CX(顧客体験)の質を高めるうえで欠かせません。
顧客の声を抽出し、コンタクトセンター(コールセンター)のあり方はもちろん、商品の改良や新サービスの開発など、ビジネスの根幹に反映させることが、CXの質を高めていきます。
企業全体にとって貴重な知的財産であるVOCを蓄積するためには、音声認識が不可欠です。
音声認識を導入すれば、通話内容をテキストのデーターベースとして保有できるため、さまざまな解析をかけたり、特定キーワードで検索をかけたりすることが可能になります。
音声認識によって収集したVOCを解析し活用すれば、業績改善へと直結します。
コンタクトセンターにおけるVOCの活用方法などより詳しい内容は、「コールセンターとVOC|その収集・分析・活用法や便利なツールを解説」でも解説していますのでぜひ参考にしてみてください。
コンタクトセンターの音声認識の導入をお考えならお問い合わせください |
![]() コンタクトセンターの音声認識の導入をお考えなら、ぜひトランスコスモスにお問合せください。トランスコスモスでは、transpeechの導入から活用までノンストップでの支援を行っています。 音声認識によって次世代のコンタクトセンターを構築することは、すなわち“次世代の高レベルな顧客対応を実現すること”に直結します。音声認識というデジタル技術を活用し、自社の顧客にワンランク上のCX(顧客体験)を提供しましょう。 具体的な取り組みについて検討したい方は、お気軽にお問い合わせメールフォームからご連絡いただければ幸いです。 コンタクトセンターを知り尽くした専門スタッフが、貴社に最適なソリューションをご提案いたします。 |
まとめ
音声認識とはコンピューターに音声を自動認識させる技術です。
人間が発する音声をコンピューターに理解させることで、人間の話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
音声認識の仕組みには最先端のデジタル技術であるディープラーニング(深層学習)が使われており、多種多様な「声の情報」「言語の情報」を解析することで、音声をテキストへ変換しています。
音声認識の活用シーンとしては、以下が挙げられます。
・声による端末の操作(スマートスピーカーなど) |
特に注目したいのが「コンタクトセンター」での音声認識の活用で、人手不足への対応やカスタマー・エクスペリエンス(CX)向上の効果が期待できます。
音声認識をコンタクトセンターへ導入するメリットは以下のとおりです。
1.オペレーターの正確な応対を自動サポートできる |
音声認識を導入するうえでの注意点として以下が挙げられます。
1.導入実績があり安定しているシステムを選ぶ |
音声認識の活用によって次世代のコンタクトセンターを構築することが求められます。