
音声認識とはコンピューターに音声を自動認識させる技術です。人間が発する音声をコンピューターに理解させることで、話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
私たちにとって身近な音声認識はスマホの音声入力ですが、実は、現在さまざまな業界において新たなソリューションとして実用化が進んでいるのが音声認識です。
例えば、国会の議事録・書き起こしから医療現場のカルテ作成、そしてコンタクトセンター(電話やメールに加え、SNS、チャットなど幅広いコミュニケーションチャネルを利用して、顧客と企業を結ぶ部署を指す。以前は電話コミュニケーションのみだったので、コールセンターと呼ばれており、現在でもコールセンターで表現されている所も多い。)での通話まで、音声認識によって業務の効率化および品質の向上が図られています。
特に、2020年代以降の次世代コンタクトセンターにおいては、音声認識がスタンダードとなっていくと考えられます。
そこで本記事では、いま大きな注目を集めている「音声認識」について、基礎知識から解説します。
本記事のポイント
- 音声認識の基本がわかる
- コンタクトセンターへの導入メリットを把握できる
- 音声認識を導入するうえでの注意点まで解説
「音声認識の概要をキャッチアップしたい」
「自社にとって導入の価値があるのか見極めたい」
…という方におすすめの内容となっています。
この解説を最後までお読みいただき、「音声認識で何ができるのか」およびその必要性を理解いただければと思います。なお、導入の注意点も解説しているので導入の際には失敗を回避のための参考となれば幸いです。
では、さっそく音声認識の解説を始めましょう。
目次
1.音声認識とは
まず音声認識の基礎知識から解説します。
1-1.音声認識とはコンピューターに音声を自動認識させる技術
冒頭でも触れましたが、音声認識とは「コンピューターに人間の音声を自動認識させる技術」のことです。
人間が発する音声をコンピューターに取り込んで解析し、話し言葉をテキスト(文字)に変換して表示したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
音声認識は、行政から医療や顧客対応の現場までさまざまなシーンで活用されていますが、多くの人にとってイメージしやすいのは「スマホの音声認識」です。
あなたがお持ちのスマートフォンにも、音声認識機能があるのではないでしょうか。
スマホのマイクに向かって話しかけるだけでスマホが話した言葉を認識し、テキストに変換してくれる便利な機能です。ここにも、音声認識の技術が活用されています。
1-2.音声認識の仕組み
今まで何気なくスマホの音声認識を使っていた方も多いと思いますが、その仕組みはどうなっているのでしょうか。
人間の音声には、“言語”としての内容のほかに、性別、年齢、話し方の癖、発音の個性、言葉遣いなど多数の情報が含まれており、それらは人によって・場面によって多種多様に変化します。
そのため、人間の音声をコンピューターによって認識するのは、実は簡単なことではありません。
では、どのような仕組みで音声認識を可能にしているのかといえば、ディープラーニング(深層学習)など最先端のデジタル技術を活用し、「声の情報」と「言語の情報」を密接に組み合わせて実現しています。
以下は音声認識の仕組みのイメージ図です。
人間が言葉を発声すると、それをコンピューターが認識して解析し、テキストに変換します。
解析・変換のプロセスでは、声の情報と言語の情報を統計処理した膨大なデータ量の“辞書”が重要な役割を担います。
▼ 音声認識を支える要素
音響モデル | 周波数成分、時間変化の解析などによって、その声が何かを判別する |
言語モデル | 日本語として適切な文字列や単語列を判断する |
発音辞書 | 音響モデルの情報と言語モデルを結び付ける |
音声に含まれる周波数など“声の情報”を解析した「音響モデル」、
日本語のテキストを多く集めて“正しい文法の情報”を解析した「言語モデル」、
音響モデルの情報と言語モデルを結び付けるために使われる「発音辞書」の3つが密接に組み合わされた結果、人間の音声がテキストに変換されるという仕組みになっています。
1-3.音声認識の活用シーン
音声認識は、具体的にどんなシーンで活用されているのでしょうか。
まずは、先にも触れたスマートフォンやタブレットなどの端末への音声入力が挙げられます。音声入力機能をONにしてマイクに向かい話しかけると、音声認識によって言葉をテキストに変換する機能です。
「Hey Siri」「OK, Google」「Alexa」などの呼びかけでおなじみの音声アシスタントやスマートスピーカーも、音声認識によって成り立っています。
さらには、行政・医療・企業の業務の場でも、音声認識の実用化が進んでいます。
▼ 音声認識の実用化例
- 声による端末の操作(スマートスピーカーなど)
- 国会や地方議会の議事録作成
- 医療現場での電子カルテの作成
- 営業日報・報告業務
- テレビ番組の字幕作成
- コンタクトセンター(コールセンター)での応対支援
なかでも特に注目したいのが「音声認識によるコンタクトセンターでの応対支援」です。コンタクトセンターについて詳しくは、次章で解説しましょう。
2.コンタクトセンター(コールセンター)で音声認識の活用が注目される背景
音声認識の活用シーンはさまざまありますが、そのなかでも注目されているのが「コンタクトセンター(コールセンター)」での音声認識です。
その背景を見ていきましょう。
2-1.人手不足への対応が急務のコンタクトセンター(コールセンター)業界
まず第一に挙げられるのは、コンタクトセンター(コールセンター)業界は人手不足が続いており、人手不足への対応が急務であるということです。
現在、日本では少子高齢化にともなってあらゆる業界で人手不足が課題となっていますが、もともと離職率が高い業種として知られるコンタクトセンターでは、特に人手不足が加速しています。
よって、コンタクトセンターの業務は、できるだけ効率化・合理化しなければなりません。コンタクトセンター業務の効率化・合理化において、大きな期待を寄せられているのが音声認識の技術です。
コンタクトセンターで音声認識を導入すると、具体的にどんな利点があるのかはこの後「3. 音声認識をコンタクトセンターへ導入するメリット 」にて詳しく解説しますが、音声認識によってコンタクトセンター業務は大幅な効率化が可能です。
2-2.カスタマー・エクスペリエンス(CX)向上のカギを握る顧客応対
次に非常に重要なのが「コンタクトセンター(コールセンター)への音声認識の導入効果は、単なる効率化にとどまらない」という視点です。
音声認識は、カスタマーエクスペリエンス(CX、顧客体験)を向上させるために大変有益な技術なのです。
近年では、あらゆるビジネスにおいて、顧客体験の質を向上させる重要性が叫ばれています。
そして、顧客と直接 “音声” でのコミュニケーションを交わすコンタクトセンターでのCXが、顧客に与えるインパクトは非常に大きなものです。
「CXを向上させたいのなら、真っ先にコンタクトセンターから着手すべき」といっても過言ではありません。
まとめると、コンタクトセンターへの音声認識の導入は、「人手不足に対応する」という “受け身・防御施策”の一面と、「次世代のCXを実現する」という “攻め・攻撃施策” の 両面を持っていることから、コンタクトセンターでの音声認識活用に注目が集まっているのです。
3.音声認識をコンタクトセンター(コールセンター)へ導入するメリット
音声認識をコンタクトセンター(コールセンター)に導入すると、具体的にどのようなメリットがあるのでしょうか。
1. オペレーターの正確な応対を自動サポートできる
2. 複数の応対をリアルタイムに把握してリスク回避できる
3. 応対の課題を可視化して効果的な人材育成ができる
4. 履歴記録などの後処理時間を短縮できる
5. VOC(顧客の声)を収集・解析できる
それぞれ見ていきましょう。
※補足:音声認識システムにはさまざまな種類がありますが、ここではコンタクトセンター向け音声認識ソリューション『transpeech2.0(トランスピーチ2.0) 』を導入した場合を例にご紹介します。
3-1.オペレーターの正確な応対を自動サポートできる
1つめのメリットは「オペレーターの正確な応対を自動サポートできる」ことです。
音声認識によって、顧客およびオペレーターの音声をコンピューターに認識させると、認識した言葉に応じて、オペレーターに適切なサポートを自動的に行うことが可能です。
例えば、“「支払い方法」というキーワードを検知したら、オペレーターのパソコン画面上に、支払い方法に関するナレッジを自動ポップアップさせる”といった設定ができます。
あるいは、“「解約」というキーワードを検知したら、トークスクリプトを自動表示させ注意喚起する”といった使い方をすれば、品質の維持と迅速化が見込めます。
このように、ナレッジ支援、クレームなどの早期発見、トーク遵守の注意喚起など、さまざまな目的に応じて音声認識を活用すると、オペレーターの負担を軽減しながら良質なCX(顧客体験)を実現できるのです。
3-2.複数の応対をリアルタイムに把握してリスク回避できる
2つめのメリットは「複数の応対をリアルタイムに把握してリスク回避できる」ことです。
これまで、1人のコンタクトセンター(コールセンター)管理者(SV、スーパーバイザー)がリアルタイムにモニタリングできるのは1人のオペレーターのみでした。どの通話をモニタリングするかは、管理者の経験や勘によって判断されています。
一方、通話を音声ではなくテキスト化して把握できる音声認識なら、一度に複数のモニタリングが可能です。
NG応対をアラート通知したり、オペレーターから支援要求を受けたりすることもできます。
音声認識があれば、オペレーターの“応対の品質”だけでなく、管理者の“マネジメントの質”を向上できるため、リスクの高い通話の早期発見・介入が可能になり、トラブル予防や早期収束に効果的です。
3-3.応対の課題を可視化して効果的な人材育成ができる
3つめのメリットは「応対の課題を可視化して効果的な人材育成ができる」ことです。
オペレーターを教育するうえでは、“課題への気付き”が欠かせませんが、自分の課題を客観的に把握するのは難しい現状があります。
そこで音声認識によって応対内容を可視化すると、具体的にどんな課題があるのか、客観的に解析できます。
例えば、顧客・オペレーターの感情、発話のかぶり、特定キーワードの出現箇所などを見える化することで、応対にどんな問題があるのか、解析できます。
教育担当の管理者にとっては、自分の主観ではなく音声認識による解析を根拠に自信を持って指導ができますし、オペレーター自身も視覚的に理解することで、改善に取り組みやすくなります。
3-4.履歴記録などの後処理時間を短縮できる
4つめのメリットは「履歴記録などの後処理時間を短縮できる」ことです。
従来のコンタクトセンター(コールセンター)では、オペレーターが通話内容を要約して履歴を保管する作業が行われていました。
音声認識を導入すると、応対テキストをそのまま履歴として残すことができるので、大幅な時間短縮が可能です。
履歴記録のほかに、例えば社内の他部署(システム部、マーケティング部)などに顧客の要望を共有する際など、テキストデータを活用することで処理効率が向上します。
3-5. VOC(顧客の声)を収集・解析できる
5つめのメリットは「VOC(顧客の声)を収集・解析できる」ことです。
VOC (Voice of Customer、応対中に得られる顧客からの声)の活用は、CX(顧客体験)の質を高めるうえで欠かせません。
顧客の声を抽出し、コンタクトセンター(コールセンター)のあり方はもちろん、商品の改良や新サービスの開発など、ビジネスの根幹に反映させることが、CXの質を高めていきます。
企業全体にとって貴重な知的財産であるVOCを蓄積するためには、音声認識が不可欠です。
音声認識を導入すれば、通話内容をテキストのデーターベースとして保有できるため、さまざまな解析をかけたり、特定キーワードで検索をかけたりすることが可能になります。
音声認識によって収集したVOCを解析し活用すれば、業績改善へと直結します。
4.コンタクトセンター(コールセンター)へ音声認識を導入する流れ
「自社のコンタクトセンター(コールセンター)にも音声認識を導入したい」という方へ、導入の流れを簡単にご紹介します。
弊社でご提供しているコンタクトセンター向け音声認識ソリューション『transpeech2.0(トランスピーチ2.0)』を例に取ると【 最短1〜1.5ヶ月程度 】で音声認識をスタートできます。
▼ 導入までのスケジュールイメージ
大きな流れとしては、企画→環境構築→施策別の準備を経て、運用開始となります。
なお、実際のスケジュールは他ソフトウェア連携の有無など状況によって変わりますので、正式なスケジュールはお問い合わせメールフォームからお問い合わせください。
5. 音声認識を導入するうえでの注意点
音声認識をコンタクトセンター(コールセンター)へ導入するうえでは、注意したいポイントがありますので、ご紹介します。
1. 導入実績があり安定しているシステムを選ぶ
2. 現場にとっての使い勝手(UI)を重視する
5-1. 導入実績があり安定しているシステムを選ぶ
1つめの注意点は「導入実績があり安定しているシステムを選ぶ」ことです。
これは音声認識に限ったことではなく、あらゆるシステムにいえることですが、開発された直後の新しいシステムは、バグ(プログラムの不具合や誤り)があることが多く、安定していません。
運用開始と同時に、さまざまな不具合に見舞われるリスクがあるため、注意しましょう。
一方、導入実績がすでにあるシステムは、運用の過程でバグが発見され改善されていますので、安定しています。
具体的には、提供開始から数年以上が経過していて、導入実績数の多いシステムを選ぶのがおすすめです。
5-2. 現場にとっての使い勝手(UI)を重視する
2つめの注意点は「現場にとっての使い勝手(UI)を重視する」ことです。
システムの選定は、システム担当者や経営者が中心になって行うことが多いのですが、忘れてはならないのは、コンタクトセンター(コールセンター)の現場にとっての使い勝手の良さです。
どんなにシステム担当者や経営者にとって魅力的に見えるシステムでも、現場で使いにくければ、期待する効果を実感することはできません。
対策として、デモ版やテスト版を利用して、実際にシステムを利用するコンタクトセンター管理者やオペレーター自身が動作確認したうえで、現場が納得するシステムを選定しましょう。
現場目線で使いやすいシステムを導入すれば、期待した効果をしっかりと発揮できます。
6. 音声認識の活用で次世代のコンタクトセンター(コールセンター)構築を
2020年代以降のコンタクトセンター(コールセンター)は、大きく変貌を遂げつつあります。
具体的には、コンタクトセンターにもDX(デジタルトランスフォーメーション:デジタル技術で社会をより良く変革すること)の波が訪れています。
加速するDXの波に乗り遅れず、次世代のコンタクトセンターを構築するために欠かせないのが「音声認識」です。
音声認識によって次世代のコンタクトセンターを構築することは、すなわち“次世代の高レベルな顧客対応を実現すること”に直結します。
音声認識というデジタル技術を活用し、自社の顧客にワンランク上のCX(顧客体験)を提供しましょう。
具体的な取り組みについて検討したい方は、お気軽にお問い合わせメールフォーム からご連絡いただければ幸いです。コンタクトセンターを知り尽くした専門スタッフが、貴社に最適なソリューションをご提案いたします。
7. まとめ
音声認識とはコンピューターに音声を自動認識させる技術です。人間が発する音声をコンピューターに理解させることで、人間の話し言葉をテキストに変換したり、音声の特徴から発声者を識別したりする技術を、音声認識と呼びます。
音声認識の仕組みには最先端のデジタル技術であるディープラーニング(深層学習)が使われており、多種多様な「声の情報」「言語の情報」を解析することで、音声をテキストへ変換しています。
音声認識の活用シーンとしては、以下が挙げられます。
- 声による端末の操作(スマートスピーカーなど)
- 国会や地方議会の議事録作成
- 医療現場での電子カルテの作成
- テレビ番組の字幕作成
- コンタクトセンター(コールセンター)ンターでの応対支援
特に注目したいのが「コンタクトセンター」での音声認識の活用で、人手不足への対応やカスタマー・エクスペリエンス(CX)向上の効果が期待できます。
音声認識をコンタクトセンターへ導入するメリットは以下のとおりです。
1. オペレーターの正確な応対を自動サポートできる
2. 複数の応対をリアルタイムに把握してリスク回避できる
3. 応対の課題を可視化して効果的な人材育成ができる
4. 履歴記録などの後処理時間を短縮できる
5. VOC(顧客の声)を収集・解析できる
音声認識を導入するうえでの注意点として以下が挙げられます。
1. 導入実績があり安定しているシステムを選ぶ
2. 現場にとっての使い勝手(UI)を重視する
2020年代以降は、音声認識の活用によって次世代のコンタクトセンターを構築することが求められます。
弊社でご提供しているコンタクトセンター向け音声認識ソリューション『transpeech2.0』について、ご興味のある方は以下ボタンより資料をお取り寄せください。
『transpeech2.0』の説明動画も用意しておりますので、こちらも参考にしてください。