聴覚障害者向けの音声認識ツールに用いられることが多い認識エンジンを以下にまとめております。(2024年8月1日現在)
Google Cloud
サービス名 | Speech-to-Text API |
会社名 | Google LLC ※日本法人の場合、グーグル合同会社 |
採用している音声認識ツール | ・YYProbe(Microsoft社のAzure AI と併用) |
特徴(※1) | ・検索エンジンでの使用を想定しているため雑音にある程度強い ・入ってきた音声に対して文章の正しさを優先する ・結果が正しくない場合は出力しないことがあり、(耳が全く聞こえない人にとっては)音が入ってきたかどうかわかりにくい |
公式サイト | Speech-to-Text AI: 音声認識と音声文字変換 | Google Cloud:https://cloud.google.com/speech-to-text?hl=ja |
サービス名 | AmiVoice API |
会社名 | 株式会社アドバンスト・メディア |
採用している音声認識ツール | ・UDトーク(Google社のGoogle Cloud Speech-to-Text APIと併用) ・Fujitsu Software LiveTalk |
特徴(※1) | ・入ってきた音声に対して文章の正しさよりも認識結果を優先して出力する ・結果の正しさに関わらず全て出力するため、音が入ってきたことがわかりやすい ・「きちんと入力された音声」に対して精度を上げるようなチューニングが施されている ・単語登録(辞書登録)が可能である ・「えっと」などの言いよどみを自動的に削除 ・句読点を自動的に挿入可能 |
公式サイト | Speech to Text – AmiVoiceの音声認識API・SDK(アミボイス):https://acp.amivoice.com/ |
Azure AI サービス
サービス名 | Azure AI 音声 |
会社名 | Microsoft Corporation ※日本法人の場合、日本マイクロソフト株式会社 |
採用している音声認識ツール | ・YYProbe(※2) ・Microsoft Translator |
特徴(※1) | ・周囲の雑音や騒音下の環境においても精度良く認識可能 ・単語登録(辞書登録)の精度が高い |
公式サイト | Azure AI サービス – インテリジェント アプリに AI を使用する | Microsoft Azure:https://azure.microsoft.com/ja-jp/products/ai-services/ Azure AI 音声 | Microsoft Azure:https://azure.microsoft.com/ja-jp/products/ai-services/ai-speech |
※1 特徴については以下のURLを参考にしております。
・GoogleとAmiVoice、音声認識の特徴 | UDトーク:
https://udtalk.jp/post-3680/
・AmiVoiceとGoogle、音声認識エンジン比較!:
https://www.youtube.com/watch?v=Pns39JT924Y&t=1s
・音声認識の勢力図が変わる!?GoogleとMicrosoftの音声認識APIの比較 | DIGITAL | オペレーションを進化させる現場のWebマガジン 現場ドリブン:
https://www.bewith.net/gemba-driven/article/digital/entry-249.html
※2 YYProbe(YYSystem)の場合、音声認識エンジンはMicrosoft社のエンジンとYYSystem独自のカスタムアルゴリズムを組み合わせて利用しているようです。
リアルタイム音声認識アプリYYProbe – アプリを使って会話を記録、保存、分析 | YYSystem:https://yysystem.com/faq