音声認識エンジンとそれぞれの特徴

聴覚障害者向けの音声認識ツールに用いられることが多い認識エンジンを以下にまとめております。（2024年8月1日現在）

Google Cloud

サービス名	Speech-to-Text API
会社名	Google LLC ※日本法人の場合、グーグル合同会社
採用している音声認識ツール	・YYProbe（Microsoft社のAzure AI と併用）
特徴（※1）	・検索エンジンでの使用を想定しているため雑音にある程度強い・入ってきた音声に対して文章の正しさを優先する・結果が正しくない場合は出力しないことがあり、（耳が全く聞こえない人にとっては）音が入ってきたかどうかわかりにくい
公式サイト	Speech-to-Text AI: 音声認識と音声文字変換 \| Google Cloud：https://cloud.google.com/speech-to-text?hl=ja

サービス名	AmiVoice API
会社名	株式会社アドバンスト・メディア
採用している音声認識ツール	・UDトーク（Google社のGoogle Cloud Speech-to-Text APIと併用）・Fujitsu Software LiveTalk
特徴（※1）	・入ってきた音声に対して文章の正しさよりも認識結果を優先して出力する・結果の正しさに関わらず全て出力するため、音が入ってきたことがわかりやすい・「きちんと入力された音声」に対して精度を上げるようなチューニングが施されている・単語登録（辞書登録）が可能である・「えっと」などの言いよどみを自動的に削除・句読点を自動的に挿入可能
公式サイト	Speech to Text – AmiVoiceの音声認識API・SDK（アミボイス）：https://acp.amivoice.com/

Azure AI サービス

サービス名	Azure AI 音声
会社名	Microsoft Corporation ※日本法人の場合、日本マイクロソフト株式会社
採用している音声認識ツール	・YYProbe（※2）・Microsoft Translator
特徴（※1）	・周囲の雑音や騒音下の環境においても精度良く認識可能・単語登録（辞書登録）の精度が高い
公式サイト	Azure AI サービス – インテリジェントアプリに AI を使用する \| Microsoft Azure：https://azure.microsoft.com/ja-jp/products/ai-services/ Azure AI 音声 \| Microsoft Azure：https://azure.microsoft.com/ja-jp/products/ai-services/ai-speech

※1 特徴については以下のURLを参考にしております。
・GoogleとAmiVoice、音声認識の特徴 | UDトーク：
　https://udtalk.jp/post-3680/
・AmiVoiceとGoogle、音声認識エンジン比較！：
　https://www.youtube.com/watch?v=Pns39JT924Y&t=1s
・音声認識の勢力図が変わる！？GoogleとMicrosoftの音声認識APIの比較 | DIGITAL | オペレーションを進化させる現場のWebマガジン　現場ドリブン：
　https://www.bewith.net/gemba-driven/article/digital/entry-249.html

※2 YYProbe（YYSystem）の場合、音声認識エンジンはMicrosoft社のエンジンとYYSystem独自のカスタムアルゴリズムを組み合わせて利用しているようです。
　リアルタイム音声認識アプリYYProbe – アプリを使って会話を記録、保存、分析 | YYSystem：https://yysystem.com/faq