音声認識の基礎知識
音声認識とは、自然言語の音声/語彙データや高度なアルゴリズムを用いて、人の話し言葉を認識するためのツールだ。音声データをテキストデータに翻訳することで、検索や管理がより容易なデータ形式に変換できる。また、音声の特徴を認識して、生体認証や個人識別を行うこともある。多くの場合、認識した内容はテキストデータに変換、あるいはシステムやアプリケーションの操作に用いられる。個人レベルでは口述で文章を入力したり、各種デバイスの操作を行うという使われ方がされるほか、企業では会議の議事録作成、動画へのテロップづけ、コールセンターでの顧客対応の自動化/省力化などにも役立てられる。
音声認識の機能一覧
基本機能
機能![]() |
解説![]() |
テキスト変換 |
ユーザーの話し言葉をテキストデータへ変換する |
テキスト翻訳 |
ユーザーの話し言葉を指定した別の言語へリアルタイムで翻訳する |
ユーザー語彙 |
一般的ではない単語や専門用語などを語彙データへ追加できる |
音声記録/再生 |
エラーや誤認識された部分を確認できるよう、認識時に記録された音声を再生できる |
コマンド |
テキスト起こしや翻訳に使用される音声認識ツールでは、ソフトウェアの起動/終了、ドキュメントの保存、フォントの変更などの操作を行える音声コマンドを備えている場合もある |