音声認識技術

音声認識とは、入力された音声に最も合う言語表現を、推定する過程です。

認識対象

  • 口述筆記 (dictation) … 書き取りを前提に、話された音声
  • 書き起こし (transcription) … 書き取りを前提とせずに、話された音声

モデル (Model)

音響モデル (Acoustic model)

音響モデルでは、単語 (Word) の周波数成分のパターンを定義します。その中でも音素を単位とする場合には、音素モデル (Phoneme model)と呼ばれます。

音素モデル

  • モノフォン (Monophone) … 音素を独立にモデル化したもの
  • トライフォン (Triphone) … 音素とその前後の3つの音素を組み合わせてモデル化したもの

隠れマルコフモデル (Hidden Markov Model : HMM)

確率モデルの一種で、確率有限状態オートマトンと呼ばれる変換機の一種です。

HTK (Hidden markov model ToolKit)

言語モデル (Language model)

言語モデルでは、言語 (Language) の文法を定義します。これは次の手順で作成します。

  1. 学習用のテキストデータの準備
  2. テキストデータの整形
  3. 形態素解析により、形態素に分割
  4. 単語と、その出現頻度の集計

統計的言語モデル (Statistical Language Model : SLM)

N-gram

  • ユニグラム (unigram) … ある単語が発声される確率
  • バイグラム (bigram) … ある単語が発声された後に、ある単語が発声される確率
  • トリグラム (trigram) … ある2つの単語の連鎖が発声された後に、ある単語が発声される確率

活用例

音声認識による会議録

複数の技術系サイトから、まとめて検索