Segmental Conditional Random Fields (SCRFs)
最先端の音声認識システムとして提唱されたフレームワークで、以下の異なった情報の重み付けを行うことでモデル化する技法である。
- Template matching
- Neural-net phoneme detectors, both MLP based and Deep Neural Nets
- Word detectors based on Point Process Models
- Modulation feature based multiphone detectors
Duration models単語系列wの確率をLog線形モデルを用いたP(w|o)として、観測値oから推定するモデル化する。仮説と検証データの間に一貫性のある形式を測定する特徴を重み付けすることによって、単語シーケンスの確率を決定する。
これらの特徴はWord-segmentレベルにあり、特徴は観察されたフォルマントトラックと、予想されたフォルマントトラックの間の類似性であり得る。*1
*1:フォルマントとは音声のスペクトルを観察した際の時間的に移動するピークのこと。フォルマント – Wikipedia
スポンサーリンク