ichou1のブログ

主に音声認識、時々、データ分析のことを書く

Julius

音声認識メモ(Kaldi)その21(音韻モデル)

認識対象を孤立単語から発展させて、もう少し実用的な使い方を試してみる。まず、トレーニング対象の発話を音素に分解する。 元の文 オススメの料理は何ですか 文を単語へ分解(分かち書き、「MeCab」を使用) オススメ の 料理 は 何 です か 単語を音素列…

音声認識メモ(Julius)その6(連続単語認識(N-gram))

The Julius bookより抜粋。 第1パスでは通常の前向き (left-to-right) の 2-gram,第2パスでは後ろ向きの N-gram がそれぞれ必要となる. 第1パスにおける確率計算の過程をトレースしてみる。 (確率は常用対数での計算になる)統計の元となるテキストが以下…

音声認識メモ(Julius)その5(連続単語認識(DFA))

前回の続き。孤立単語の場合、"単語内(intra word)の遷移"のみを計算したが、連続単語の場合は、単語内に加え、"単語間(inter word)の遷移"を計算する。連続単語の場合の木構造化辞書を以下に示す。丸枠の下はノード番号を表す。 単語間の接続は、DFA文法…

音声認識メモ(Julius)その4(連続単語認識(DFA))

Juliusでは、連続単語の言語モデルとして、「N-gram」と「DFA」をサポートしている。ここでのDFA(Deterministic finite automaton、決定性有限オートマトン)はMealy型有限オートマトンのことで、出力が現在状態と入力に決定されるモデル。 遷移は一方通行…

音声認識メモ(Julius)その3(孤立単語)

juliusで音声を認識する過程をトレースする。HMMはモノフォンのモデルとし、「m」、「o」、「s」、「i」、「silB」、「silE」が学習済みであるとする。言語モデルは孤立単語(-w オプション)とし、辞書は以下とした。 MOSIMOSI m o s i m o s i MOMO m o m…

音声認識メモ(HMM)その9(HTK HERest コマンド(6))

混合正規分布モデル(Gaussian Mixture Model)のHMMを作成する。尚、単一正規分布のHMMモデル(single Gaussian models)のままでも認識エンジン「Julius」に渡すことはできる。混合数の増加には「HHEd」コマンドを使用する。 HHEd -H "HMMモデル" -w "出力…

音声認識メモ(Julius)その2

前回の続き使用するJuliusのバージョンは"4.3.1"Juliusに渡すパラメータを簡略化して書くと以下のとおり。 julius "入力音声" "音響モデル" "言語モデル" 入力音声オプション例 HTKの特徴ベクトルを渡す -input mfcfileマイク入力 -input mic 音響モデルオプ…

音声認識メモ(Julius)

画像や文字といった"パターン認識"技術の中でも、特に難しいとされる音声の認識。その仕組みを調べてみた。qiita.com 「Julius」は他と比べると見劣りする。 デフォルトですぐに使えるようにしてあるのは試しやすくていいけど、認識精度にガッカリしてしまう…