ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2017-10-01から1ヶ月間の記事一覧

音声認識メモ(フーリエ変換)

フーリエ変換を用いることで、波形データを純音に分解できる。 結果、波形データの特徴を解析しやすくなる。 フーリエ変換の定義式 ω:角周波数/角速度[rad/s] t:時間[s] j:虚数単位 f(t):変換前の時間波形 F(ω):角周波数ωにおけるcos成分の大きさ、sin…

音声認識メモ(HMM)その3(HTK HCopyコマンド(3))

"もしもし"というWAVE音声データをプロットしてみると以下のとおりであった。 発声の時間は2秒間で、サンプリングレートは16kHz(出力結果として得られるサンプル数は32,000) 1サンプルは2バイト(C言語でのshort(−32,768〜 32,767))の範囲の値を取る 横軸が…

音声認識メモ(HMM)その2(HTK HCopyコマンド(2))

音声認識は音声データをそのまま扱うのではなく、MFCCという音響特徴データに変換する。MFCCは"Mel Frequency Cepstrum Coefficents"の略。音というのは波で、複数の純音が重なり合っている(ならば、純音に分離できるということ)。 音声データは"x軸が時間…