ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-12-01から1ヶ月間の記事一覧

(論文読解) Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

Googleが出した論文 [1804.03619] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation顔画像をもとにノイズマスキングを生成し、傾聴したい音声だけを抽出する。 ブログ記事 ai.googleblog.com解説…

TensorFlowメモ(RNNその1)

RNN(Recurrent Neural Network)を試してみる。以下のサイトを参考にさせていただいた。 第6回 リカレントニューラルネットワークの実装(2)|Tech Book Zone Manatee正弦波の時系列データ5つ(tからt+4)の値をもとに、t+5の値を予測する。 インプットデ…

tensorflowメモ(手書き文字認識その4)

前回の続き。精度を上げることを試みる。tensorflowサンプル(「examples/tutorials/mnist/mnist_deep.py」)を参考にレイヤーを構成。"Fully connected layer 1"(上表のfc1)のdownsamplingはMNISTサンプルをもとに適当に設定。 「256」(=2 * 2 * 64)featu…

tensorflowメモ(手書き文字認識その3)

前回の続き。 モデルを畳み込みニューラルネットワーク (Convolutional Neural Network)に変更してみる。チュートリアルなどを見ると、畳み込み層を2回通しているケースが多いが、まずは1層のモデルで試してみる。パラメータは以下のとおりとした。 (参…

tensorflowメモ(手書き文字認識その2)

前回生成したモデルを掘り下げてみる。 重み付けを行うパラメータが「final_w」に入っているとする。 final_w.shape (64, 10) # 最小値 numpy.min(final_w) -1.68 # 最大値 numpy.max(final_w) 1.55「final_w」をグレースケール変換して視覚化してみる。 変…

tensorflowメモ(手書き文字認識その1)

ライブラリ「scikit-learn」の手書き文字データセット「digits」を使って、手書き文字認識を試してみる。 入力データ データセットの構成は以下のとおり。 8 x 8ピクセルの画像 「0」から「9」までの手書き文字 明暗を0から16までの値で表現 画像数は1797 1…