（論文読解） Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

音声認識 tensorflow

Googleが出した論文 [1804.03619] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation顔画像をもとにノイズマスキングを生成し、傾聴したい音声だけを抽出する。ブログ記事 ai.googleblog.com解説…

2018-12-27

TensorFlowメモ（RNNその1）

tensorflow

RNN（Recurrent Neural Network）を試してみる。以下のサイトを参考にさせていただいた。第6回リカレントニューラルネットワークの実装（2）｜Tech Book Zone Manatee正弦波の時系列データ5つ（tからt+4）の値をもとに、t+5の値を予測する。インプットデ…

2018-12-24

tensorflowメモ（手書き文字認識その4）

tensorflow 画像認識

前回の続き。精度を上げることを試みる。tensorflowサンプル（「examples/tutorials/mnist/mnist_deep.py」）を参考にレイヤーを構成。"Fully connected layer 1"(上表のfc1)のdownsamplingはMNISTサンプルをもとに適当に設定。「256」（=2 * 2 * 64）featu…

2018-12-18

tensorflowメモ（手書き文字認識その3）

tensorflow 画像認識

前回の続き。モデルを畳み込みニューラルネットワーク（Convolutional Neural Network）に変更してみる。チュートリアルなどを見ると、畳み込み層を２回通しているケースが多いが、まずは１層のモデルで試してみる。パラメータは以下のとおりとした。 (参…

2018-12-11

tensorflowメモ（手書き文字認識その2）

画像認識 tensorflow

前回生成したモデルを掘り下げてみる。重み付けを行うパラメータが「final_w」に入っているとする。 final_w.shape (64, 10) # 最小値 numpy.min(final_w) -1.68 # 最大値 numpy.max(final_w) 1.55「final_w」をグレースケール変換して視覚化してみる。変…

2018-12-08

tensorflowメモ（手書き文字認識その1）

tensorflow 画像認識

ライブラリ「scikit-learn」の手書き文字データセット「digits」を使って、手書き文字認識を試してみる。入力データデータセットの構成は以下のとおり。 8 x 8ピクセルの画像「0」から「9」までの手書き文字明暗を0から16までの値で表現画像数は1797 1…

ichou1のブログ

主に音声認識、時々、データ分析のことを書く

2018-12-01から1ヶ月間の記事一覧

（論文読解） Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

TensorFlowメモ（RNNその1）

tensorflowメモ（手書き文字認識その4）

tensorflowメモ（手書き文字認識その3）

tensorflowメモ（手書き文字認識その2）

tensorflowメモ（手書き文字認識その1）