音声認識メモ(Kaldi)その24( パラメータ更新 Dan's DNN(nnet2))

「AffineComponentPreconditionedOnline」コンポーネントのパラメータ更新過程を追ってみる。

モデルは「nnet4c」ベース、mixupを行う前の状態。
f:id:ichou1:20180904124824p:plain

今回、確認するのは下図の破線部分のパラメータ。
f:id:ichou1:20180904130001p:plain

BackPropagationにおいて、以下2つの値を使って更新する。
尚、ここでのminibatch-sizeは「128」であるとする。

「in_value_temp」 : PropagationでTanh コンポーネントを通した後の値（128row x 375col）に対して、各行の最後に「1.0」を加えたもの（128row x 376col）
「out_deriv_temp」 : BackpropagationでSoftmaxコンポーネントを通した後の値のコピー（128row x 192col）

AffineComponentPreconditionedOnlineクラスのメンバである２つのOnlinePreconditionerクラスに上記２つをそれぞれ渡す。

nnet2/nnet-component.cc

void AffineComponentPreconditionedOnline::Update(
	CuMatrixBase<BaseFloat> &in_value,
	const CuMatrixBase<BaseFloat> &out_deriv)
{
	...
	preconditioner_in_.PreconditionDirections(&in_value_temp,
                                              &in_row_products,
                                              &in_scale);
	preconditioner_out_.PreconditionDirections(&out_deriv_temp,
                                               &out_row_products,
                                               &out_scale);
	...

ここでの処理内容の詳細はDan氏の論文に書かれている。

更新前のin_value_temp（128row x 376col、論文中の「X_t」に該当

0.265  0.362  -0.999  -0.999  -0.946  ... 1
...

t : minibatch index

ここから、X_hat_tを求める。
f:id:ichou1:20180904145210p:plain
R=30（rankIn(低ランク近似)の次元）
「W_t」はR x DのWeight Matrix（D=376）
N=128（minibatch size）

更新後のin_value_temp（128row x 376col、論文中の「X_hat_t」に該当

0.035  0.562  -0.010  0.040  -0.575  ...
...

該当するソースコード箇所(nnet-precondition-online.cc)

// X_hat_t = X_t - H_t W_t
X_t->AddMatMat(-1.0, H_t, kNoTrans, W_t, kNoTrans, 1.0);

「X_hat_t」の各行の内積( (0.035 * 0.035） + (0.562 * 0.562） + (-0.010 * -0.010) + ...)を求める。
これが「in_row_products」に該当する。

in_row_products (128dim)

62.02  44.57  66.93  81.97  59.58 ...

また、以下の式により、gamma_tを求める。
これが「in_scale」に該当する。
f:id:ichou1:20180904152353p:plain

in_scale

2.04739451

「preconditioner_out_」に対しても同様の処理を行う。

更新前のout_deriv_temp(128row x 192col、論文中の「X_t」に該当)

-0.000  -6.5e-06, -9.9e-06, -1.2-06, -7.5e-07 ...
...

更新後のout_deriv_temp(128row x 192col、論文中の「X_hat_t」に該当)

0.048  -5.5e-06  -0.000  5.9e-08  -0.000  ...
...

out_row_products(128dim)

0.136  0.163  0.000  0.072  0.008  ...

out_scale

2.1778152

「in_value_temp」(128row x 376dim)より、「in_value_precon_part」(128row x 375dim)、「precon_ones」(128dim)を求める。

AffineComponentPreconditionedOnline::Update()の内部処理

CuSubMatrix<BaseFloat> in_value_precon_part(in_value_temp,
                                            0, in_value_temp.NumRows(),
                                            0, in_value_temp.NumCols() - 1);

CuVector<BaseFloat> precon_ones(in_value_temp.NumRows());
precon_ones.CopyColFromMat(in_value_temp, in_value_temp.NumCols() - 1);

「in_scale」、「out_scale」、「in_row_products」、「out_row_products」より、当該ミニバッチの「scale」および「minibatch_scale」を求める。

以上のデータをもとに、パラメータを更新する。

AffineComponentPreconditionedOnline::Update()の内部処理

BaseFloat local_lrate = scale * minibatch_scale * learning_rate_;

bias_params_.AddMatVec(local_lrate, out_deriv_temp, kTrans,
                                    precon_ones, 1.0);
linear_params_.AddMatMat(local_lrate, out_deriv_temp, kTrans,
                                      in_value_precon_part, kNoTrans, 1.0);

ichou1のブログ

主に音声認識、時々、データ分析のことを書く

音声認識メモ(Kaldi)その24( パラメータ更新 Dan's DNN(nnet2))

nnet2/nnet-component.cc

更新前のin_value_temp（128row x 376col、論文中の「X_t」に該当

更新後のin_value_temp（128row x 376col、論文中の「X_hat_t」に該当

該当するソースコード箇所(nnet-precondition-online.cc)

in_row_products (128dim)

in_scale

更新前のout_deriv_temp(128row x 192col、論文中の「X_t」に該当)

更新後のout_deriv_temp(128row x 192col、論文中の「X_hat_t」に該当)

out_row_products(128dim)

out_scale

AffineComponentPreconditionedOnline::Update()の内部処理

AffineComponentPreconditionedOnline::Update()の内部処理

nnet2/nnet-component.cc

更新前のin_value_temp（128row x 376col、 論文中の「X_t」に該当

更新後のin_value_temp（128row x 376col、 論文中の「X_hat_t」に該当

該当するソースコード箇所(nnet-precondition-online.cc)

in_row_products (128dim)

in_scale

更新前のout_deriv_temp(128row x 192col、論文中の「X_t」に該当)

更新後のout_deriv_temp(128row x 192col、論文中の「X_hat_t」に該当)

out_row_products(128dim)

out_scale

AffineComponentPreconditionedOnline::Update()の内部処理

AffineComponentPreconditionedOnline::Update()の内部処理

更新前のin_value_temp（128row x 376col、論文中の「X_t」に該当

更新後のin_value_temp（128row x 376col、論文中の「X_hat_t」に該当