AWSメモ（VPCエンドポイント集約）

AWS

VPCエンドポイントの課金は、時間課金と使用量課金の２つになる（＝データ転送がなくても課金される）そして、アベイラビリティゾーンごとに課金される。 Pricing Calculatorより（東京リージョン） 1時間あたり「0.014 USD」ということで、VPCエンドポイン…

2022-01-01

AWSメモ（HTTPS 通信で AWS EC2 へのリモートデスクトップ接続）

AWS

「RDP over HTTPS」に関するメモ。「Systems Manager」を利用することで、パブリックなIPアドレスを持たなくても接続できる。aws.amazon.com 今回、試したAWS上の環境は下図のとおり。エンドポイントに関しては、VPCのAZ数を「2」にしたことで各AZに自動生…

2021-10-30

AWSメモ（VPC課金）

AWS

「AWS」を試していて、いつの間にか課金が膨れていたので備忘として。試したのは、「Transit Gateway」周り。下図のように、「VPC」と「Direct Connect Gateway」をアタッチ。一週間ほど放置した後のBillingが下図（VPCエンドポイントは関係なし）このお…

2021-09-26

FinTechを考える（その1）

FinTech

お金とは何かを考えてみるまずイメージするのは紙幣やコイン。それらは、世の中にどれほど回っているのだろうか。マネタリーベース統計によると、2021年8月末の時点で、市中に出回っているお金（通貨流通高）はおおよそ「122兆円」（紙幣が「117兆円」、貨…

2021-04-29

音声合成メモ（AutoVC）

PyTorch 音声合成

「AutoVC」を試してみる。 GitHub - auspicious3000/autovc: AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss AUTOVC is a many-to-many non-parallel voice conversion framework. モチベーション「SpeechSplit」を試してみようとして…

2021-04-18

MakeItTalkその1

PyTorch 音声合成

「MakeItTalk」を試してみる。音声ファイルに合わせて、口パク動画を生成してくれるもので、インプットとなる音声ファイルも画像も「１つだけ」でよいのがすごい。github.com実際に生成された口パク動画のデモ。多少、画像の精度が落ちているようだが、音…

2021-04-11

日銀のEFT買い入れを可視化してみる（2021年4月9日までのデータ）

grafana influxdb

日銀によるETF購入の方針が変わる。jp.reuters.com 日銀の黒田東彦総裁は２２日、参院・財政金融委員会で、上場投資信託（ＥＴＦ）の買い入れ対象をＴＯＰＩＸ連動型のみに変更したことについて「個別銘柄に偏った影響ができるだけ生じないように、指数構成…

2021-03-07

日銀のEFT買い入れを可視化してみる（2021年3月5日までのデータ）

grafana influxdb

3月4日、5日と、2日連続で日銀によるETFの買入れ（500億円超）があった。指数連動型上場投資信託受益権（ETF）および不動産投資法人投資口（J-REIT）の買入結果日銀のETF買入れと日経平均株価の関係をプロットしてみる。株価の下降局面で買い支えているのが…

2020-10-11

音声合成メモ（tacotron2その4）

音声合成 tacotron2

トレーニング時におけるmodelの内部処理を見てみる。 Embedding/Encoderレイヤ Embeddingレイヤに渡す前に、テキスト文字はidに置き換えられる。idはゼロ始まりの148個。 ARPAbetの発音記号も含まれる。 {'_': 0, '-': 1, '!': 2, "'": 3, '(': 4, ')': 5, '…

2020-10-05

音声合成メモ（tacotron2その3）

音声合成 tacotron2 python

内部処理を見てみる。今回は、音声ファイルから特徴量（log-mel spectrogram）を求めるところまで。ソースでは、「mel_spectrogram」関数が該当する。 https://github.com/NVIDIA/tacotron2/blob/master/layers.py#L63 def mel_spectrogram(self, y): """Com…

2020-10-03

音声認識や音声合成に出てくる用語のまとめ

音声合成音声認識

（随時、更新します）「スペクトラム」と「スペクトログラム」の違い時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果が、ある時間における全周波数成…

2020-09-20

音声合成メモ（tacotron2その2）

PyTorch 音声合成 tacotron2

内部でどのような処理を行っているのか見てみる。論文より（Encoder／Decoderの枠線を加筆）「torchsummaryX」を使って、モデルのサマリを出力してみる。各レイヤ構成 Embedding (embedding): Embedding(148, 512) Encoder 「BatchNorm1d」レイヤに関して…

2020-09-19

音声合成メモ（tacotron2その1）

音声合成 python tacotron2

NVIDIAのtacotron2を試してみる。GitHub - NVIDIA/tacotron2: Tacotron 2 - PyTorch implementation with faster-than-realtime inferenceまずは、Pre-trainedモデルを使ってinference（推論）「ちいさなうなぎやに」という音声を生成してみる。 text = 'che…

2020-08-30

音声合成メモ（World）その1

音声合成 World

音声合成「World」を試してみる。下記で公開されているATR音素バランス503文の発話データと、 https://ja.osdn.net/projects/galateatalk/releases/22207パラレルデータとして下記の"綾波音声"データを使用させていただいた。 Scyclone Demo Page データ1 ち…

2020-08-23

音声認識メモ（DeepSpeech）その7

DeepSpeech 音声認識

特徴量変換の際に、「MinMax正規化」を使ってみる。特徴量変換波形データ左から下記のとおり。「ジェット機」「どろぼうでもはいったかと、いっしゅんぼくはおもった」「さっぽろ」波形データ（MinMax正規化） data = librosa.util.normalize(original…

2020-08-16

音声認識メモ（DeepSpeech）その6

DeepSpeech 音声認識

前回の続き。プリエンファシスは必要か？「ジェット機」という音声のスペクトログラム。左が「pre-emphasis なし」、右が「pre-emphasis あり」トレーニング時の学習セット（ATR503）他コーパス（その1）最初の「ジェット機」に関しては、プリエンファシ…

2020-08-08

音声認識メモ（DeepSpeech）その5

音声認識 DeepSpeech

モデルのインプットとして使う特徴量を「MFCC」から「log-mel spectrum」へ変えてみる。インプットとして使う特徴量を変えてみる各Time-Stepごとの次元は、「26」次元（MFCC13次元にdelta特徴量を加えた分）から「128」次元（フィルタバンクチャネル数）に置…

2020-07-26

音声認識メモ（DeepSpeech）その4

DeepSpeech 音声認識

前回の続き。それなりの認識精度が出ることを確認した。ここから、認識精度を高めること、汎化させることを考えてみる。他コーパスの音声ファイル認識まずは、別の音声コーパスを試してみる。「東北大‐松下単語音声データベース (TMW)」の単語音声「さっ…

2020-07-12

Deep Learningを使ったWEBサービスはメモリ1GBでも動かせる

深層強化学習画像認識 tensorflow

TensorFlowやPyTorchといった深層学習ライブラリを使おうとした場合、動かす環境はそれなりのスペックが必要になる。物理メモリが2GBのPCを使っていた頃、「VGG16」モデルを転移学習しようとしたらメモリに乗り切らなくて断念したことがある。トレーニングの…

2020-06-27

日銀EFT買い入れの可視化をWEBサービスとして公開してみる

influxdb grafana

日銀EFT買い入れの可視化をWEBサービスとして公開してみる。https://analytics.katakanadojo.tokyo/d/WtlmSAaWz/nikkei?orgId=1&viewPanel=2 免責事項コンテンツの内容に関しては細心の注意を払っておりますが、正確であるかについて保証をするものではなく…

2020-06-13

TensorFlowメモ（clipped_relu）

DeepSpeech tensorflow

Tensor演算に関するメモ。前回見たDeepSpeechのモデルでは、Denseレイヤの活性化関数で「clipped_relu」を指定した。 x = TimeDistributed(Dense(units=fc_size, kernel_initializer=init, bias_initializer=init, activation=clipped_relu), name='dense_1'…

2020-06-06

音声認識メモ（DeepSpeech）その3

DeepSpeech python tensorflow 音声認識

トレーニングによるパラメータ更新を試してみる。トレーニングデータは、下記で公開されているATR音素バランス503文の発話データを使うことにする。 https://ja.osdn.net/projects/galateatalk/releases/22207日本語コーパスを使った音素認識については下記…

2020-05-06

TensorFlowメモ（CudnnLSTM）

tensorflow

DeepSpeechでは、「tensorflow.contrib」モジュールの「CudnnLSTM」が使われているので調べてみる。「CudnnLSTM」のソースコード tensorflow/cudnn_rnn.py at v1.15.2 · tensorflow/tensorflow · GitHub実行する環境は「TensorFlow 2.X」系 % python -c 'imp…

2020-05-06

日銀のEFT買い入れを可視化してみる（2020年4月末までのデータ）

grafana influxdb

日銀が公開している情報をもとに、2020年4月末までのETF買い入れ額の累計を計算してみる。対象は、以下2つ。設備投資および人材投資に積極的に取り組んでいる企業を支援するためのETF 上記以外のETF データは「InfluxDB」に登録した。 > select sum(amount_…

2020-05-05

音声認識メモ（DeepSpeech）その2

DeepSpeech tensorflow 音声認識

モデルの構造DeepSpeechの「create_model」関数を追ってみると、modelの構造としては「6層」 Layer1: Dense ( + clipped RELU activation + dropout ) Layer2: Dense ( + clipped RELU activation + dropout ) Layer3: Dense ( + clipped RELU activation + …

2020-05-03

TensorFlowメモ（checkpointの中身を確認する）

tensorflow

checkpointファイルをもとに、TensorFlowモデルの内部パラメータを確認する方法のメモ。実行する環境は「TensorFlow 2.X」系 % python -c 'import tensorflow as tf; print(tf.__version__)' 2.1.0 確認用データの準備下記をもとに、適当なモデルを作って、c…

2020-05-03

音声認識メモ（DeepSpeech）その1

tensorflow python 音声認識 DeepSpeech

Mozillaが公開する「DeepSpeech」を試してみる。 github.com環境準備（インストール） % pip install deepspeech% pip show deepspeech Name: deepspeech Version: 0.7.0 Summary: A library for running inference on a DeepSpeech model Home-page: https:…

2020-03-15

音声ファイル特徴量変換（その6）MFCC(TensorFlow)

tensorflow python 音声認識

TensorFlowでMFCC（Mel-Frequency Cepstral Coefficient）を求めるには、「tf.signal.mfccs_from_log_mel_spectrograms」関数が提供されている。tf.signal.mfccs_from_log_mel_spectrograms | TensorFlow Core v2.1.0インプットは、前回見た、「メルスペクト…

2020-03-08

音声ファイル特徴量変換（その5）メルスペクトログラム(TensorFlow)

tensorflow python 音声認識

TensorFlowでメルスペクトログラムを求めるには、「tf.signal.linear_to_mel_weight_matrix」関数が提供されている。 https://www.tensorflow.org/api_docs/python/tf/signal/linear_to_mel_weight_matrixMelスケールに変換するためのMatrixが得られるので、…

2020-03-07

日銀のEFT買い入れを可視化してみる（2020年3月第1週までのデータ）

grafana influxdb

3月第1週は、2日と6日の2回、日銀によるETF買い入れが入った。 1回あたり購入額は、過去最大規模となる1002億円。白のプロットが日経平均株価（終値）紫の積み上げがETF買い入れ額（億円）日銀が公開している情報をもとに、2020年に入ってからの分を集計…

ichou1のブログ

主に音声認識、時々、データ分析のことを書く

AWSメモ（VPCエンドポイント集約）

AWSメモ（HTTPS 通信で AWS EC2 へのリモートデスクトップ接続）

AWSメモ（VPC課金）

FinTechを考える（その1）

音声合成メモ（AutoVC）

MakeItTalkその1

日銀のEFT買い入れを可視化してみる（2021年4月9日までのデータ）

日銀のEFT買い入れを可視化してみる（2021年3月5日までのデータ）

音声合成メモ（tacotron2その4）

音声合成メモ（tacotron2その3）

音声認識や音声合成に出てくる用語のまとめ

音声合成メモ（tacotron2その2）

音声合成メモ（tacotron2その1）

音声合成メモ（World）その1

音声認識メモ（DeepSpeech）その7

音声認識メモ（DeepSpeech）その6

音声認識メモ（DeepSpeech）その5

音声認識メモ（DeepSpeech）その4

Deep Learningを使ったWEBサービスはメモリ1GBでも動かせる

日銀EFT買い入れの可視化をWEBサービスとして公開してみる

TensorFlowメモ（clipped_relu）

音声認識メモ（DeepSpeech）その3

TensorFlowメモ（CudnnLSTM）

日銀のEFT買い入れを可視化してみる（2020年4月末までのデータ）

音声認識メモ（DeepSpeech）その2

TensorFlowメモ（checkpointの中身を確認する）

音声認識メモ（DeepSpeech）その1

音声ファイル特徴量変換（その6）MFCC(TensorFlow)

音声ファイル特徴量変換（その5）メルスペクトログラム(TensorFlow)

日銀のEFT買い入れを可視化してみる（2020年3月第1週までのデータ）