ichou1のブログ

主に音声認識、時々、データ分析のことを書く

PyTorch

音声合成メモ(AutoVC)

「AutoVC」を試してみる。 GitHub - auspicious3000/autovc: AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss AUTOVC is a many-to-many non-parallel voice conversion framework. モチベーション 「SpeechSplit」を試してみようとして…

MakeItTalkその1

「MakeItTalk」を試してみる。 音声ファイルに合わせて、口パク動画を生成してくれるもので、インプットとなる音声ファイルも画像も「1つだけ」でよいのがすごい。github.com実際に生成された口パク動画のデモ。 多少、画像の精度が落ちているようだが、音…

音声合成メモ(tacotron2その2)

内部でどのような処理を行っているのか見てみる。論文より(Encoder/Decoderの枠線を加筆) 「torchsummaryX」を使って、モデルのサマリを出力してみる。 各レイヤ構成 Embedding (embedding): Embedding(148, 512) Encoder 「BatchNorm1d」レイヤに関して…

BERTメモ(structural probes)その2

前回の続き。probe parametersを生成する「run_experiment.py」の動きを追ってみる。 今回、パラメータは「Depth」を指定する。 python structural-probes/run_experiment.py example/config/pad_en_ewt-ud-sample.yaml pad_en_ewt-ud-sample.yaml(Depth) pr…

BERTメモ(structural probes)その1

『A Structural Probe for Finding Syntax in Word Representations』を試してみる。ソースコード。 https://github.com/john-hewitt/structural-probesまずは、pre-trained structural probesを使ったデモを動かしてみる。 printf "The chef that went to t…

BERTメモ(torchsummary)

PyTorch版BERTを使ってみる。 pytorch-pretrained-bert · PyPI モデルの要約を表示する方法を探したところ、「torchsummary」パッケージが公開されている模様。 torchsummary · PyPIinputのサイズを指定する必要があり、今回はtokenの長さが「13」であるもの…

BERTメモ(BertViz)その2

前回の続き。sentence-pair (sentence A / B)での出力を見てみる。2つ目の文に、接続詞と指示代名詞が含まれている文を指定。 sentence_a = '栄養バランスの良い食事は健康づくりの基本です。' sentence_b = 'しかしながら、それを実践することはなかなか困…

BERTメモ(BertViz)その1

BERTのattentionを可視化する「BertViz」を試してみる。GitHub - jessevig/bertviz: Tool for visualizing attention in the Transformer model (BERT, GPT-2, XLNet, and RoBERTa)論文「A Multiscale Visualization of Attention in the Transformer Model…