BERTメモ(BertViz)その1
BERTのattentionを可視化する「BertViz」を試してみる。
論文「A Multiscale Visualization of Attention in the Transformer Model」
https://arxiv.org/pdf/1906.05714.pdf
ICLR 2019 workshop
https://debug-ml-iclr2019.github.io/cameraready/DebugML-19_paper_2.pdf
BERTの日本語Pre-trainedモデルは、以下を使用させていただいた。
GitHub - yoheikikuta/bert-japanese: BERT with SentencePiece for Japanese text.
今回、試した文は
木でできた美しい大きな円いテーブル
BERT-baseの場合、Layerが「12」、attention-headが「12」なので、出力パターンは144通りあり、その一部は以下のとおり。