ichou1のブログ

主に音声認識、時々、データ分析のことを書く

ネットワーク上を流れる音声パケットに関するメモ

イーサネット上を流れる音声パケットの一例

f:id:ichou1:20170813212654p:plain

ここで、音声データは

サンプリング周波数: 8kHz
1サンプルあたりのbit数: 8

でデータ化されているものとしている。

1秒あたりの情報量は64kbitで、
G.711(PCM方式、無圧縮)といったコーデック方式だと、
20ミリ秒ごとにデータを分割してパケット化するみたいだから、
20ミリ秒の情報量は1280bit(=160Byte)になる。

[1ミリ秒あたり]
音声サンプル数 : 8
bit : 64
Byte : 8

[20ミリ秒(=1パケット)あたり]
音声サンプル数 : 160
bit数 : 1280
Byte : 160

[1000ミリ秒(=1秒)あたり]
音声サンプル数 :8k
bit数 : 64k
Byte : 8k
パケット数 : 50

ビットレートは64kb/s(=8kByte/s)になって、
ヘッダの分を加えるとそれなりの量のネットワークトラフィックが発生する。

そこで登場するのが圧縮ありのコーデック方式というわけだ。
G.729だと、ビットレートが8kb/s(=1kByte/s)と8分の1になってトラフィックが軽くなる。