データ圧縮の例【情報学部】【JPEG】

大学生用コンテンツ

2022.05.182022.05.29

具体的に、データ圧縮の例を見てみましょう。

データ圧縮は「ロスあり」と「ロスなし」の２つに分けることができる。
文字通り、ロスありだと情報の一部が失われることがありますが、ロスなしではそれがない。
ロスありの方が圧縮率が高い（いっぱい圧縮できる）ので画像や音声のように多少のエラーはokな場合に使われる。

例えば、”aaaaabbbb”という文字列のデータがあるとする。同じ文字が連続しているので、回数をメモしておけば、後から再現できる。つまり、a5b4のように書けば、送信しなければならないデータが圧縮できる（少なくて済む）。
ちなみに、これはランレングス符号化と呼ばれるロスなし圧縮法の一つだ。
映像でも、フレームが連続する時には、データの差分（直前のフレームとの差）を記録する相対符号化という技法がある。この方法では、厳密に差分を記録するかどうかでロスありかなしを決めれる。

頻度依存符号化という有名なロスなしデータ圧縮方法がある。
Unicodeのように全ての記号を１６ビットで表現するのでなく、英語ならe,t,aのように使用頻度が高い文字に短いビットパターン（0, 1, 10みたいな）を割り当て、x,q,zのように頻度が低いものは長いビットパターン(1000,1010みたいな)を割り当てる。
このようにして作られる符号化システムをハフマンコードとよぶ。

辞書式符号化もよく使われる圧縮方法だ。
ワードプロセッサ(Wordとか)で文章を圧縮するのに使われる。
ワードプロセッサにはスペルチェックのための辞書がそもそもあるので、圧縮のための辞書として利用できるから都合がいいそうだ。
１つの単語をASCIIやUnicodeといった体系からなる文字の並びと認識するのでなく、辞書への参照として符号化する。（辞書に載ってるn番目の単語、みたいな）
よくある辞書は25000単語くらいなので、0~24999の範囲の整数で識別できる。