符号化の本質

ここでいう符号化とは、前回のプレーで、トップかその次(4,5人でのプレーを前提)の成績だった場合によい順位を得ることではありません。

ものごとに符号を割り付けることで便利に利用しようというのが符号化です。これはすばらしい物の見方、考え方です。

文字も符号のひとつと捉えることができるでしょう。

さて、符号化を番号を振ることだと勘違いしている人たちがいます。困ったものです。

1:男性
2:女性
(番号にマルをつけてください)

こんな書式を一度は見たことがあるでしょう。

符号として整数を用いるのは確かに賢いやり方です。しかしそれは便宜上のものなのです。

RDB入門などで出てくるのがまずいんではないかという気がします。

たとえばbool値は1ビットの情報量です。磁気テープ上でも1ビットで必要十分です。実際にはいろんな都合で1バイト占有するかもしれませんが、そんなDBは窓から放り投げてしまって、EXCELでも使った方がマシでしょう。信頼性維持のための冗長化のための余分なビット数なら許しますが。

性別もしかり。男女の2値しかないなら1ビットです。都道府県なら、48通りですから、6ビットあれば充分です。ここでいきなり1バイト使おうと言い出す人は、きっと真冬にエアコンガンガンで汗をかくような、地球に冷たいアンチエコ人に違いありません。

その都道府県に1から48までの番号をつけるのはあなたの勝手です。しかし符号化と情報量の関係を見つめれば、それ自体には意味のないことが分るでしょう。

区別できれば充分なんです。番号を振って序列を付ける、まさに序数として扱いたい気持ちは分かりますが、それは別の情報を運ぶことになります。DBで言えば、それは別のテーブルでやるべきだと。

ある人物の住所が沖縄県という情報は、5.5ビットです。しかし都道府県番号23の沖縄県、となると23という数字の情報を運ぶ別のモノが必要になってしまうのです。それを全人数分?

番号を付けるのは勝手です。ページ番号、項目番号、文書番号・・・

ときどき見かける話題で、ほんとうに困ったものがあります。それは文字コードです。文字に勝手な番号を振って、文字を符号化しているつもりだというのですからへそで茶が沸きます。

便宜上、文字に番号を振ればそれはそれは便利でしょう。閉じた世界では。

アルファベットは文字が少ないから楽だね、とかいう人もいますが、文字は誰でも簡単に作れます。文字に番号を振るというのは権力の濫用です。知の支配です。エミネムのEの左右反転を排除するために文字コードが用いられます。左右反転くらいなら書式+文字コードでなんとかなるとある人は言います。

私はそうは思いません。エミネムのEをわたしとあなたが共感して使うことができるための手段や環境を提供するのがテクノロジの役目ではないのでしょうか。

エミネムのEは文字コードXXの「E」を左右反転させたものと同じという扱いでお願いします、などという誰も読まない官報の編集後記のような決めごとで世界を縛ろうというのでしょうか。

文字コードなんて、戦前のテレタイプですら扱えた、前々世代の遺物です。今の時代にこそできることがあるはずで、それを開拓することにエネルギーを使うべきだと私は思う。
(と前にも書いたように思う)