コンピューターの世界で文字がどのように扱われているかということを理解するには「符号化文字集合」と「文字符号化方式」という2つの異なる概念があり、それぞれがどのようなものであるかを理解することが非常に重要です。これを理解しているかいないかでコンピューターの世界での文字の扱いに関する理解がまったく違ってきますのでぜひ抑えておきましょう。
符号化文字集合
まず符号化文字集合というのは「どのような文字を扱うか」ということを定義するものです。文字といってもアルファベット、ひらがな、カタカナ、数字、記号はもとより日本語には非常に多くの漢字が存在しています。さらに世界に目を向ければいったいどれだけの数の文字が存在しているのでしょうか?
ちょっと検索してみると以下のようなサイトが見つかりました。
ちょっと見てみてほしいのですが、ものすごい数の文字が世の中には存在しています。コンピューターは今でこそ高性能になり、世界中のありとあらゆる文字を使えるようにしてしまおうという構想が現実的に実装できるようになっていますが、歴史的にはごく限られたリソースの中で何とかやりくりをしていた時代の方が長いわけです。そうするとその中では「どの文字を使えるようにするか」ということが非常に重要です。
あなたがコンピューターを「限られたリソースの中で」新しく設計するとしたら、どのような文字を使えるようにしたいと思いますか?
- リソースには限りがあるので、極力少ない文字の種類で済ませたい
- かといって通常使う用途に不便するようでは使ってもらえないので必要十分な文字の種類は扱えるようにしたい
- 世の中に存在しているほかのコンピューターとデータをやり取りできないようでは使い物にならないので、他のコンピューターで使える文字はある程度使えるようにしないといけない
このくらいのことはまず考えないといけません。このように考えてみるとどのような文字をコンピューターが扱えるべきなのかという規格があり、世の中に存在するコンピューターがみんなその規格にしたがっていればみんなが幸せになれるはずです。
符号化文字集合の具体例
このような符号化文字集合を定めた規格が複数存在しています。ここでは日本語に深いかかわりを持つもので代表的なもののみを紹介します。
- ASCII – Wikipedia
- JIS X 0201 – Wikipedia
- JIS X 0208 – Wikipedia
- 補助漢字 – Wikipedia
- JIS X 0213 – Wikipedia
- Unicode – Wikipedia
Wikipediaの説明を読むといきなり難しいことが沢山書いてあって混乱するかもしれませんが、まずは「色々あるんだな」くらいに考えておいてもらっていいでしょう。私が考えるポイントは以下です。
- アルファベット圏ではアルファベットだけあれば事足りるので、それが定義されているASCIIが主に使われている。
- 日本語はアルファベットだけでは全然たりないので、ひらがな、カタカナに加えて日常よく使う漢字がまず必要。現在のコンピューターで普通に使える漢字はJIS X 0208で定義されている。
- 最近のコンピューターではさらに多くの漢字が使えるようにしようという動きがあり、最新のコンピューターではJIS X 0213で定義されている文字(JIS X 0208よりも多くの文字が定義されている)が使えるようになってきた。ただしまだ使えないコンピューターも多くあり、互換性に問題がある。
- 文字符号化集合が複数あるから互換性の問題が起きるのであって、「世界中の文字を集めた符号化文字集合がひとつあって、それを全てのコンピューターが使えば問題はなくなる」という考えで世界中の文字を集めているのがUnicode。普及はそれなりに進んできたが使えない環境もまだある。
文字符号化方式
コンピューター上では最終的には全てが0と1のデジタルで表現されます。もちろん文字もそうです。ですので符号化文字集合だけがあっても実際にそれをコンピューター上ではどのような0,1の並びで表現するのか、ということが決まっていないとコンピューターでは扱えません。その0,1の並びを定義しているのが文字符号化方式です。
符号化文字集合は複数ありますが、そのそれぞれの集合ごとに1つの文字符号化方式がある・・・というわけではありません。実際にはひとつの文字符号化方式で複数の符号化文字集合を対象にしていますし、ひとつの符号化文字集合に対して複数の文字符号化方式が存在しています。
なぜこのように複雑な関係になっているのかというと、結局それは、「同じ問題でも解き方は複数ある」からだと私は思っています。そしてどれが一番良いのかは「何を目的とするか」によっても変わってきます。
たとえば、アルファベットだけで完結することのできる文化圏の人がいます。そして、アルファベットは文字数が少ないので7ビットもあれば全ての文字を表現できてしまいます。コンピューターにとってきりのいいところで8ビットもあれば十分です。一方私たち日本人はひらがなもカタカナも漢字もありますので8ビットではまったく足りません。このときある人は「8ビットで足りないなら、全ての文字を8ビットを2つくっつけて16ビットで1文字にしよう」と考え、あるひとは「8ビットで足りないなら1文字8ビットのルールは変えないで、使う文字集合を切り替える仕組みを作ろう」と考えたとします。(仮に、です。)
これはどちらもコンピューターにルールを教えてあげれば(プログラムをつくれば)コンピュータ上で実現できます。どちらが完全に優れているということもありません。一長一短があります。たとえば16ビットで1文字にすれば「切り替え」を意識しなくてよいので文字の検索などが簡単に実装できます。ですが、16ビットで1文字にしてしまうと1文字8ビットで済む文字にも16ビット使ってしまうので、仮にアルファベットしか使わない文章を書いたとしたら容量が2倍になってしまいます。
この例は解説のために簡略化してあくまでも例として出していますが、実際の文字符号化方式においてもこのようにトレードオフがあり、複数の方式が混在しているのです。
文字符号化方式の具体例
文字符号化方式の具体例としては以下のようなものがあります。
- ISO-2022-JP – Wikipedia
- EUC-JP – Wikipedia
- Shift_JIS – Wikipedia
- Microsoftコードページ932 – Wikipedia
- UTF-8 – Wikipedia
- UTF-16 – Wikipedia
- UTF-32 – Wikipedia
沢山あっていきなりだと混乱すると思いますが、まずは以下のような理解をしておくと良いと思います。
- (日本語)メールの世界ではISO-2022-JPが主に使われている
- UNIX/Linuxの世界ではEUC-JPが主に使われている
- WindowsではShift_JISの亜種であるMicrosoftコードページ932が主に使われている
- Unicode対応が最近進んできており、UTF-8、UTF-16などが使われて来ている
最後に注意
このエントリでは符号化文字集合と文字符号化方式の違いに焦点を当てるために、あえて不正確な説明をしている箇所が多くあります。あるいはこのような不正確な情報をネット上に書いてしまうのは良くないことなのかもしれませんが、まず大枠で分かったつもりになることが重要だと思いこのような書き方になっています。
今後細かい話は別エントリで書きつつ、不正確な部分に関しても補足説明していきたいと思います。
コメント