文字セット / 文字集合

文字セットとはラテン文字やひらがな、それに漢字などの文字の集合のことです。これは文字を識別するための文字コードとは異なる概念です。 文字セットとは 〔 キャラクタセット 〕 【 character set 】 - 意味/解説/説明/定義 : IT用語辞典 [Studying HTTP] Character Sets

コードページ (Code Page : CP)

コード・ページ (code page)

PC環境において、多国語を効率よく取り扱うために考案された変換テーブル

このコード・ページには、各国語で使用する文字セットや数字、通貨記号などが配置されており、入力されたキーやディスプレイ表示するのがどの文字なのかを決定するために参照される。このためコード・ページを切り替えることで、共通のハードウェアを使用しながら、各国語に対応した処理が可能になる。ただしほとんどのコード・ページにおいて、0x00~0x7Fまでの文字はASCIIキャラクタセットと共通になっている。

多国語対応のために、MS-DOS 3.3以降から組み込まれた。

たとえば日本語処理を行うには、コード・ページを932に設定する。

Insider's Computer Dictionary [コード・ページ] - @IT

Windowsコードページ (Windows code page) / ANSI code page

Microsoftにより規定されているコードページで、たとえばShift_JISの拡張であるコードページは、932とされています。

コードページの例
文字セットのラベル 説明
932 shift_jis ANSI/OEM Japanese; Japanese (Shift-JIS)
1252 windows-1252 ANSI Latin 1; Western European (Windows)
20932 EUC-JP Japanese (JIS 0208-1990 and 0212-1990)
51932 euc-jp EUC Japanese
65000 utf-7 Unicode (UTF-7)
65001 utf-8 Unicode (UTF-8)

参考

複数の技術系サイトから、まとめて検索