電子メールの基礎知識グロサリー Base64 BMP(基本多言語面) ISO-2022-JP ISO-8859-1(Latin 1) Quoted-Printable　UCS-2 UCS-4 Unicode UTF-8(RFC2279)

電子メールの基礎知識

ASCII文字（あすきーもじ）

米国のUS-ASCIIコードで規定されている文字セット
ASCII文字コード SPはスペース、ピンク地は制御文字
読み方）AはHEX(16進数表記)で41、BIN(2進数)で01000001
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI

1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC IS4 IS3 IS2 IS1

2 SP ! " # $ % & ' ( ) * + , - . /

3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?

4 @ A B C D E F G H I J K L M N O

5 P Q R S T U V W X Y Z [ ＼ ] ^ _

6 ` a b c d e f g h i j k l m n o

7 p q r s t u v w x y z { | } ～ DEL

Base64（べーす６４）

MIMEの方式のひとつ。英語以外の文字やデータを７ビット伝送しか保証されていないシステムでも可能にする手段。３バイト(24ビット)のデータを４つの６ビットデータに変換する。その６ビットデータを下の表に合わせてASCII文字セット内の文字に置き換える。
base64符号化
６bit値文字６bit値文字６bit値文字６bit値文字

000000 A 010000 Q 100000 g 110000 w

000001 B 010001 R 100001 h 110001 x

000010 C 010010 S 100010 i 110010 y

000011 D 010011 T 100011 j 110011 z

000100 E 010100 U 100100 k 110100 0

000101 F 010101 V 100101 l 110101 1

000110 G 010110 W 100110 m 110110 2

000111 H 010111 X 100111 n 110111 3

001000 I 011000 Y 101000 o 111000 4

001001 J 011001 Z 101001 p 111001 5

001010 K 011010 a 101010 q 111010 6

001011 L 011011 b 101011 r 111011 7

001100 M 011100 c 101100 s 111100 8

001101 N 011101 d 101101 t 111101 9

001110 O 011110 e 100110 u 111110 +

001111 P 011111 f 100111 v 111111 /

BMP(基本多言語面)

UCF-4(ISO-10646-1)で規定されている文字コードの内、郡０、面０に属する文字セット。欧米主要各国言語の他に日本、中国、韓国、台湾使われている漢字や平仮名、カタカナ、ハングルや各種記号などで構成される。現在(2001年4月)までBMP以外の領域は規定されていない。

ESMTPサーバ(Extended Simple Mail Transfer Protocol Server)

８ビット形式のメールも容認出来る様に拡張されたメールサーバ。

ISO-2022-JP

JIS X 0208を国際規格化したもの。２つの７bit文字で１文字の日本語を表現できる。ASCII,JIS X 0201の英数文字部分,JIS X 0208が使用できる。エスケープシーケンスを使用して文字セットの切り替えを行う。行はASCII文字セットで始まりASCII文字セットに戻して終わる。

エスケープシーケンス 16進表記文字セット

ESP(B 1B2842 ASCII

ESP(J 1B284A JIS X 0201-1976("Roman"set)

ESP$@ 1B2440 JIS X 0208-1978(旧ＪＩＳ)

ESP$B 1B2442 JIS X 0208-1983(新ＪＩＳ)

ISO-2202-JP(JIS X 0208)コード
ひらがなのみ抜粋
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

242 　ぁあぃいぅうぇえぉおかがきぎく

243 ぐけげこごさざしじすずせぜそぞた

244 だちぢっつづてでとどなにぬねのは

245 ばぱひびぴふぶぷへべぺほぼぽまみ

246 むめもゃやゅゆょよらりるれろゎわ

247 ゐゑをん　　　　　　　　　　　　

ISO-8859-1(Latin 1)

ASCIIを拡張した西ヨーロッパ諸国で最も普及している文字コード。アルバニア語、バスク語、カタロニア語、デンマーク語、オランダ語、Faroese、フィンランド語、ドイツ語、アイスランド語、アイルランド語、イタリア語、ノルウェー語、ポルトガル語、Rhaeto-Romanic、スコットランド語、スペイン語、スウェーデン語の固有文字が使用できる。
ISO-8859-1(Latin 1)文字コード

HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

0 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI

1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC IS4 IS3 IS2 IS1

2 SP ! " # $ % & ' ( ) * + , - . /

3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?

4 @ A B C D E F G H I J K L M N O

5 P Q R S T U V W X Y Z [ ＼ ] ^ _

6 ` a b c d e f g h i j k l m n o

7 p q r s t u v w x y z { | } ～ DEL

8

9

A ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯

B ° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿

C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï

D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß

E à á â ã ä å æ ç è é ê ë ì í î ï

F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

ＪＩＳコード（じすこーど）

コンピュータで日本語を表現するために数値に対応させた文字コード。JIS X 0201, JIS X 0208, JIS X 0212, JIS X 0221等がある。一般的にJIS X 0208の７ビット符号化文字セット(CL,GL領域及びSP,DEL)の事を言う。
JIS X 0208コード
ひらがなのみ抜粋
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

242 　ぁあぃいぅうぇえぉおかがきぎく

243 ぐけげこごさざしじすずせぜそぞた

244 だちぢっつづてでとどなにぬねのは

245 ばぱひびぴふぶぷへべぺほぼぽまみ

246 むめもゃやゅゆょよらりるれろゎわ

247 ゐゑをん　　　　　　　　　　　　

MIME（まいむ Multipurpose Internet Mail Extensions）

インターネットメールでASCII文字以外のアクセント記号の付いた文字、バイナリデータや複数のエンティティを扱えるように機能を拡張する手段。RFC822で提唱。

MTA(Mail Transfer Agent)

メールの配送をするプログラム。代表的なものにsendmailがある。郵便に例えると郵便局にあたる。

MUA(Mail User Agent)

電子メールを送受信したり、管理するプログラム。代表的なものにOutlookExpress, NetscapeMessangerがある。郵便に例えるとポスト、郵便受けにあたる。

POP(Post Office Protocol)

メール受信の為の手順を示したもので主にMTAとMUAの間でやりとりされる。RFC1225によって提唱。

Quoted-Printable（くおてっとぷりんたぶる）

MIMEの方式のひとつ。英語以外の文字やデータを７ビット伝送しか保証されていないシステムでも可能にする手段。文字コードを１文字目に"="(0x3D)を入れ、２，３文字目に文字コードの16進数を記述する(AからFは大文字)。ただし、0x09(行末除く),0x20(行末除く),0x21～0x3c,0x3e～0x7eはそのまま出力してもよいので、ウムラウトなどASCII以外の文字の頻度が少ない西ヨーロッパ圏でよく使われる。
quoted-printableエンコード
スペイン語特殊文字のみ抜粋
文字符号化文字符号化文字符号化文字符号化

Á =C1 á =E1 É =C9 é =E9

Í =CD í =ED Ó =D3 ó =F3

Ú =DA ú =FA Ñ =D1 ñ =F1

Ü =DC ü =FC ¡ =A1 ¿ =BF

RFC(Request For Comments)

IETF(Internet Engineerig Task Force)で発行されるインターネットにおけるルールを提案したもの。提案なので強制力はない。RFCの後に文書番号が付く。

SMTP(Simple Mail Transfer Protocol)

MUAからMTAへの送信やMTA間のやり取り手順を示したもの。RFC0821によって提唱された。

UCS-2

UCF-4(ISO-10646-1)からBMP(基本多言語面)を取り出し、１文字を16ビットで表現する符号化方法。

UCS-4

Unicodeが16ビットで全世界の文字を収録しようとしているのに対し、UCS-4は初めから１文字を32ビットで表現する符号化方式。ただし文字セット、文字コードはUnicode1.1を基準にしている。現状ではUnicodeに16ビット分のゼロを先頭に付加したもの。ISO-10646-1(JIS X 0221)にUCS-2と共に規定されている。

Unicode(ゆにこーど)

世界中の文字を16ビットで表現しようとする文字セット。勿論、世界中の文字がたった16ビット(65536種類)で収まる訳がなく、一部の文字を32ビットで表現し(サロゲートペア)、収録文字数を拡張したUnicode2.1が制定されている。符号化方式にはUTF-16を基にしたUTF-7,UTF-8がある。通常ユニコードと言えはUnicode1.1を示す。
UTF-16(Unicode)コード
ひらがなのみ抜粋
通常16ビット(２バイト)の内、どちらをアドレスの若い方に割り当てるか（エンディアン、順／逆ワード）を指定する２バイトのByteOrderMark文字を先頭に挿入する。
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

304 　ぁあぃいぅうぇえぉおかがきぎく

305 ぐけげこごさざしじすずせぜそぞた

306 だちぢっつづてでとどなにぬねのは

307 ばぱひびぴふぶぷへべぺほぼぽまみ

308 むめもゃやゅゆょよらりるれろゎわ

309 ゐゑをん　　　　　　　　　　　　

UTF-8(RFC2279)

ASCIIと互換性があるUnicodeの符号化方式。１文字につきASCII文字は8ビットで表現できるが、他の文字は最大48ビットになる。漢字は24ビットで表現できる。今後主流となる可能性がある。

エンティティ:

メッセージ本体とヘッダのMIME関連のフィールドで形成されるひとつのメッセージ単位。Content-Typeにmultipartを指定する事により、ひとつのメールの中に複数のエンティティを持つ事ができる。

エンコード(Encode)

符号化。電子メールの場合は2バイト文字やバイナリを7bit文字に変換する事。

シフトＪＩＳ

ASCII(7bit文字),半角カナと漢字を使えるようにJISコードの配列をシフトさせたもの。日本語を表すためのエスケープシーケンスは使わない。パソコン内部の文字コードとして使われる事が多いが、8bit表現なのでメールでの使用は危険である。一般的な日本製MUAでは自動的にISO-2022-JPに変換されるので問題がない場合が多いが、外国製のMUAを使っている場合は注意が必要。
シフトＪＩＳコード
ひらがなのみ抜粋
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

829 　　　　　　　　　　　　　　　ぁ

82A あぃいぅうぇえぉおかがきぎくぐけ

82B げこごさざしじすずせぜそぞただち

82C ぢっつづてでとどなにぬねのはばぱ

82D ひびぴふぶぷへべぺほぼぽまみむめ

82E もゃやゅゆょよらりるれろゎわゐゑ

82F をん　　　　　　　　　　　　　　

デコード(decode)

復号化。エンコード(符号化)の逆。エンコードされたデータを元の文字やデータに戻す事。

日本語ＥＵＣ(Extended Unix Code)

UNIX系プラットフォームの内部で使われる文字コード。シフトJISに似た符号化方式。ASCII,JIS X 0201のカナ部分(半角カナ),JIS X 0208,JIS X 0212(補助漢字)の文字セットを使用できる。0x00～0x20,0x7f,0x80～0x9fが制御文字、0x21～0x7eはASCII、0x8eはそれに次ぐ１文字が半角カナ、0x8fはそれに次ぐ２文字が補助漢字、0xa1～0xfeとそれに次ぐ１文字はJIS X 0208(GL領域)コードを0x80分シフトしたものになる。
日本語ＥＵＣ文字コード
ひらがなのみ抜粋
HEX 0 1 2 3 4 5 6 7 8 9 A B C D E F

A4A 　ぁあぃいぅうぇえぉおかがきぎく

A4B ぐけげこごさざしじすずせぜそぞた

A4C だちぢっつづてでとどなにぬねのは

A4D ばぱひびぴふぶぷへべぺほぼぽまみ

A4E むめもゃやゅゆょよらりるれろゎわ

A4F ゐゑをん　　　　　　　　　　　　

半角カナ

JIS X 0201でコード化されているカタカナの俗称。インターネットで使う事を考慮に入れてないので、メールでこのタイプの文字を使うと不具合が出る場合が多い。JIS X 0208のカタカナを使うべきである。一般的な日本製MUAでは自動的にJIS X 0208に変換される。

文字セット(Character Set)

US-ASCIIやJISなど文字の集合体。

符号化

エンコード。電子メールの場合は、各バイトの８ビット目が使われている文字コードやバイナリを７ビットコード文字に変換する事。

戻る