- ASCII文字(あすきーもじ)
米国のUS-ASCIIコードで規定されている文字セット
ASCII文字コード SPはスペース、ピンク地は制御文字
読み方)AはHEX(16進数表記)で41、BIN(2進数)で01000001
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
0 |
NUL | SOH | STX | ETX |
EOT | ENQ | ACK | BEL |
BS | HT | LF | VT |
FF | CR | SO | SI |
1 |
DLE | DC1 | DC2 | DC3 |
DC4 | NAK | SYN | ETB |
CAN | EM | SUB | ESC |
IS4 | IS3 | IS2 | IS1 |
2 |
SP | ! | " | # |
$ | % | & | ' |
( | ) | * | + |
, | - | . | / |
3 |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | : | ; |
< | = | > | ? |
4 |
@ | A | B | C |
D | E | F | G |
H | I | J | K |
L | M | N | O |
5 |
P | Q | R | S |
T | U | V | W |
X | Y | Z | [ |
\ | ] | ^ | _ |
6 |
` | a | b | c |
d | e | f | g |
h | i | j | k |
l | m | n | o |
7 |
p | q | r | s |
t | u | v | w |
x | y | z | { |
| | } | 〜 | DEL |
- Base64(べーす64)
MIMEの方式のひとつ。英語以外の文字やデータを7ビット伝送しか保証されていないシステムでも可能にする手段。3バイト(24ビット)のデータを4つの6ビットデータに変換する。その6ビットデータを下の表に合わせてASCII文字セット内の文字に置き換える。
base64符号化
6bit値 | 文字 | 6bit値 | 文字 | 6bit値 | 文字 | 6bit値 | 文字 |
000000 | A | 010000 | Q | 100000 | g | 110000 | w |
000001 | B | 010001 | R | 100001 | h | 110001 | x |
000010 | C | 010010 | S | 100010 | i | 110010 | y |
000011 | D | 010011 | T | 100011 | j | 110011 | z |
000100 | E | 010100 | U | 100100 | k | 110100 | 0 |
000101 | F | 010101 | V | 100101 | l | 110101 | 1 |
000110 | G | 010110 | W | 100110 | m | 110110 | 2 |
000111 | H | 010111 | X | 100111 | n | 110111 | 3 |
001000 | I | 011000 | Y | 101000 | o | 111000 | 4 |
001001 | J | 011001 | Z | 101001 | p | 111001 | 5 |
001010 | K | 011010 | a | 101010 | q | 111010 | 6 |
001011 | L | 011011 | b | 101011 | r | 111011 | 7 |
001100 | M | 011100 | c | 101100 | s | 111100 | 8 |
001101 | N | 011101 | d | 101101 | t | 111101 | 9 |
001110 | O | 011110 | e | 100110 | u | 111110 | + |
001111 | P | 011111 | f | 100111 | v | 111111 | / |
- BMP(基本多言語面)
UCF-4(ISO-10646-1)で規定されている文字コードの内、郡0、面0に属する文字セット。欧米主要各国言語の他に日本、中国、韓国、台湾使われている漢字や平仮名、カタカナ、ハングルや各種記号などで構成される。現在(2001年4月)までBMP以外の領域は規定されていない。
- ESMTPサーバ(Extended Simple Mail Transfer Protocol Server)
8ビット形式のメールも容認出来る様に拡張されたメールサーバ。
- ISO-2022-JP
JIS X 0208を国際規格化したもの。2つの7bit文字で1文字の日本語を表現できる。ASCII,JIS X 0201の英数文字部分,JIS X 0208が使用できる。エスケープシーケンスを使用して文字セットの切り替えを行う。行はASCII文字セットで始まりASCII文字セットに戻して終わる。
エスケープシーケンス | 16進表記 | 文字セット |
ESP(B | 1B2842 | ASCII |
ESP(J | 1B284A | JIS X 0201-1976("Roman"set) |
ESP$@ | 1B2440 | JIS X 0208-1978(旧JIS) |
ESP$B | 1B2442 | JIS X 0208-1983(新JIS) |
ISO-2202-JP(JIS X 0208)コード
ひらがなのみ抜粋
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
242 |
| ぁ | あ | ぃ |
い | ぅ | う | ぇ |
え | ぉ | お | か |
が | き | ぎ | く |
243 |
ぐ | け | げ | こ |
ご | さ | ざ | し |
じ | す | ず | せ |
ぜ | そ | ぞ | た |
244 |
だ | ち | ぢ | っ |
つ | づ | て | で |
と | ど | な | に |
ぬ | ね | の | は |
245 |
ば | ぱ | ひ | び |
ぴ | ふ | ぶ | ぷ |
へ | べ | ぺ | ほ |
ぼ | ぽ | ま | み |
246 |
む | め | も | ゃ |
や | ゅ | ゆ | ょ |
よ | ら | り | る |
れ | ろ | ゎ | わ |
247 |
ゐ | ゑ | を | ん |
| | | |
| | | |
| | | |
- ISO-8859-1(Latin 1)
ASCIIを拡張した西ヨーロッパ諸国で最も普及している文字コード。アルバニア語、バスク語、カタロニア語、デンマーク語、オランダ語、Faroese、フィンランド語、ドイツ語、アイスランド語、アイルランド語、イタリア語、ノルウェー語、ポルトガル語、Rhaeto-Romanic、スコットランド語、スペイン語、スウェーデン語の固有文字が使用できる。
ISO-8859-1(Latin 1)文字コード
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
0 |
NUL | SOH | STX | ETX |
EOT | ENQ | ACK | BEL |
BS | HT | LF | VT |
FF | CR | SO | SI |
1 |
DLE | DC1 | DC2 | DC3 |
DC4 | NAK | SYN | ETB |
CAN | EM | SUB | ESC |
IS4 | IS3 | IS2 | IS1 |
2 |
SP | ! | " | # |
$ | % | & | ' |
( | ) | * | + |
, | - | . | / |
3 |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | : | ; |
< | = | > | ? |
4 |
@ | A | B | C |
D | E | F | G |
H | I | J | K |
L | M | N | O |
5 |
P | Q | R | S |
T | U | V | W |
X | Y | Z | [ |
\ | ] | ^ | _ |
6 |
` | a | b | c |
d | e | f | g |
h | i | j | k |
l | m | n | o |
7 |
p | q | r | s |
t | u | v | w |
x | y | z | { |
| | } | 〜 | DEL |
8 |
| | | |
| | | |
| | | |
| | | |
9 |
| | | |
| | | |
| | | |
| | | |
A |
| ¡ | ¢ | £ |
¤ | ¥ | ¦ | § |
¨ | © | ª | « |
¬ | | ® | ¯ |
B |
° | ± | ² | ³ |
´ | µ | ¶ | · |
¸ | ¹ | º | » |
¼ | ½ | ¾ | ¿ |
C |
À | Á | Â | Ã |
Ä | Å | Æ | Ç |
È | É | Ê | Ë |
Ì | Í | Î | Ï |
D |
Ð | Ñ | Ò | Ó |
Ô | Õ | Ö | × |
Ø | Ù | Ú | Û |
Ü | Ý | Þ | ß |
E |
à | á | â | ã |
ä | å | æ | ç |
è | é | ê | ë |
ì | í | î | ï |
F |
ð | ñ | ò | ó |
ô | õ | ö | ÷ |
ø | ù | ú | û |
ü | ý | þ | ÿ |
- JISコード(じすこーど)
コンピュータで日本語を表現するために数値に対応させた文字コード。JIS X 0201, JIS X 0208, JIS X 0212, JIS X 0221等がある。一般的にJIS X 0208の7ビット符号化文字セット(CL,GL領域及びSP,DEL)の事を言う。
JIS X 0208コード
ひらがなのみ抜粋
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
242 |
| ぁ | あ | ぃ |
い | ぅ | う | ぇ |
え | ぉ | お | か |
が | き | ぎ | く |
243 |
ぐ | け | げ | こ |
ご | さ | ざ | し |
じ | す | ず | せ |
ぜ | そ | ぞ | た |
244 |
だ | ち | ぢ | っ |
つ | づ | て | で |
と | ど | な | に |
ぬ | ね | の | は |
245 |
ば | ぱ | ひ | び |
ぴ | ふ | ぶ | ぷ |
へ | べ | ぺ | ほ |
ぼ | ぽ | ま | み |
246 |
む | め | も | ゃ |
や | ゅ | ゆ | ょ |
よ | ら | り | る |
れ | ろ | ゎ | わ |
247 |
ゐ | ゑ | を | ん |
| | | |
| | | |
| | | |
- MIME(まいむ Multipurpose Internet Mail Extensions)
インターネットメールでASCII文字以外のアクセント記号の付いた文字、バイナリデータや複数のエンティティを扱えるように機能を拡張する手段。RFC822で提唱。
- MTA(Mail Transfer Agent)
メールの配送をするプログラム。代表的なものにsendmailがある。郵便に例えると郵便局にあたる。
- MUA(Mail User Agent)
電子メールを送受信したり、管理するプログラム。代表的なものにOutlookExpress, NetscapeMessangerがある。郵便に例えるとポスト、郵便受けにあたる。
- POP(Post Office Protocol)
メール受信の為の手順を示したもので主にMTAとMUAの間でやりとりされる。RFC1225によって提唱。
- Quoted-Printable(くおてっとぷりんたぶる)
MIMEの方式のひとつ。英語以外の文字やデータを7ビット伝送しか保証されていないシステムでも可能にする手段。文字コードを1文字目に"="(0x3D)を入れ、2,3文字目に文字コードの16進数を記述する(AからFは大文字)。ただし、0x09(行末除く),0x20(行末除く),0x21〜0x3c,0x3e〜0x7eはそのまま出力してもよいので、ウムラウトなどASCII以外の文字の頻度が少ない西ヨーロッパ圏でよく使われる。
quoted-printableエンコード
スペイン語特殊文字のみ抜粋
文字 | 符号化 | 文字 | 符号化 | 文字 | 符号化 | 文字 | 符号化 |
Á | =C1 | á | =E1 | É | =C9 | é | =E9 |
Í | =CD | í | =ED | Ó | =D3 | ó | =F3 |
Ú | =DA | ú | =FA | Ñ | =D1 | ñ | =F1 |
Ü | =DC | ü | =FC | ¡ | =A1 | ¿ | =BF |
- RFC(Request For Comments)
IETF(Internet Engineerig Task Force)で発行されるインターネットにおけるルールを提案したもの。提案なので強制力はない。RFCの後に文書番号が付く。
- SMTP(Simple Mail Transfer Protocol)
MUAからMTAへの送信やMTA間のやり取り手順を示したもの。RFC0821によって提唱された。
- UCS-2
UCF-4(ISO-10646-1)からBMP(基本多言語面)を取り出し、1文字を16ビットで表現する符号化方法。
- UCS-4
Unicodeが16ビットで全世界の文字を収録しようとしているのに対し、UCS-4は初めから1文字を32ビットで表現する符号化方式。ただし文字セット、文字コードはUnicode1.1を基準にしている。現状ではUnicodeに16ビット分のゼロを先頭に付加したもの。ISO-10646-1(JIS X 0221)にUCS-2と共に規定されている。
- Unicode(ゆにこーど)
世界中の文字を16ビットで表現しようとする文字セット。勿論、世界中の文字がたった16ビット(65536種類)で収まる訳がなく、一部の文字を32ビットで表現し(サロゲートペア)、収録文字数を拡張したUnicode2.1が制定されている。符号化方式にはUTF-16を基にしたUTF-7,UTF-8がある。通常ユニコードと言えはUnicode1.1を示す。
UTF-16(Unicode)コード
ひらがなのみ抜粋
通常16ビット(2バイト)の内、どちらをアドレスの若い方に割り当てるか(エンディアン、順/逆ワード)を指定する2バイトのByteOrderMark文字を先頭に挿入する。
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
304 |
| ぁ | あ | ぃ |
い | ぅ | う | ぇ |
え | ぉ | お | か |
が | き | ぎ | く |
305 |
ぐ | け | げ | こ |
ご | さ | ざ | し |
じ | す | ず | せ |
ぜ | そ | ぞ | た |
306 |
だ | ち | ぢ | っ |
つ | づ | て | で |
と | ど | な | に |
ぬ | ね | の | は |
307 |
ば | ぱ | ひ | び |
ぴ | ふ | ぶ | ぷ |
へ | べ | ぺ | ほ |
ぼ | ぽ | ま | み |
308 |
む | め | も | ゃ |
や | ゅ | ゆ | ょ |
よ | ら | り | る |
れ | ろ | ゎ | わ |
309 |
ゐ | ゑ | を | ん |
| | | |
| | | |
| | | |
- UTF-8(RFC2279)
ASCIIと互換性があるUnicodeの符号化方式。1文字につきASCII文字は8ビットで表現できるが、他の文字は最大48ビットになる。漢字は24ビットで表現できる。今後主流となる可能性がある。
- エンティティ:
メッセージ本体とヘッダのMIME関連のフィールドで形成されるひとつのメッセージ単位。Content-Typeにmultipartを指定する事により、ひとつのメールの中に複数のエンティティを持つ事ができる。
- エンコード(Encode)
符号化。電子メールの場合は2バイト文字やバイナリを7bit文字に変換する事。
- シフトJIS
ASCII(7bit文字),半角カナと漢字を使えるようにJISコードの配列をシフトさせたもの。日本語を表すためのエスケープシーケンスは使わない。パソコン内部の文字コードとして使われる事が多いが、8bit表現なのでメールでの使用は危険である。一般的な日本製MUAでは自動的にISO-2022-JPに変換されるので問題がない場合が多いが、外国製のMUAを使っている場合は注意が必要。
シフトJISコード
ひらがなのみ抜粋
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
829 |
| | | |
| | | |
| | | |
| | | ぁ |
82A |
あ | ぃ | い | ぅ |
う | ぇ | え | ぉ |
お | か | が | き |
ぎ | く | ぐ | け |
82B |
げ | こ | ご | さ |
ざ | し | じ | す |
ず | せ | ぜ | そ |
ぞ | た | だ | ち |
82C |
ぢ | っ | つ | づ |
て | で | と | ど |
な | に | ぬ | ね |
の | は | ば | ぱ |
82D |
ひ | び | ぴ | ふ |
ぶ | ぷ | へ | べ |
ぺ | ほ | ぼ | ぽ |
ま | み | む | め |
82E |
も | ゃ | や | ゅ |
ゆ | ょ | よ | ら |
り | る | れ | ろ |
ゎ | わ | ゐ | ゑ |
82F |
を | ん | | |
| | | |
| | | |
| | | |
- デコード(decode)
復号化。エンコード(符号化)の逆。エンコードされたデータを元の文字やデータに戻す事。
- 日本語EUC(Extended Unix Code)
UNIX系プラットフォームの内部で使われる文字コード。シフトJISに似た符号化方式。ASCII,JIS X 0201のカナ部分(半角カナ),JIS X 0208,JIS X 0212(補助漢字)の文字セットを使用できる。0x00〜0x20,0x7f,0x80〜0x9fが制御文字、0x21〜0x7eはASCII、0x8eはそれに次ぐ1文字が半角カナ、0x8fはそれに次ぐ2文字が補助漢字、0xa1〜0xfeとそれに次ぐ1文字はJIS X 0208(GL領域)コードを0x80分シフトしたものになる。
日本語EUC文字コード
ひらがなのみ抜粋
HEX |
0 | 1 | 2 | 3 |
4 | 5 | 6 | 7 |
8 | 9 | A | B |
C | D | E | F |
A4A |
| ぁ | あ | ぃ |
い | ぅ | う | ぇ |
え | ぉ | お | か |
が | き | ぎ | く |
A4B |
ぐ | け | げ | こ |
ご | さ | ざ | し |
じ | す | ず | せ |
ぜ | そ | ぞ | た |
A4C |
だ | ち | ぢ | っ |
つ | づ | て | で |
と | ど | な | に |
ぬ | ね | の | は |
A4D |
ば | ぱ | ひ | び |
ぴ | ふ | ぶ | ぷ |
へ | べ | ぺ | ほ |
ぼ | ぽ | ま | み |
A4E |
む | め | も | ゃ |
や | ゅ | ゆ | ょ |
よ | ら | り | る |
れ | ろ | ゎ | わ |
A4F |
ゐ | ゑ | を | ん |
| | | |
| | | |
| | | |
- 半角カナ
JIS X 0201でコード化されているカタカナの俗称。インターネットで使う事を考慮に入れてないので、メールでこのタイプの文字を使うと不具合が出る場合が多い。JIS X 0208のカタカナを使うべきである。一般的な日本製MUAでは自動的にJIS X 0208に変換される。
- 文字セット(Character Set)
US-ASCIIやJISなど文字の集合体。
- 符号化
エンコード。電子メールの場合は、各バイトの8ビット目が使われている文字コードやバイナリを7ビットコード文字に変換する事。