Doku - utf8

UTF-8 ist ein Text-Encoding, das für Linux Systeme verwendet wird, um z.B. Textfiles auf der Harddisk abzuspeichern.

Für das UTF-8 Encoding wird als Basis Unicode verwendet.

Die Bytes für UTF-8 werden durch folgende Definition bestimmt:

Für US-ASCII-Zeichen ergeben die gleichen Codes (7 bits), mit "0" beginnend, für alle anderen:
Das erste Byte beginnt mit Anzahl "1" der Anzahl Bytes + "0" + Nutzbits (Rest).
Die Folgebytes beginnen mit "10" (+je 6 Nutzbits)

#Bytes	Unicode 0 - 10FFFF	UTF-8 (x=Nutzbits)	Beispiel
1	0x00000000-0x0000007F 1-7 bits	0xxxxxxx	ASCII-Codes (0-127), "A" = 41 ⇒ 41
2	0x00000080-0x000007FF 8-11 bits	110xxxxx 10xxxxxx	"ä" (de) = E4 ⇒ C3 A4 "ö" (de) = F6 ⇒ C3 B6 "ü" (de) = FC ⇒ C3 BC 1111 1100 ⇒ 1100 0011 1011 1100
3	0x00000800-0x0000FFFF 12-16 bits	1110xxxx 10xxxxxx 10xxxxxx	"ส" (th) = 0E2A ⇒ E0 B8 AA 0000 1110 0010 1010 payan chana - saw suea
4	0x00010000-0x001FFFFF 17-21 bits	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	"🡺" = 0x1F87A ⇒ F0 9F A1 BA

Tabelle: UTF-8 Bytes

Wiki: https://de.wikipedia.org/wiki/UTF-8

Haftungsausschluss: Die Informationen auf dieser Website wurden mit grösster Sorgfalt erstellt. Dennoch übernehme ich keine Haftung für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte. Änderungen und Irrtümer sind vorbehalten.
Java HotSpot™ Client VM 1.8.0_401 / © Thomas Gürber