Inhalt - Encodings - UTF-8 Encoding
UTF-8 Encoding
Betreff:
Definition des UTF-8 Encodings
Datum:
14. Juni 2025 10:19
UTF-8 ist ein Text-Encoding, das für Linux Systeme verwendet wird, um z.B. Textfiles auf der Harddisk abzuspeichern.
Für das UTF-8 Encoding wird als Basis Unicode verwendet.
Die Bytes für UTF-8 werden durch folgende Definition bestimmt:
#Bytes Unicode
0 - 10FFFF
UTF-8 (x=Nutzbits) Beispiel
1 0x00000000-0x0000007F
1-7 bits
0xxxxxxx ASCII-Codes (0-127), "A" = 41 ⇒ 41
2 0x00000080-0x000007FF
8-11 bits
110xxxxx 10xxxxxx "ä" (de) = E4 ⇒ C3 A4
"ö" (de) = F6 ⇒ C3 B6
"ü" (de) = FC ⇒ C3 BC
1111 1100 ⇒ 1100 0011 1011 1100
3 0x00000800-0x0000FFFF
12-16 bits
1110xxxx 10xxxxxx 10xxxxxx "ส" (th) = 0E2A ⇒ E0 B8 AA
0000 1110 0010 1010
payan chana - saw suea
4 0x00010000-0x001FFFFF
17-21 bits
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx "🡺" = 0x1F87A ⇒ F0 9F A1 BA
Wiki: https://de.wikipedia.org/wiki/UTF-8
Haftungsausschluss: Die Informationen auf dieser Website wurden mit grösster Sorgfalt erstellt. Dennoch übernehme ich keine Haftung für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte. Änderungen und Irrtümer sind vorbehalten.
Java HotSpot™ Client VM 1.8.0_401 / © Thomas Gürber