Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.
Несколько фактов о Юникод:
Каждому символу в Юникод соответствует определенный код. Это число, которое обычно записывается таким образом: U+0073
, где 0073 - это шестнадцатеричные цифры.
Кроме кода, у каждого символа есть свое уникальное имя. Например, букве "s" соответствует код U+0073
и имя "LATIN SMALL LETTER S".
Примеры кодов, имен и соответствующих символов:
U+0073
, "LATIN SMALL LETTER S" - sU+00F6
, "LATIN SMALL LETTER O WITH DIAERESIS" - öU+1F383
, "JACK-O-LANTERN" - ???? U+2615
, "HOT BEVERAGE" - ☕U+1f600
, "GRINNING FACE" - ????Кодировки позволяют записывать код символа в байтах.
Юникод поддерживает несколько кодировок:
Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.
Примеры символов Юникод и их представление в байтах в кодировке UTF-8:
48
69
01 f6 c0
01 f6 80
26 03