Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.
Несколько фактов о Юникод:
Каждому символу в Юникод соответствует определенный код. Это число, которое обычно записывается таким образом: U+0073, где 0073 - это шестнадцатеричные цифры.
Кроме кода, у каждого символа есть свое уникальное имя. Например, букве "s" соответствует код U+0073 и имя "LATIN SMALL LETTER S".
Примеры кодов, имен и соответствующих символов:
U+0073, "LATIN SMALL LETTER S" - sU+00F6, "LATIN SMALL LETTER O WITH DIAERESIS" - öU+1F383, "JACK-O-LANTERN" - ???? U+2615, "HOT BEVERAGE" - ☕U+1f600, "GRINNING FACE" - ????Кодировки позволяют записывать код символа в байтах.
Юникод поддерживает несколько кодировок:
Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.
Примеры символов Юникод и их представление в байтах в кодировке UTF-8:
486901 f6 c001 f6 8026 03