Таблица символов Unicode для общего ознакомления.
Юникод (англ. Unicode) - это универсальный стандарт кодирования символов, который позволяет предоставить знаки всех языков мира. Он обеспечивает уникальный номер для каждого символа, независимо от платформы, программы или языка.
Каждому символу в языках народов мира присваивается уникальный код. Ознакомиться с полным списком можно, скачав таблицу внизу страницы в виде документа PDF. Внимание. Их около 150 000, и их число продолжает расти. В таблицах Юникод версии 15.0
Всего в PDF документе 2059 страниц. Ниже представлены первые 2 страницы.
Как получается код буквы, иероглифа? Посмотрите на страницу 1.
Цифры по горизонтали вверху таблицы. Цифры и буквы по вертикали слева от таблицы.
Найдите английскую букву F внутри таблицы. Она расположена в столбце с номером
004 и строке с номером 6. Соединив число сверху с числом слева, можно
узнать код символа, то есть 004 + 6 = код символа 0046.
Для чего нужен стандарт Юникод?
Компьютеры имеют дело только с числами. Они хранят буквы и другие символы, присваивая каждому из них номер. До того, как был разработан стандарт Unicode, существовало множество различных систем, называемых кодировками символов, для присвоения этих чисел. Эти более ранние кодировки символов были ограничены и не охватывали символы всех языков мира. Даже для одного языка, такого как английский, не существует единой кодировки, охватывающей все буквы, знаки препинания и общеупотребительные технические символы. Пиктографические языки, такие как японский, было сложно поддерживать с помощью этих более ранних стандартов кодирования.
Ранние кодировки символов также конфликтовали друг с другом. То есть две кодировки могут использовать одно и то же число для двух разных символов или использовать разные числа для одного и того же символа. Любой компьютер может поддерживать множество различных кодировок. Однако когда информация передаётся между компьютерами и в разных кодировках, повышается риск повреждения данных или ошибок.
Кодировки символов существовали для нескольких ''больших'' языков. Но во многих языках вообще отсутствовала поддержка символов.
Для решения этих проблем был разработан стандарт Unicode. Стандарт был создан на основе кодировки, достаточно большой, чтобы поддерживать системы письма, используемые всеми языками мира. С годами стандартная кодировка Unicode неуклонно расширялась и теперь включает такие языки, как чероки, монгольский и древнеегипетские иероглифы. Помимо предоставления стандартизированной системы кодов, Консорциум Unicode расширил сферу своих усилий, включив в него стандартные данные о ''локали'', например формат даты на арабском языке или суахили. Современный Юникод содержит не только популярные языки, такие как английский и китайский, а также исчезающие языки, такие как навахо.
Разнообразие языков, доступных сегодня в Интернете, обусловлено поддержкой символов, обеспечиваемой Unicode, что позволяет компьютерам поддерживать практически все языки, используемые сегодня в мире, а пользователям и программистам разрабатывать контент на своем родном языке.
Компьютер понимает только числа. Для этого букву кодирует числом, но в коде тоже есть буквы. Например, для английской буквы O на странице 1 код будет 004F. Как быть с этим?
При дальнейшем переводе в двоичный код, будет вот что 01001111
Где, например, французский или немецкий алфавит?
Из Википедия:
1 Французский алфавит – система письма, используемая для записи слов и текстов на французском языке. Во французском алфавите используются 26 пар латинских букв с добавлением диакритических знаков и лигатур.
2 Немецкий алфавит – алфавит на латинской основе, применяемый в письме на немецком языке. Состоит из 26 пар латинских букв. Помимо них, в немецком алфавите присутствуют три умляута и лигатура ß. В отдельных случаях применяются дополнительные варианты букв, но это характерно лишь для некоторых диалектов и, в частности, для слов иностранного происхождения, использующихся в немецком языке.
Посмотрим на сам немецкий алфавит
Юникод этих букв совпадает с 1 и 2 страницах полного Unicode, то есть письменность стран, основанных на латинице, много таблиц не требует. Подавляющую часть таблиц Юникода составляют многочисленные иероглифы.
Нужно добавить, что стандарт Unicode включает не только таблицы. Ещё входят:
– Спецификация The Unicode Standart;
– Приложение к стандарту Unicode (UAX) составляет неотъемлемую часть стандарта Unicode, но публикуется в Интернете в виде отдельного документа;
– База данных символов Unicode (UCD) состоит из нескольких файлов данных, в которых перечислены свойства символов Unicode. Он также включает файлы данных, содержащие тестовые данные на соответствие нескольким важным алгоритмам Unicode.
Все они, это текстовые документы на английском языке, которые рассказывают, поясняют, уточняют что из себя представляет стандарт, как им пользоваться, как он должен работать. Приложение к стандарту, это не приложение, которое загружается из Google Play, а дополнительные пояснения, сведения в конце документа.
Кириллица. Современный русский алфавит.
Кириллица – одна из двух азбук старославянского языка, лёгшая в основу русского и некоторых других славянских алфавитов. По имени славянского просветителя 9 века Кирилла, составившего славянскую азбуку. Славянские алфавиты не на основе латинских букв.
Современный русский алфавит произошёл от кириллицы старославянского языка, которая была заимствована у болгарской кириллицы и получила распространение в Киевской Руси. Кириллица старославянского языка, в свою очередь, восходит к греческому уставному (торжественному) письму.
После этого алфавит много раз реформировался.
Содержание таблицы символов Unicode.
- 0000-0020: Управляющие символы C0
- 0021-007F: Основная латиница
- 0080-00A0: Управляющие символы C1
- 00A1-00FF: Дополнительные символы Latin-1
- 0100-017F: Расширенная латиница-A
- 0180-024F: Расширенная латиница-B
- 0250-02AF: Расширенный набор символов международного фонетического алфавита
- 02B0-02FF: Некомбинируемые протяжённые символы-модификаторы
- 0300-036F: Комбинируемые диакритические знаки
- 0370-03FF: Греческий и коптский алфавиты
- 0400-04FF: Кириллица
- 0500-052F: Дополнительные символы кириллицы
- 0530-058F: Армянский алфавит
- 0590-05FF: Иврит
- 0600-06FF: Арабское письмо
- 0700-074F: Сирийский алфавит
- 0750-077F: Дополнительные символы арабского письма
- 0780-07BF: Тана (мальдивское письмо)
- 07C0-07FF: Нко
- 0800-083F: Самаритянское письмо
- 0840-085F: Мандейский алфавит
- 0860-086F: Сирийское дополнение
- 0870-089F: Расширенный набор символов арабского письма-B
- 08A0-08FF: Расширенный набор символов арабского письма-А
- 0900-097F: Деванагари
- 0980-09FF: Бенгальская
- 0A00-0A7F: Гурмукхи
- 0A80-0AFF: Гуджарати
- 0B00-0B7F: Ория
- 0B80-0BFF: Тамильская
- 0C00-0C7F: Телугу
- 0C80-0CFF: Письменность индийского языка Каннада
- 0D00-0D7F: Малаялам
- 0D80-0DFF: Сингальская
- 0E00-0E7F: Тайская письменность
- 0E80-0EFF: Лаосская письменность
- 0F00-0FFF: Тибетская письменность
- 1000-109F: Мьянманская письменность
- 10A0-10FF: Грузинский алфавит
- 1100-11FF: Хангыль (корейская письменность)
- 1200-137F: Эфиопская слоговая письменность
- 1380-139F: Дополнительные символы эфиопской письменности
- 13A0-13FF: Письменность чероки
- 1400-167F: Канадское слоговое письмо
- 1680-169F: Огам
- 16A0-16FF: Руническая письменность
- 1700-171F: Тагальская (байбайин)
- 1720-173F: Хануноо
- 1740-175F: Бухид
- 1760-177F: Тагбанва
- 1780-17FF: Кхмерская письменность
- 1800-18AF: Старомонгольская письменность
- 18B0-1AFF: Алфавиты и письменности народов Мира
- 1B00-1B7F: Балийская письменность
- 1B80-1BBF: Сунданская письменность
- 1BC0-1BFF: Батакское письмо
- 1C00-1C4F: Письменность лепча (ронг)
- 1C50-1C7F: Письменность Ол Чики
- 1C80-1C8F: Расширенная кириллица-C
- 1C90-1CBF: Грузинский расширенный алфавит
- 1CC0-1CCF: Суданское дополнение
- 1CD0-1CFF: Ведические символы
- 1D00-1D7F: Фонетические расширения
- 1D80-1DBF: Дополнительные фонетические расширения
- 1DC0-1DFF: Дополнительные комбинируемые диакритические знаки
- 1E00-1EFF: Дополнительная расширенная латиница
- 1F00-1FFF: Расширенный набор символов греческого алфавита
- 2000-206F: Знаки пунктуации
- 2070-209F: Надстрочные и подстрочные знаки
- 20A0-20CF: Символы валют
- 20D0-20FF: Комбинируемые диакритические знаки для символов
- 2100-2133: Буквоподобные символы
- 2150-218F: Числовые формы
- 2190-21FF: Стрелки
- 2200-22DB: Математические операторы
- 2300-23FF: Разнообразные технические символы
- 2400-243F: Значки управляющих кодов
- 2440-245F: Символы оптического распознавания
- 2460-24FF: Вложенные буквы и цифры
- 2500-257F: Символы для рисования рамок
- 2580-259F: Символы заполнения
- 25A0-25FF: Геометрические фигуры
- 2600-26FF: Разные символы
- 2700-27BF: Дингбаты
- 27C0-27EF: Разные математические символы-A
- 27F0-27FF: Дополнительные стрелки-A
- 2800-28FF: Шрифт Брайля
- 2900-2BFF: Разнообразные символы народов Мира
- 2C00-2C5F: Глаголица
- 2C60-2C7F: Расширенная латиница-C
- 2C80-2CFF: Коптский
- 2D00-2D2F: Грузинское дополнение
- 2D30-2D7F: Тифинаг
- 2D80-2DDF: Эфиопский расширенный
- 2DE0-2DFF: Расширенная кириллица-A
- 2E00-33FF: Алфавиты и письменности народов Мира
- 3400-4DBF: Расширение A унифицированных иероглифов CJK
- 4DC0-4DFF: Символы гексаграммы Ицзин
- 4E00-9FFF: Унифицированные иероглифы CJK
- A000-A48F: Слоги Йи
- A490-A4CF: Йи Радикалы
- A4D0-A4FF: Лису
- A500-A63F: Вай
- A640-A69F: Расширенная кириллица-B
- A6A0-ABFF: Алфавиты и письменности народов Мира
- AC00-D7AF: Слоги хангыля
- D7B0-D7FF: Хангыль Джамо расширенный-B
- F900-FAD9: Идеограммы совместимости CJK
- FB00-FB4F: Другие алфавитные формы
- FB50-FDFF: Формы представления арабского языка-A
- FE00-11FFF: Алфавиты и письменности народов Мира
- 12000-123FF: Клинопись
- 12400-1247F: Клинописные числа и пунктуация
- 12480-1254F: Ранняя династическая клинопись
- 12F90-12FFF: Кипро-минойский
- 13000-1342F: Египетские иероглифы
- 13430-16FFF: Алфавиты и письменности народов Мира
- 17000-187F7: Тангут
- 18800-18AFF: Тангутские компоненты
- 18B00-1D37F: Алфавиты и письменности народов Мира
- 1D400-1D4B5: Математические буквенно-цифровые символы
- 1D800-1DAAF: Саттон ЗнакПисьмо
- 1DF00-1DFFF: Расширенная латиница-G
- 1E000-1Е02F: Глаголица дополнение
- 1E030-1E08F: Расширенная кириллица-D
- 1E100-1ECBF: Алфавиты и письменности народов Мира
- 1ED00-1ED4F: Османские числа сияков
- 1EE00-1EEFF: Арабские математические алфавитные символы
- 1F000-1F02F: Плитки маджонга
- 1F030-1F09F: Плитки домино
- 1F0A0-1F0FF: Игральные карты
- 1F100-1F1FF: Прилагаемое буквенно-цифровое дополнение
- 1F200-1F2FF: Прилагаемое идеографические приложение
- 1F300-1F5FF: Разные символы и пиктограммы
- 1F600-1F64F: Смайлики
- 1F650-1F67F: Декоративные дингбаты
- 1F680-1F6FF: Транспортные и картографические символы
- 1F700-1F77F: Алхимические символы
- 1F780-1F7FF: Расширенные геометрические фигуры
- 1F800-1F8FF: Дополнительные стрелки-C
- 1F900-1F9FF: Дополнительные символы и пиктограммы
- 1FA00-1FA6F: Шахматные символы
- 1FA70-1FAFF: Расширенные символы и пиктограммы-A
- 1FB00-1FBFF: Символы для устаревших вычислений
- 1FF80-1FFFF: Неназначенный
- 20000-2A6DF: Расширение унифицированных идеографов CJK B
- 2A700-2B739: Расширение унифицированных идеографов CJK C
- 2B740-2B81D: Расширение унифицированных идеографов CJK D
- 2B820-2CEA1: Расширение унифицированных идеографов CJK E
- 2CEB0-2EBE0: Расширение унифицированных идеографов CJK F
- 2F800-2FA1D: Дополнение к идеограммам совместимости CJK
- 2FF80-2FFFF: Неназначенный
- 30000-3134A: Расширение унифицированных иероглифов CJK G
- 31350-323AF: Расширение унифицированных иероглифов CJK H
- 3FF80-DFFFF: Неназначенный
- E0000-E007F: Теги
- E0100-E01EF: Дополнение к селекторам вариантов
- EFF80-EFFFF: Неназначенный
- FFF80-FFFFF: Дополнительная зона частного использования-A
- 10FF80-10FFFF: Дополнительная зона частного использования-B
Как отобразить символ Unicode на странице сайта, если его нет на клавиатуре устройства?
Способов несколько. Один из них:
Перед кодом символа поставить &#x
Здесь x - английская буква x.
После кода поставить ;
Всё это заключить в какой-нибудь html тег.
Примеры.
На странице 93 есть изображение с кодом 260E. Для этого изображения напишем такой html
<p>На странице 93 ☎</p>
На экране устройства отобразится строка с телефоном:
На странице 93 ☎
Аналогично для 260F:
<p>На странице 93 ☏</p>
На странице 93 ☏
При таком методе отображения можно указывать довольно простой код и не использовать фото. Причём Юникод предоставляет широкий выбор маленьких изображений, символов, букв. Увеличить их до большого размера, конечно, не получится. Качество резко пойдёт вниз.
<p>На странице 94 ✐</p>
На странице 94 ✐
<p>✄</p>
✄
<p>На странице 80 ℘</p>
На странице 80 ℘
Не все символы Unicode можно так вывести на экран. Есть исключения, ведь выше я писал, что способов несколько. Например, не отображаются Управляющие символы C0, расположенные в самом начале таблице с кодом в диапозоне 0000-0020. Есть другие исключения, но текст страницы сайта ознакомительный. Не будем углубляться.
Далее не символ Unicode. В таблице такого нет. Это gif-картинка. Её можно скачать, нажав на неё.