Различные типы схем кодирования для представления данных

Опубликовано: 3 Декабря, 2021

Любые текстовые данные хранятся компьютером в виде битов (последовательности единиц и нулей) и соответствуют указанной схеме кодирования. Схема кодирования - это стандарт, который сообщает машине пользователя, какой символ представляет какой набор байтов. Указание используемой схемы кодирования очень важно, поскольку без нее машина могла бы интерпретировать данные байты как символы, отличные от предполагаемых.
Например: 0x6B может интерпретироваться как символ «k» в ASCII, но как символ «,» в менее часто используемой схеме кодирования EBCDIC.

  • ASCII (Американский стандартный код для обмена информацией): ASCII можно считать наиболее распространенной используемой схемой кодирования. ASCII, разработанный Американской ассоциацией стандартов, был представлен в 1963 году как ASA X3.4-1963. Он имеет определения для 128 символов от 0x00 до 0x7f, которые представлены 7 битами.
    В формате ASCII-
    Символы Десятичный Шестнадцатеричный
    0-9 48-57 30–39
    Аризона 65-90 41-5А
    az 97-122 61-7A

    Остальная часть шестнадцатеричной системы заполнена другими специальными символами и знаками препинания.

  • UTF-32 (32-битный формат преобразования Unicode): UTF-32 - это схема кодирования, использующая 4 байта для представления символа. Это схема фиксированной длины, то есть каждый символ всегда представлен 4 байтами. Он использовался для представления всех кодовых точек Unicode 1, 112, 064.
    Из-за того, что эта схема требовала больших площадей, она была устаревшей из-за разработанных позже более эффективных схем.
  • UTF-16 (16-битный формат преобразования Unicode): UTF-32 - это схема кодирования, использующая 2 или 4 байта для представления символа. Он может представлять все кодовые точки Unicode 1, 112, 064.
  • UTF-8 (8-битный формат преобразования Unicode): введенная в 1993 году, UTF-8 представляет собой схему кодирования, которая требует, чтобы каждый символ был представлен как минимум 1 байтом. Он может представлять все кодовые точки Unicode.
    UTF-8 - это расширенный набор ASCII, поскольку первые 128 символов от 0x00 до 0x7f совпадают с ASCII. Таким образом, эта схема UTF обратно совместима с ASCII.
    Это кодировка переменной длины, в которой для представления символа используются 1, 2, 3 или 4 байта.
    Чтобы указать, что два (или более) последовательных байта являются частью одного и того же символа или представляют два разных символа, первые несколько бит каждого байта используются в качестве индикаторов.

  • ISCII (Индийский алфавитный код для обмена информацией): это схема кодирования, которая может содержать символы, используемые в различных индийских шрифтах. Это 8-битная схема.
    Первые 128 символов такие же, как ASCII, и только следующие 128 битов используются для представления специфических символов ISCII.