Студопедия
Новини освіти і науки:
МАРК РЕГНЕРУС ДОСЛІДЖЕННЯ: Наскільки відрізняються діти, які виросли в одностатевих союзах


РЕЗОЛЮЦІЯ: Громадського обговорення навчальної програми статевого виховання


ЧОМУ ФОНД ОЛЕНИ ПІНЧУК І МОЗ УКРАЇНИ ПРОПАГУЮТЬ "СЕКСУАЛЬНІ УРОКИ"


ЕКЗИСТЕНЦІЙНО-ПСИХОЛОГІЧНІ ОСНОВИ ПОРУШЕННЯ СТАТЕВОЇ ІДЕНТИЧНОСТІ ПІДЛІТКІВ


Батьківський, громадянський рух в Україні закликає МОН зупинити тотальну сексуалізацію дітей і підлітків


Відкрите звернення Міністру освіти й науки України - Гриневич Лілії Михайлівні


Представництво українського жіноцтва в ООН: низький рівень культури спілкування в соціальних мережах


Гендерна антидискримінаційна експертиза може зробити нас моральними рабами


ЛІВИЙ МАРКСИЗМ У НОВИХ ПІДРУЧНИКАХ ДЛЯ ШКОЛЯРІВ


ВІДКРИТА ЗАЯВА на підтримку позиції Ганни Турчинової та права кожної людини на свободу думки, світогляду та вираження поглядів



Універсальна система кодування текстових даних UNICODE.

Якщо проаналізувати організаційні труднощі, зв'язані зі створенням єдиної системи кодування текстових даних, то можна дійти до висновку, що вони викликані обмеженим набором кодів (256). Якщо кодувати символи не восьми розрядними, а 16-розрядними двійковими числами, то діапазон можливих значень кодів стане набагато більше. Така система, заснована на 16-розрядному кодуванні символів, одержала назву універсальної – UNICODE. Шістнадцять розрядів дозволяють забезпечити унікальні коди для 65 536 різних символів – цього досить для розміщення в одній таблиці символів більшості мов планети. Повна специфікація стандарту Unicode містить у собі всі існуючі, вимерлі й штучно створені алфавіти миру, а також безліч математичних, музичних, хімічних й інших символів.

Незважаючи на тривіальну очевидність такого підходу, простий механічний перехід на дану систему довгий час стримувався через недостатні ресурси засобів обчислювальної техніки: у системі кодування UNICODE усі текстові документи автоматично стають удвічі довшими. В другій половині 90-х років технічні засоби досягли необхідного рівня забезпеченості ресурсами, і сьогодні ми спостерігаємо поступовий перехід документів і програмних засобів на універсальну систему кодування. Для індивідуальних користувачів це ще більше додало турбот за узгодженням документів, виконаних у різних системах кодування, із програмними засобами, але це треба розуміти як труднощі перехідного періоду.

Отже, Юніко́д, (англ. Unicode) – це промисловий стандарт розроблений, щоб зробити можливим для текстів і символів (графічних знаків) всіх писемних систем світу узгоджене представлення (репрезентацію) і обробку комп’ютерами. Удосконалений сумісно з стандартом Універсальний Набір Символів (Universal Character Set - UCS) і опублікований в формі книги Стандарт Юнікод, Юнікод складається з асортименту символів, методології кодування і комплекту (набору) стандартів кодування символів, комплекту кодових таблиць для посилань на зображення символів, списку властивостей символів таких, наприклад, як верхній і нижній регістр, комплект довідкових даних комп’ютерних файлів, правил нормалізації, декомпозиції, співставлення і зображення (рендерингу).

Стандарт запропонувала в 1991 році організація Консорціум Юнікоду (англ. Unicode Consortium), яка об’єднує найбільші ІТ-компанії (корпорації). Консорціум Юнікоду – неприбуткова (некомерційна) організація, яка координує розвиток Юнікоду, має амбітну мету замінити в кінцевому підсумку існуючі системи кодування символів Юнікодом і його системою стандартів Формат Перетворень Юнікоду (UTF, Unicode Transformation Format), тому що багато існуючих систем кодування є обмеженими в розмірі й можливостях і несумісними з багатомовними середовищами. Успіхи Юнікоду в уніфікації наборів символів призвели до його розповсюдження і домінуючого використання в інтернаціоналізації і локалізації програмного забезпечення комп’ютерів. Стандарт був використаний в багатьох новітніх технологіях, включаючи XML, мову програмування Java і сучасні операційні системи.

Юнікод переступає старе обмеження кодування символів одним байтом. Замість того використовує 17 просторів, кожен з яких визначає 65,536 кодів і дає можливість описати максимум 1 114 112 (17 * 216) різних символів.

Юнікод має декілька реалізацій, але найпоширенішими є дві: UTF (Unicode Transformation Format) – Формат Перетворення Юнікоду та UCS (Universal Character Set) – Універсальна Таблиця Символів. Число після UTF визначає кількість біт виділених під один юніт, а число після UCS визначає кількість байтів. Універсальний набір символів задає однозначну відповідність символів кодам – елементам кодового простору, тобто невід’ємним цілим числам. UTF-8 став найпоширенішим для інтернаціональних кодувань.

UTF-8 є системою кодування з змінною довжиною кодування символів, це означає що для кодування символів він використовує від 1 до 4 байт на символ. Так перший байт UTF-8 використовується для кодування ASCII, що дає повну сумісність з ASCII. Перекодування ASCII кодом UTF-8 для латинських символів дуже незначно збільшить розмір даних, бо використовується тільки перший байт. В східних мовах де мусять для кодування використовувати вищі байти це кодування збільшує розмір даних на 50 %.

UTF-8 дозволяє Вам працювати в стандартизованому міжнародно прийнятому багатомовному середовищі, з порівняно незначним збільшенням обсягу даних. UTF-8 являє собою ідеальний спосіб передачі не ASCII кодованих символів через Інтернет, електронну пошту, чат, тощо.

Переваги застосування UTF:

· Міжнародний стандарт (UTF-8 дозволяє працювати в стандартизованому міжнародно прийнятому багатомовному середовищі).

· Багатомовність (UTF-8 дозволить без значних затрат реалізувати багатомовність на ремурсі, включаючи всі екзотичні мови, які людина собі забажає та спеціальні символи).

· Розширення набору інструментів для роботи із текстом. (Всі розробники ПЗ підтримують кодування UTF-8 у своїх продуктах, щоб розширити ринок їх збуту).

· Безпосередньо саме розширення ринку збуту.

· Стандартизація продукту (звідси випливають багато переваг, серед яких: спрощення підтримки, документування, інтеграція та ін.).

· Підтримка всіх операційних систем, СУБД та браузерів. (навіть тих, що ще не з'явилися).

Недоліки застосування UTF:

· Збільшення розміру файлу. (Хоч і незначне, але збільшення розміру файлу даних, через те, що багато символів будуть кодуватися не 1-им байтом (Win-1251), а 2-ма, 4-ма байтами).

· Освоєння нових інструментів та застосування нових бібліотек функцій чи переписування вже робочих для нового кодування, звідси додаткова витрата часу (читай: грошей).

 

Питання до лекції:

1. Які особливості кодування символьної інформації?

2. Перелічіть існуючі стандарти кодування символьної інформації.

3. Таблиця кодування ASCII: її характеристика.

4. Особливості кодування у Windows-1251.

5. Особливості кодування у КОІ-8.

6. Особливості кодування символьної інформації у UNICODE.

 


Читайте також:

  1. Active-HDL як сучасна система автоматизованого проектування ВІС.
  2. II. Бреттон-Вудська система (створена в 1944 р.)
  3. IV. Система зв’язків всередині центральної нервової системи
  4. IV. УЗАГАЛЬНЕННЯ І СИСТЕМАТИЗАЦІЯ ВИВЧЕНОГО
  5. V. Систематизація і узагальнення нових знань, умінь і навичок
  6. VI. Система навчаючих завдань для перевірки кінцевого рівня завдань.
  7. VI. Система навчаючих завдань для перевірки кінцевого рівня завдань.
  8. VI. Узагальнення та систематизація знань
  9. VII. Закріплення нового матеріалу і систематизація знань.
  10. Автоматизація водорозподілу на відкритих зрошувальних системах. Методи керування водорозподілом. Вимірювання рівня води. Вимірювання витрати.
  11. Автоматизована система ведення державного земельного кадастру
  12. Автоматична система сигналізації




Переглядів: 4477

<== попередня сторінка | наступна сторінка ==>
Кодування КОІ-8. | Параметри семплування.

Не знайшли потрібну інформацію? Скористайтесь пошуком google:

  

© studopedia.com.ua При використанні або копіюванні матеріалів пряме посилання на сайт обов'язкове.


Генерація сторінки за: 0.003 сек.