Яка різниця між UTF-8 і Cesu 8?

За матеріалами Unicode.org схема кодування CESU-8 для Unicode ідентична UTF-8, за винятком представлення додаткових символів, тобто двійкове зіставлення даних, закодованих у CESU-8, є ідентичним двійковому зіставленню тих самих даних, закодованих у UTF-16

UTF-16

UTF-16 (16-бітний формат перетворення Юнікоду). кодування символів, здатне кодувати всі 1 112 064 дійсних кодових точок Unicode (насправді ця кількість кодових точок продиктована дизайном UTF-16). Кодування має змінну довжину, оскільки кодові точки кодуються одним або двома 16-бітними одиницями коду.

https://en.wikipedia.org › wiki › UTF-16

таким чином для всіх практичних цілей UTF-8 і UTF-16 …

UTF-8 VS ASCII – у чому різниця? UTF-8 розширює набір символів ASCII для використання 8-бітових кодових точок, що дозволяє використовувати до 256 різних символів. Це означає, що UTF-8 може представляти всі друковані символи ASCII, а також недруковані символи.

UTF-8 замінив стандарт кодування символів ASCII, оскільки він може зберігати символ більш ніж в одному байті. Це дозволило нам представити набагато більше типів символів, наприклад емодзі.

UTF-8 є дійсною назвою набору символів IANA, тоді як utf8 – ні. Це навіть недійсний псевдонім. це стосується локалі, наданої реалізацією, де параметри мови, території та кодового набору визначаються реалізацією.

Кодування метарядка використовує 5/6 біт замість 8 біт у кодуванні utf-8 для кожного символу. Оскільки він використовує менше бітів, ніж utf8, він може заощадити 37,5% вартості простору порівняно з utf-8 і має менший двійковий розмір кодування, який використовує менше пам’яті та робить передачу по мережі швидшою.

У C символи є лише 8-бітними цілими, але функції друку (наприклад, printf) можуть інтерпретувати їх як текст через Кодування ASCII.