Referensi HTML Unicode (UTF-8)
Konsorsium Unicode
Konsorsium Unicode mengembangkan Standar Unicode. Tujuan mereka adalah mengganti set karakter yang ada dengan Unicode Transformation Format (UTF) standarnya.
Standar Unicode telah sukses dan diimplementasikan dalam HTML, XML, Java, JavaScript, E-mail, ASP, PHP, dll. Standar Unicode juga didukung di banyak sistem operasi dan semua browser modern.
Konsorsium Unicode bekerja sama dengan organisasi pengembangan standar terkemuka, seperti ISO, W3C, dan ECMA.
Kumpulan Karakter Unicode
Unicode dapat diimplementasikan oleh set karakter yang berbeda. Pengkodean yang paling umum digunakan adalah UTF-8 dan UTF-16:
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
Tip: 128 karakter pertama Unicode (yang sesuai satu-ke-satu dengan ASCII) dikodekan menggunakan oktet tunggal dengan nilai biner yang sama seperti ASCII, membuat teks ASCII valid Unicode UTF-8-encoded valid juga.
HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!
Standar HTML5: Unicode UTF-8
Karena set karakter dalam ISO-8859 terbatas ukurannya, dan tidak kompatibel dalam lingkungan multibahasa, Konsorsium Unicode mengembangkan Standar Unicode.
Standar Unicode mencakup (hampir) semua karakter, tanda baca, dan simbol di dunia.
Unicode memungkinkan pemrosesan, penyimpanan, dan pengangkutan teks terlepas dari platform dan bahasa.
Pengkodean karakter default dalam HTML-5 adalah UTF-8.
Jika halaman web HTML5 menggunakan set karakter yang berbeda dari UTF-8, itu harus ditentukan dalam tag <meta> seperti:
Contoh
<meta charset="ISO-8859-1">
Perbedaan Antara Unicode dan UTF-8
Unicode adalah kumpulan karakter . UTF-8 sedang menyandikan .
Unicode adalah daftar karakter dengan angka desimal unik (titik kode). A = 65, B = 66, C = 67, ....
Daftar angka desimal ini mewakili string "halo": 104 101 108 108 111
Pengkodean adalah bagaimana angka-angka ini diterjemahkan ke dalam angka biner untuk disimpan di komputer:
Encoding UTF-8 akan menyimpan "halo" seperti ini (biner): 01101000 01100101 01101100 01101100 01101111
Encoding menerjemahkan angka ke dalam biner. Kumpulan karakter menerjemahkan karakter menjadi angka.
Kode Karakter HTML5 UTF-8
Di bawah ini adalah daftar beberapa kode karakter UTF-8 yang didukung oleh HTML5:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |