Hệ thống Unicode là gì?

0
1855
Hệ thống Unicode là gì?

Hệ thống Unicode là một tiêu chuẩn mã hóa ký tự quốc tế phổ quát, có khả năng đại diện cho hầu hết các ngôn ngữ viết trên thế giới.

Hệ thống Unicode là gì?
Hệ thống Unicode là gì?

Tại sao sử dụng hệ thống Unicode

Trước khi có Unicode, chúng ta có rất nhiều tiêu chuẩn ngôn ngữ như:

  • ASCII thường được Mỹ sử dụng
  • ISO 8859-1 cho ngôn ngữ Tây Âu.
  • KOI-8 cho tiếng Nga.
  • GB18030BIG-5 cho tiếng Trung Quốc, v.v.

Vấn xảy ra là gì?

Nhiều tiêu chuẩn mã hóa ký tự gây ra hai vấn đề:

  • Một giá trị mã cụ thể tương ứng với các chữ cái khác nhau trong các tiêu chuẩn ngôn ngữ khác nhau. (Vấn đề nhầm lẫn)
  • Các mã hóa cho các ngôn ngữ có bộ ký tự lớn có độ dài thay đổi. Một số ký tự phổ biến được mã hóa dưới dạng 1 byte, loại khác yêu cầu hai hoặc nhiều byte. (Vấn đề bộ nhớ)

Giải pháp cho vấn đề này là gì?

Để giải quyết những vấn đề này, một tiêu chuẩn ngôn ngữ mới đã được phát triển để sử dụng chung, tức là Hệ thống Unicode.
Trong unicode, ký tự giữ 2 byte, do đó java cũng sử dụng 2 byte cho các ký tự.

  • Giá trị thấp nhất: \u0000
  • Giá trị cao nhất: \uFFFF

Lời kết

Để sản phẩm công nghệ thông tin phát triển mạnh thì khả năng sử dụng ở mọi nơi cần được quan tâm. Nhưng nếu không có tiếng nói chung, tiêu chuẩn chung thì rất khó để làm điều đó.

Chính vì thế, chúng ta có những tiêu chuẩn như Unicode.

Tham khảo: