Diferencia entre revisiones de «ISO/IEC 10646»

5 bytes añadidos ,  hace 14 años
agregando acentos, Replaced: caracter → carácter (5) AWB
m
(agregando acentos, Replaced: caracter → carácter (5) AWB)
 
== Formas de codificar el "Conjunto Universal de Caracteres" ==
El ISO 10646 define diversos "''formas de codificación''" de caracteres para el conjunto universal de caracteres (''Universal Character Set''). La más simple es la denominada, '''UCS-2''' que emplea un ''valor de código'' simple (definido como uno o más números representando un código punto) entre 0 y 65,535 para cada caractercarácter, y permite exáctamente dos [[byte]]s (una palabra de 16-[[bit]]) para representar el valor. El UCS-2 permite por lo tanto una representación binaria de cada punto de código en el sistema BMP, haciendo que haya una correspondencia biunívoca entre el valor y el código punto que representa al caractercarácter. El UCS-2 no puede representar puntos código fuera del conjunto BMP.
 
La primera enmienda a la edición original del UCS se definió como '''[[UTF-16]]''', y era una extensión del UCS-2, para representar códigos punto fuera del BMP. En la actualidad existen una zona especial de códigos punto denominada '''S''' (Special) en el BMP que permanece sin asignar a caracteres. El UCS-2 no permite emplear valores de código para estos puntos de código, pero UTF-16 permite el empleo de los mismos en pares. Cada par consiste en un "elemento-RC" (una [[tupla]] de dos octetos que forman un R-octeto y un C-octeto de una secuencia total de cuatro octetos que se asocia a una celda en el espacio de códigos asignados a caracteres). El estándar Unicode ha adoptado también el UTF-16, pero en la terminología de Unicode, la mitad-alta de la zona de elementos se denomina "sustituciones altas" y la mitad inferior de la tabla se denomina "sustituciones bajas".
 
Otra codificación es la '''[[UCS-4]]''' que emplea un caractercarácter único entre 0 y (teoricamente) en hexadecimal hasta 7FFFFFFF para ser asignado a cada caractercarácter (sin embargo el UCS para a 10FFFF y la ISO/IEC 10646 tiene comprometida asignaciones futuras de caracteres en este rango). El UCS-4 permite representaciones de cada valor mediante el empleo exacto de cuatro bytes (una palabra de 32-bits). El UCS-4 permite una representación binaria de cada código punto en el sistema UCS, incluyendo aquellos que están fuera del BMP. Como en el sistema de codifiación de UCS-2, cada caractercarácter codificado posee una longitud fija en bytes.
 
== Historia de la ISO 10646==
6939

ediciones