Diferencia entre revisiones de «ISO/IEC 10646»

Contenido eliminado Contenido añadido
Sin resumen de edición
Sin resumen de edición
Línea 1:
{{enobras}}
El [[Normalización|estándar]] internacional '''[[International Organization for Standardization|ISO]]/[[International Electrotechnical Commission|IEC]] 10646''' define el '''Conjunto de Caracteres Universal''' (denominado también en [[idioma inglés|inglés]] como: '''Universal Character Set''' - UCS) como un sistema [[codificación de caracteres]] en varios [[octeto]]s. Contiene cerca de cien mil [[Carácter (informática)|caracter]]es abstractos, cada uno de ellos identificado de forma precisa por un número [[entero]] denominado '''punto de código''' ('''code point'''). Se creo en el año 1993 por ello a veces también aparece como: ISO/IEC 10646-1:1993
 
En este conjunto se encuentran los diversos caracteres (letras, números, símbolos, ideogramas, logogramas, etc.) procedentes de muchos [[lenguaje]]s, [[Escritura|scripts]],etc yasí como las diversas tradiciones de puntuación deexistentes en todotodos los idiomas del mundo, representadas en los códigos únicos UCS. Es de pensar que la inclusión de nuevos caracteres es constante, haciendo que el conjunto esté permanentemente en estado de actualización.
 
Desde el año [[1991]], el [[Unicode Consortium]] ha venido trabajando con el organismo ISO con el objeto de desarrollar el ''[[Unicode|The Unicode Standard]]'' ("Unicode") y el ISO/IEC 10646 conjuntamente. El repertorio, el nombre de los caracteres, los puntos de código de la versión 2.0 de Unicode hacen un ajuste perfecto con las siete primeras publicaciones de la ISO/IEC 10646-1:1993. Tras la publicación de Unicode 3.0 en febrero de [[2000]], se fueron introduciendo nuevos caracteres en el UCS vía el ISO/IEC 10646-1:2000.
Línea 9:
 
== Formas de codificar el "Conjunto Universal de Caracteres" ==
El ISO 10646 define diversos "''formas de codificación''" de caracteres para el conjunto universal de caracteres (''Universal Character Set''). La más simple es la denominada, '''UCS-2''' que emplea un ''valor de código'' simple (definido como uno o más números representando un código punto) entre 0 y 65,535 para cada caracter, y permite exáctamente dos [[byte]]s (una palabra de 16-[[bit]]) para representar el valor. El UCS-2 permite por lo tanto una representación binaria de cada punto de código en el sistema BMP, haciendo que haya una correspondencia biunívoca entre el valor y el código punto que representa al caracter. El UCS-2 no puede representar puntos código fuera del conjunto BMP.
 
La primera enmienda a la edición original del UCS se definió como '''[[UTF-16]]''', y era una extensión del UCS-2, para representar códigos punto fuera del BMP. En la actualidad existen una zona especial de códigos punto denominada '''S''' (Special) en el BMP que permanece sin asignar a caracteres. El UCS-2 no permite emplear valores de código para estos puntos de código, pero UTF-16 permite el empleo de los mismos en pares. Cada par consiste en un "elemento-RC" (una [[tupla]] de dos octetos que forman un R-octeto y un C-octeto de una secuencia total de cuatro octetos que se asocia a una celda en el espacio de códigos asignados a caracteres). El estándar Unicode ha adoptado también el UTF-16, pero en la terminología de Unicode, la mitad-alta de la zona de elementos se denomina "sustituciones altas" y la mitad inferior de la tabltabla se denomina "sustituciones bajas".
 
Otra codificación es la '''[[UCS-4]]''' que emplea un caracter único entre 0 y (teoricamente) en hexadecimal hasta 7FFFFFFF para ser asignado a cada caracter (sin embargo el UCS para a 10FFFF y la ISO/IEC 10646 tiene comprometida asignaciones futuras de caracteres en este rango). El UCS-4 permite representaciones de cada valor mediante el empleo exacto de cuatro bytes (una palabra de 32-bits). El UCS-4 permite una representación binaria de cada código punto en el sistema UCS, incluyendo aquellos que están fuera del BMP. Como en el sistema de codifiación de UCS-2, cada caracter codificado posee una longitud fija en bytes.
 
==Campo de aplicaciónAplicaciones y alcanceAlcance ==
 
==El fin de hacer este código es==
El intercambio de información, caracteres y símbolos (codificados para la transmisión de datos en entre ordenadores) y para aumentar el número de letras no incluidas en el código ASCII.
 
Proviene del código ISO/IEC JTC1/SC2
 
En la actualidad se considera como un estándar internacional.
 
==Campo de aplicación y alcance==
El Juego Universal de Caracteres en código de múltiples octetos (UCS) es aplicable a la representación, transmisión, intercambio, tratamiento, almacenamiento, introducción y presentación de prácticamente todos los lenguajes del mundo en forma escrita.
La parte básica de la norma, de 1993, especifica la arquitectura general de esta codificación de cuatro octetos (32 bits) compendio de numerosos juegos de caracteres de ámbito nacional e internacional. Define los términos utilizados en su redacción, así como la estructura general de UCS. Especifica asimismo en qué consiste el Plano Multilenguaje Básico (BMP), una reducción del código a 2 octetos (16 bits) y especifica el conjunto de símbolos gráficos de que se compone y sus representaciones codificadas.