Diferencia entre revisiones de «Unicode»

Contenido eliminado Contenido añadido
m Revertidos los cambios de 186.81.149.219 (disc.) a la última edición de Xqbot
Línea 9:
La descripción completa del estándar y las tablas de caracteres están disponibles en la página web oficial de Unicode [http://www.unicode.org/charts/]. La referencia completa se publica, además, en forma de libro impreso cada vez que se libera una nueva versión principal. La versión digital de este libro está disponible de forma gratuita. Las revisiones y adiciones se publican de forma independiente.
 
== Repertorio de caracteres ==
requezon
=== Tipos de caracteres ===
[[Archivo:Angstrom unicode sample.svg|right|thumb|350px|Distintas versiones del carácter [[Angstrom]], como carácter (versión preferida), como carácter con signo diacrítico y como símbolo con forma de letra.]]
Los bloques del espacio de códigos contienen puntos con la siguiente información:<ref name="UNICODE-CODIGOS">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard|capítulo=16. Special Areas and Format Characters |url=http://www.unicode.org/versions/Unicode5.0.0//ch16.pdf |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
 
'''Caracteres gráficos''': Letras, signos diacríticos, números, caracteres de puntuación, símbolos y espacios.
 
'''Caracteres de formato''': Caracteres invisibles que afectan al proceso del texto próximo. Ejemplos: U+2028 ''salto de línea'', U+2029 ''salto de párrafo'', U+00A0 ''no break space'', etc.
 
'''Códigos de control''': 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
 
'''Caracteres privados''': Reservados para el uso fuera del estándar por fabricantes de ''software''.
 
'''Caracteres reservados''': Códigos reservados para su uso por Unicode. Son posiciones no asignadas.
 
'''Puntos de código subrogados''': Unicode reserva los puntos de código de U+D800 a U+DFFF para su uso como códigos subrogados en UTF-16, en la representación de caracteres suplementarios.
 
'''No-caracteres''': Son códigos reservados permanentemente para uso interno por Unicode. Los dos últimos puntos de cada plano U+FFFE y U+FFFF.
 
'''Caracteres descartados''': Son caracteres que se retienen por compatibilidad con versiones anteriores, pero se debe evitar su uso.
 
=== Repertorio unificado chino, coreano y japonés ===
 
Los ideogramas de Asia oriental (popularmente llamados ''caracteres chinos'') se denominan ''ideogramas Han'' en el Estándar Unicode. Estos ideogramas se desarrollaron en China y fueron adaptados por culturas próximas para su propio uso.<ref name="UNICODE-HAN1">{{cita web |título=On the Encoding of Latin, Greek, Cyrillic, and Han |url=http://www.unicode.org/notes/tn26/}}</ref><ref name="UNICODE-HAN2">{{cita libro |título=Unicode 5.0 Standard |url=http://www.unicode.org/versions/Unicode5.0.0/ch12.pdf | capítulo=12. East Asian Scripts}}</ref> [[Japón]], [[Corea]] y [[Vietnam]] desarrollaron sus propios sistemas alfabéticos o silábicos para usar en combinación con los símbolos chinos: ''[[hiragana]]'' y ''[[katakana]]'' en Japón, ''[[hangul]]'' en Corea y [[Yi]] en Vietnam. La evolución natural de los sistemas de escritura y los distintos momentos de entrada de los caracteres en las distintas culturas han marcado diferencias en los ideogramas utilizados. Unicode considera las distintas versiones de los ideogramas como variantes de un mismo carácter abstracto, es decir, como resultado de la aplicación de un [[tipo de letra]] diferente en cada caso y considera las variantes nacionales como pertenecientes a un mismo sistema de escritura. La versión original del estándar se desarrolló a partir de los estándares industriales existentes en los países afectados.
 
El organismo encargado de desarrollar el repertorio de caracteres es el [[Ideographic Rapporteur Group]] (IRG). IRG es un grupo de trabajo integrado en ISO/IEC JTC1/SC2/WG2, incluyendo a [[China]], [[Hong Kong]], [[Macao]], [[Taipei Computer Association]], [[Singapur]], [[Japón]], [[Corea del Sur]], [[Corea del Norte]], [[Vietnam]] y [[Estados Unidos de América]].<ref name="UNICODE-HAN1" />
 
La base de datos de caracteres CJK se denomina '''Unihan''' y contiene, además, información auxiliar sobre significado, conversiones, datos necesarios para utilizarlos en los diferentes lenguajes que los utilizan. A continuación se muestran los bloques que describen este repertorio. IRG define los caracteres de los tres grupos unificados, los siguientes dos grupos contienen caracteres para compatibilidad con estándares anteriores.
 
{| class="wikitable"
|-
| '''Bloque'''
| '''Rango de códigos'''
| '''Comentarios'''
|-
| Ideogramas unificados CJK
| 4E00-9FFF
| Ideogramas de uso común. Tamaño de código 2 bytes.
|-
| Ideogramas unificados CJK - Extensión A
| 3400-4DFF
| Ideogramas de uso poco habitual. Tamaño de código 2 bytes.
|-
| Ideogramas unificados CJK - Extensión B
| 20000-2A6DF
| Ideogramas de uso poco habitual e históricos.
|-
| Ideogramas de compatibilidad
| F900-FAFF
| Duplicados, variantes unificables y caracteres corporativos. Tamaño de código 2 bytes.
|-
| Suplemento de ideogramas de compatibilidad
| 2F800-2FA1F
| Variantes unificables.
|}
 
=== Composición de caracteres y secuencias ===
[[Archivo:Composicion nh.svg|thumb|right|250px|Composición del carácter '''"ñ"'''. La primera es un carácter independiente, la segunda una '''n''' más una tilde combinable.]]
Unicode incluye un mecanismo para formar caracteres y así extender el repertorio de compatibilidad con los símbolos existentes. Un carácter base se complementa con marcas: signos diacríticos, de puntuación o marcos. El tipo de cada carácter y sus atributos definen el papel que pueden jugar en una combinación. Por este motivo, puede haber varias opciones que representen el mismo carácter. Para facilitar la compatibilidad con codificaciones anteriores, se proporcionan caracteres precompuestos; en la definición de dichos caracteres se hace constar qué caracteres intervienen en la composición.
 
Un grupo de caracteres consecutivos, independientemente de su tipo, forma una secuencia. En caso de que varias secuencias representen el mismo conjunto de caracteres esenciales, el estándar no define una de ellas como 'correcta', sino que las considera equivalentes. Para poder identificar dichas equivalencias, Unicode define los mecanismos de ''equivalencia canónica'' y de ''equivalencia de compatibilidad'' basados en la obtención de formas normalizadas de las cadenas a comparar.
 
=== Secuencias de descripción ideográfica ===
 
Se admite que nunca se podrá finalizar la tarea de incluir ideogramas en el estándar debido, principalmente, a que la creación de nuevos ideogramas continúa. A fin de suplir eventuales carencias, Unicode ofrece un mecanismo que permite la representación de los símbolos que faltan denominado ''secuencias de descripción ideográfica''. Se basa en que la práctica totalidad de los ideogramas se puede descomponer en piezas más pequeñas que, a su vez, son ideogramas. Aunque sea posible la representación de un símbolo mediante una secuencia, el estándar especifica que siempre que exista una versión codificada su uso debe ser preferente. No hay un método para la ''descomposición canónica'' de ideogramas ni algoritmos de equivalencia por lo que las operaciones sobre el texto, como búsqueda u ordenación, pueden fallar.
 
Unicode define 12 caracteres diferentes para la descripción de ideogramas representando distintas posibilidades de combinación espacial de otros caracteres Han.
 
== Tratamiento de la información ==
Línea 67 ⟶ 133:
La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros esquemas.
 
== Historia ==
cero
 
El proyecto unicode se inició a finales de [[1987]], tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis.<ref name="UNICODE-HISTORY">{{cita web | título = Chronology of Unicode Version 1.0 | url= http://www.unicode.org/history/versionone.html}}</ref> Como resultado de su colaboración, en agosto de [[1988]] se publicó el primer borrador de Unicode bajo el nombre de Unicode88.<ref name="UNICODE-DRAFT">
{{cita publicación | apellido = Becker | nombre = Joseph D. | fecha = [[10 de septiembre]] | año = [[1998]] | título = Unicode 88 | páginas = 10 | editorial = Unicode Consortium | url = http://www.unicode.org/history/unicode88.pdf | idioma = Inglés | fechaacceso = 29 de mayo de 2009}}</ref> Esta primera versión, con códigos de 16 bits, se publicó asumiendo que solo se codificarían los caracteres necesarios para el uso moderno.
 
Durante el año 1989 el trabajo continuó con la adición de colaboradores de otras compañías como [[Microsoft]] o [[Sun Microsystems]]. El Consorcio Unicode se formó el [[3 de febrero]] de [[1991]] y en octubre de 1991 se publicó la primera versión del estándar. La segunda versión, incluyendo escritura ideográfica Han se publicó en junio de [[1992]]. A continuación se muestra una tabla con las distintas versiones del Estándar Unicode con sus adiciones o modificaciones más importantes.
 
{| class="wikitable"
|-
!rowspan=2| Version
!rowspan=2| Fecha
!rowspan=2| Publicación
!rowspan=2| Edición [[Universal Character Set|ISO/IEC 10646]] asociada
!rowspan=2| Escrituras
!colspan=2| Caracteres
|-
! #
! Adiciones notables
|-
| 1.0.0
| Octubre de 1991
| ISBN 0-201-56788-1 (Vol.1)
|
| 24
| 7.161
| El repertorio inicial cubre los alfabetos: [[Alfabeto árabe|Árabe]], [[Alfabeto armenio|Armenio]], [[Alfabeto bengalí|Bengali]], [[Zhuyin|Bopomofo]], [[Alfabeto cirílico|Cirílico]], [[Alfabeto devanagari|Devanagari]], [[Alfabeto georgiano|Georgiano]], [[Alfabeto griego|Griego/Copto]], [[Idioma guyaratí|Gujarati]], [[Gurmukhi]], [[Hangul]], [[Alfabeto hebreo|Hebreo]], [[Hiragana]], [[Kannada]], [[Katakana]], [[Lao]], [[Alfabeto latino|Latino]], [[Malayalam]], [[Oriya]], [[Tamil]], [[Telugú]], [[Alfabeto tailandés|Thai]], y [[Idioma tibetano|Tibetano]].<ref name="UNICODE-CAMBIOS3"/>
|-
| 1.0.1
| Junio 1992
| ISBN 0-201-60845-6 (Vol.2)
|
| 25
| 28.359
| Definido el primer conjunto de 20.902 ideogramas [[CJK]] unificados.<ref name="UNICODE-CAMBIOS3"/>
|-
| 1.1
| Junio 1993
|
| ISO/IEC 10646-1:1993
| 24
| 34.233
| Se agregan 4.306 caracteres [[Hangul]] más al conjunto original de 2.350. Se elimina el alfabeto tibetano.<ref name="UNICODE-CAMBIOS3"/>
|-
| 2.0
| Julio 1996
| ISBN 0-201-48345-9
| ISO/IEC 10646-1:1993 con enmiendas 5, 6 y 7
| 25
| 38.950
| Eliminado el conjunto original de caracteres [[Hangul]]; se agrega un nuevo conjunto de 11.172 caracteres Hangul en una nueva ubicación. Se reincorpora el alfabeto tibetano en una nueva ubicación y con un juego de caracteres diferente. Se define el sistema de códigos subrogados y se crean los planos 15 y 16 de caracteres para uso privado.<ref name="UNICODE-CAMBIOS3"/>
|-
| 2.1
| Mayo 1998
|
| ISO/IEC 10646-1:1993 con enmiendas 5, 6 y 7, y dos caracteres de la enmienda 18
| 25
| 38.952
| Se agrega el símbolo del [[Euro]].<ref name="UNICODE-CAMBIOS3"/>
|-
| 3.0
| Septiembre 1999
| ISBN 0-201-61633-5
| ISO/IEC 10646-1:2000
| 38
| 49.259
| Ideogramas [[Cherokee]]. Escrituras [[Alfabeto etíope|Etíope]], [[Idioma camboyano|Jemer]], [[Idioma mongol|Mongol]], [[Idioma birmano|Myanmar]], [[Ogham]], [[Alfabeto rúnico]], [[Escritura Sinhala|Sinhala]], [[Alfabeto siríaco|Siríaco]], [[Thaana]], [[Silabarios indígenas canadienses|Silabario unificado de los indígenas canadienses]], y [[Yi]] además de los patrones [[Braille]].<ref name="UNICODE-CAMBIOS3">{{cita libro |autor= The Unicode Consortium, Joan Aliprand, et al. |título= The Unicode Standard. Version 3.0 standard|capítulo=Appendix D. Changes from Unicode Version 2.0 |url=http://unicode.org/book/appD.pdf |fecha= [[enero de 2000]] |año= [[2000]] |mes= [[enero]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-201-61633-5}}</ref>
|-
| 3.1
| Marzo de 2001
|
| ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001
| 41
| 94,205
| Se agregan los alfabetos [[Alfabeto Deseret|Deseret]], [[Alfabeto gótico|Gótico]] y [[Alfabeto etrusco|Etrusco]], y los símbolos de [[Notación musical|Notación musical moderna]], [[Música bizantina]], y 42.711 ideogramas de [[CJK]] unificado.<ref name="UNICODE-CAMBIOS5"/>
|-
| 3.2
| Marzo 2002
|
| ISO/IEC 10646-1:2000 con la enmienda 1
ISO/IEC 10646-2:2001
| 45
| 95.221
| Agregadas las escrituras [[filipinas]]: [[Buhid]], [[Hanunó'o|Hanunoo]], [[Baybayin|Tagalo]], y [[Tagbanwa]].<ref name="UNICODE-CAMBIOS5"/>
|-
| 4.0
| Abril 2003
| ISBN 0-321-18578-1
| ISO/IEC 10646:2003
| 52
| 96.447
| Se agrega el [[Silabario chipriota]], [[Limbu]], [[Lineal B]], [[Alfabeto Osmanya|Osmanya]], [[Alfabeto Shaviano|Shaviano]], [[Idioma tai nüa|Tai Le]], y [[Alfabeto ugarítico|Ugarítico]], y los símbolos [[I Ching|Hexagrama]].<ref name="UNICODE-CAMBIOS5"/>
|-
| 4.1
| Marzo 2005
|
| ISO/IEC 10646:2003 con enmienda 1
| 59
| 97.720
| Agregados [[Idioma buginés|Buginese]], [[Alfabeto glagolítico|Glagolítico]], [[Kharoshthi]], [[New Tai Lue]], [[Persa antiguo]], [[Idioma sylheti|Syloti Nagri]], y [[Tifinagh]]. Se separa el [[Alfabeto copto|Copto]] del alfabeto griego. Símbolos griegos antiguos para música y numeración.<ref name="UNICODE-CAMBIOS5">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard|capítulo=Appendix D. Changes from previous versions |url=http://www.unicode.org/versions/Unicode5.0.0/appD.pdf |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
|-
| 5.0
| Julio de 2006
| ISBN 0-321-48091-0
| ISO/IEC 10646:2003 con enmiendas 1 y 2 y cuatro caracteres de la enmienda 3
| 64
| 99.089
| Agregados [[Escrituras brahámicas|Balinés]], [[Cuneiforme]], [[Lenguas mandé|N'Ko]], [[Alfabeto de 'Phags-pa|Phags-pa]], y [[Alfabeto fenicio|Fenicio]].<ref name="UNICODE-CAMBIOS5"/>
|-
| 5.1
| Abril 2008
|
| ISO/IEC 10646:2003 más enmiendas 1, 2, 3 y 4
| 75
| 100.713
| Agregados [[Caria|escritura caria]], [[Lengua cham|Cham]], [[Kayah Li]], [[Lepcha|escritura lepcha]], [[Alfabeto licio]], [[Alfabeto Lidio]], [[Alfabeto Ol Chiki]], [[Escrituras brahámicas|Rejang]], [[Saurashtra]], [[Escrituras brahámicas|Sundanés]], y el [[Silabario Vai|Vai]]. Los jeroglíficos del [[Disco de Festos]], fichas de [[Mahjong]] y de [[Dominó]]. Adiciones importantes para el [[Escrituras brahámicas|Birmano]], letras y [[abreviaturas de amanuense]] utilizadas en [[manuscrito]]s medievales y la adición de la [[ß]] mayúscula.<ref>[http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt Archivo de datos de Unicode 5.1]</ref>
|}
 
Unicode 5.2, en correspondencia con ISO/IEC 10646:2003 con enmiendas de 1 a 6, se publicará en otoño de 2009.<ref>[http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3642.pdf Unicode Liaison Report&nbsp;— WG 2 meeting 54]</ref>
 
== Véase también ==