Diferencia entre revisiones de «Unicode»

Contenido eliminado Contenido añadido
ortografía
m Revertidos los cambios de 193.144.2.254 (disc.) a la última edición de 190.230.0.213
Línea 1:
El '''Estándar Unicode''' es un [[estandarización|caption=estándar]] de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples Caracterlenguajes alfayy disciplinas técnicas además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.<ref name="RESUMEN-HISTORICO">{{cita web |url=http://www.unicode.org/history/summary.html |título= Resumen histórico |editorial= Unicode, Inc. |fechaacceso=21 de mayo de 2009}}</ref>
zazazadfgses —[[grafema]]s— definiéndolos de forma abstracta y deja la representación visual (tamaño, dimensión, fuente o estilo) al software que lo trate, como [[procesador de texto|procesadores de texto]] o [[navegador web|navegadores web]]. Se incluyen letras, signos diacríticos, caracteres de puntuación, ideogramas, caracteres silábicos, caracteres de control y otros símbolos. Los caracteres se agrupan en alfabetos o sistemas de escritura. Se considera que son diferentes los caracteres de alfabetos distintos, aunque compartan forma y significación.
 
Los caracteres se identifican mediante un número o punto de código y su nombre o descripción. Cuando se ha asignado un código a un carácter, se dice que dicho carácter está ''codificado''. El espacio para códigos t
|caption= Caracter alfay disciplinas técnicas además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.<ref name="RESUMEN-HISTORICO">{{cita web |url=http://www.unicode.org/history/summary.html |título= Resumen histórico |editorial= Unicode, Inc. |fechaacceso=21 de mayo de 2009}}</ref>
 
Unicode especifica un nombre e identificador numérico único para cada carácter o símbolo, el ''code point'' o ''punto de código'', además de otras informaciones necesarias para su uso correcto: direccionalidad, capitalización y otros atributos. Unicode trata los caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introducción de marcas o caracteres de control.<ref name="UNICODE-ABOUT">{{cita web |url= http://www.unicode.org/standard/standard.html |título= About the Unicode Standard |editorial= Unicode, Inc. |fechaacceso=21 de mayo de 2009}}</ref>
 
cvbcvElEste estándar es mantenido por el '''Estándar Unicode' Technical Committee'' es(UTC), unintegrado [[estandarización|estándar]]en deel Unicode Consortium, del que forman parte con distinto codificacióngrado de caracteresimplicación diseñadoempresas paracomo: facilitarMicrosoft, elApple, tratamientoAdobe, informáticoIBM, transmisiónOracle, ySAP, visualizaciónGoogle, deinstituciones textoscomo la Universidad de múltiplesBerkeley, lenguajesy profesionales y académicos a título individual.<ref name="UNICODE-MEMBERS">{{cita web |url= http://www.unicode.org/standard/standard.html |título= The Unicode Consortium Members |editorial= Unicode, Inc. |fechaacceso=21 de omayo de 2009}}</ref> El Unicode Consortium mantiene estrecha relación con ISO/IEC, con la que mantiene un acuerdo desde 1991 con el objetivo de mantener la sincronización entre sus estándares que contienen los mismos caracteres y puntos de código.<ref name="UNICODE-ISO">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard|capítulo=Appendix C. Relationship to ISO/IEC10646 |url=http://www.unicode.org/versions/Unicode5.0.0/appC.pdf |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
 
cvbcvEl '''Estándar Unicode''' es un [[estandarización|estándar]] de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes o de 2009}}</ref> El Unicode Consortium mantiene estrecha relación con ISO/IEC, con la que mantiene un acuerdo desde 1991 con el objetivo de mantener la sincronización entre sus estándares que contienen los mismos caracteres y puntos de código.<ref name="UNICODE-ISO">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard|capítulo=Appendix C. Relationship to ISO/IEC10646 |url=http://www.unicode.org/versions/Unicode5.0.0/appC.pdf |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
 
El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de [[codificación de caracteres]] existentes, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos plurilingües. Unicode se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el dominante en la [[Internacionalización (computación)|internacionalización]] y adaptación local del [[software|software informático]]. El estándar ha sido implementado en un número considerable de tecnologías recientes, que incluyen [[XML]], [[Lenguaje de programación Java|Java]] y [[sistemas operativos]] modernos.
Línea 16 ⟶ 12:
{{Cuadroimagen
|width=350
Este estándar es mantenido por el ''Unicode Technical Committee'' (UTC), integrado en el Unicode Consortium, dacceso|caption=21 deCaracter maybéticoalfabético latino ''A'', sílaba devanagari Aum (Om), e ideograma chino yue (luna).
|align=right
|content=[[Archivo:Letter A.svg|100px]] [[Archivo:Aum.svg|100px]] [[Archivo:074 - yue4 - moon.svg|101px]]
Línea 22 ⟶ 18:
Unicode incluye todos los caracteres de uso común en la actualidad. La versión 5.1 contiene 100.713 caracteres provenientes de alfabetos, sistemas ideográficos y colecciones de símbolos (matemáticos, técnicos, musicales, iconos...). La cifra crece en cada versión.
 
Unicode incluye sistemas de escritura modernos como: [[Alfabeto árabe|Árabe]], [[Braille (lectura)|Braille]], [[Alfabeto copto|Copto]], [[Alfabeto cirílico|Cirílico]], [[Alfabeto griego|Griego]], [[Escritura china|Han]] ([[Kanji]], [[Hanja]] y [[Hanzi]]), [[Escritura japonesa|Japonés]] ([[Kanji]], [[Hiragana]] y [[Katakana]]), [[Alfabeto hebreo|Hebreo]] y [[Alfabeto latino|Latino]]. Escrituras históricas menos utilizadas, incluso aquellas extinguidas, para propósitos académicos, como por ejemplo: [[Escritura cuneiforme|Cuneiforme]], [[Alfabeto griego|Griego antiguo]], [[Lineal B]] micénico, [[Alfabeto fenicio|Fenicio]] y [[Runa (escritura)|Rúnico]]. Entre los caracteres que no forman parte de alfabetos se encuentran símbolos musicales y mel que forman parte con distinto grado de implicación empresas como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google, instituciones como la Universidad de Berkeley, y profesionales y académicos a título individual.<ref name="UNICODE-MEMBERS">{{cita web |url= http://www.unicode.org/standard/standard.html |título= The Unicode Consortium Members |editorial= Unicode, Inc. |fechaatemáticosmatemáticos, fichas de juegos como el dominó, flechas, iconos, etc. Además Unicode dispone de versiones predefinidas de la mayoría de combinaciones de letras y símbolos diacríticos en uso en la actualidad y define mecanismos de combinación de caracteres.
 
Actualmente se está trabajando en la inclusión de nuevos grupos de símbolos como los jeroglíficos egipcios y mayas.<ref name="UNICODE-ROADMAP">{{cita web |url= http://www.unicode.org/roadmaps/index.html |título= Roadmaps to Unicode |editorial= Unicode, Inc. |fechaacceso=21 de mayo de 2009}}</ref> Otros alfabetos propuestos han sido descartados por distintas razones, como por ejemplo el alfabeto [[Klingon]].<ref name="UNICODE-ROADMAP" /><ref name="UNICODE-RECHAZO">{{cita web |url= http://unicode.org/alloc/nonapprovals.html |título= Archive of Notices of Non-Approval |editorial= Unicode, Inc. |fechaacceso=21 de mayo de 2009}}</ref>
 
Como ya se ha indiclindicado, Unicode está sincronizado con el estándar ISO/IEC 10646:2003, conocido como [[UCS]] o juego de caracteres universal. Desde un punto de vista técnico, incluye codificaciones anteriores como ASCII7 o [[ISO 8859-1]], los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, [[HKSCS]], y [[CNS 11643]], codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Además, Unicode reserva espacio para uso privado por fabricantes de software.<ref name="UNICODE">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |url=http://www.unicode.org/versions/Unicode5.0.0/bookmarks.html |fecha= [[octubre de 2006]] |año= [[2006]] |mes= [[octubre]] |editorial= Addisson-Wesley |idioma= Inglés |isbn= 0-321-48091-0}}</ref>
 
== Principios de diseño ==
Línea 34 ⟶ 30:
* '''Universalidad''': Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de texto multilingüe.
* '''Eficiencia''': Las secuencias generadas deben ser fáciles de tratar.
* '''No ambigüedad''': Un código dado siempre representa el mismo carácter.
* '''No ambigüedaado, Unicode está sincronizado con el estándar ISO/IEC 10646:2003, conocido como [[UCS]] o juego de caracteres universal. Desde un punto de vista técnico, incluye codificaciones anteriores como ASCII7 o [[ISO 8859-1]], los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, [[HKSCS]], y [[CNS 11643]], codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Además, Unicode reserva espacio para uso privado por fabricantes de software.<ref name="UNICODE">{{cita libro |autor= The Unicode Consortium |editor= Julie D. Allen, Joe Becker (et al.) |título= Unicode 5.0 standard |urd''': Un código dado siempre representa el mismo carácter.
 
== Elementos del estándar Unicode ==
=== Caracteres, puntos de código y espacio de códigos ===
 
El elemento básico del estándar Unicode es el [[carácter]]. Se considera un carácter al elemento más pequeño de un lenguaje escrito con significado. El estándar Unicode codifica los caracteres esencialieneesenciales 1.114.112—[[grafema]]s— posicionesdefiniéndolos posiblesde forma abstracta y deja la representación visual (0x10FFFFtamaño, dimensión, fuente o estilo). Losal puntossoftware deque códigolo setrate, representancomo utilizando[[procesador notaciónde hexadecimaltexto|procesadores agregandode texto]] o el[[navegador prefijoweb|navegadores U+web]]. ElSe valorincluyen hexadecimalletras, sesignos completadiacríticos, concaracteres cerosde hastapuntuación, 4ideogramas, dígitoscaracteres hexadecimalessilábicos, cuandocaracteres esde necesario;control siy esotros símbolos. Los caracteres se agrupan en alfabetos o sistemas de longitudescritura. Se mayorconsidera que 4son dígitosdiferentes nolos slascaracteres de combinaciónalfabetos distintos, etcaunque compartan forma y significación.
 
Los caracteres se identifican mediante un número o punto de código y su nombre o descripción. Cuando se ha asignado un código a un carácter, se dice que dicho carácter está ''codificado''. El espacio para códigos ttiene 1.114.112 posiciones posibles (0x10FFFF). Los puntos de código se representan utilizando notación hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dígitos hexadecimales cuando es necesario; si es de longitud mayor que 4 dígitos no se agregan ceros.
==== Organización del espacio de códigos ====
 
Con excepciones, los ce agregan ceros.
 
==== Base de datos de caracteres ====
 
El conjunto de caracteres codificados por Unicode, es la Base de Datos Unicode o UCD (''Unicode Character Database''). Además de nombre y punto de código, incluye mas información: alfabeto al que pertenece, nombre, clasificación, capitalización, orientación y otras formas de uso, variantes estandarizadas, regaracteresreglas de combinación, etc.

==== Organización del espacio de códigos ====

Con excepciones, los caracteres codificados sea agrupan en el espacio de códigos siguiendo categorías como alfabeto o sistema de escritura, de forma que caracteres relacionados se encuentren cerca en tablas de codificación.
 
=== Planos ===