ALTO (XML)
ALTO (Analized Layout and Text Object) es un esquema XML (usado para almacenar información en forma electrónica) que detalla los metadatos técnicos para describir el diseño gráfico y el texto de las imágenes digitales -ej. páginas de un libro o periódico-, obtenido por medio de un reconocimiento óptico de caracteres. Se inició en un proyecto europeo denominado METAe.[1]
Su finalidad es describir el texto y su disposición en la página de una forma que haga posible reconstruir la apariencia original basándose en la información de la página digitalizada; un enfoque similar al de una operación de guardar la imagen sin pérdida de información por compresión.
Comúnmente se utiliza como un esquema de extensión dentro la sección de metadatos administrativos del esquema METS (Metadata Encoding and Transmission Standard) que sirven para la descripción de la totalidad del objeto digitalizado y la creación de referencias a través de los distintos archivos que lo componen.
Su uso es más que conveniente para la conservación y búsqueda de la información textual a largo plazo, como resultado de un proceso de digitalización, por ser un estándar abierto XML frente al PDF/A, que también permite la superposición de la imagen y texto.
Estructura
editarUn archivo ALTO consta de tres secciones principales como hijos del elemento raíz <alto>:[2]
- <Description>: sección con los metadatos sobre el propio archivo ALTO como la unidad de medida -ej. pixel, pulgada- e información del nombre e identificador de la imagen original y del proceso de cómo se creó el archivo por reconocimiento óptico de caracteres.
- <Style> sección con los estilos de texto y de párrafo, con sus descripciones individuales:
- <TextStyle> contiene la descripción de los distintos tipos de letra o fuentes;
- <ParagraphStyle> contiene la descripción de los párrafos, por ejemplo, las coordenadas de posicionamiento y alineación.
- <Layout> sección con la información del contenido textual. Se subdivide en elementos página <Page>.
Versiones
editarEn el momento de la versión final en junio de 2004 (versión 1.0) y hasta la versión 1.4 ALTO fue mantenido por CCS.[3] El estándar es acogido por la Biblioteca del Congreso desde 2010 y mantenido por un Consejo Editorial iniciado al mismo tiempo.
La última versión de esquema y una visión general sobre todas las versiones con sus enlaces se encuentra en https://github.com/altoxml
Ejemplo
editarFragmento del fichero ALTO que describe la obra La casa de Cervantes en Valladolid (Biblioteca Digital de Castilla y León).[4]
<a:alto xmlns="http://schema.ccs-gmbh.com/ALTO" xmlns:a="http://schema.ccs-gmbh.com/ALTO" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://schema.ccs-gmbh.com/ALTO http://www.loc.gov/ndnp/alto_1-1-041.xsd"> <a:Description> <a:MeasurementUnit>pixel</a:MeasurementUnit> <a:sourceImageInformation> <a:fileName>bdcyl01\alta\bcyl/g-f_3956\img_0005.jpg</a:fileName> </a:sourceImageInformation> <a:OCRProcessing ID="OCRPROC001"> <a:ocrProcessingStep> <a:processingDateTime>2009-02-25T13:59:48</a:processingDateTime> <a:processingStepDescription>FineReader.AnalyzeAndRecognizePage </a:processingStepDescription> <a:processingStepSettings>Profile:bdcyl.ini</a:processingStepSettings> </a:ocrProcessingStep> </a:OCRProcessing> </a:Description> <a:Styles> <a:TextStyle ID="TEXTSTYLE0001" FONTFAMILY="Times New Roman" FONTTYPE="serif" FONTWIDTH="proportional" FONTSIZE="15" FONTSTYLE="bold"/> <a:TextStyle ID="TEXTSTYLE0002" FONTFAMILY="Times New Roman" FONTTYPE="serif" FONTWIDTH="proportional" FONTSIZE="36" FONTSTYLE="bold"/> <a:TextStyle ID="TEXTSTYLE0003" FONTFAMILY="Times New Roman" FONTTYPE="serif" FONTWIDTH="proportional" FONTSIZE="15"/> <a:TextStyle ID="TEXTSTYLE0008" FONTFAMILY="Times New Roman" FONTTYPE="serif" FONTWIDTH="proportional" FONTSIZE="12" FONTSTYLE="bold"/> <a:ParagraphStyle ID="PARSTYLE0001" LEFT="0" RIGHT="0" FIRSTLINE="0"/> <a:ParagraphStyle ID="PARSTYLE0002" LEFT="0" RIGHT="0" LINESPACE="185" FIRSTLINE="0"/> <a:ParagraphStyle ID="PARSTYLE0003" LEFT="306" RIGHT="0" FIRSTLINE="0"/> <a:ParagraphStyle ID="PARSTYLE0006" LEFT="279" RIGHT="0" FIRSTLINE="0"/> </a:Styles> <a:Layout> <a:Page ID="PAG0001" HEIGHT="2727" WIDTH="1745" PHYSICAL_IMG_NR="1" PROCESSING="OCRPROC001"> <a:PrintSpace HEIGHT="2727" WIDTH="1745" HPOS="0" VPOS="0"> <a:TextBlock ID="PAG001BLK0001" HEIGHT="44" WIDTH="118" HPOS="839" VPOS="349" STYLEREFS="PARSTYLE0001"> <a:TextLine ID="PAG001LIN0001" WIDTH="117" HEIGHT="43" HPOS="839" VPOS="349"> <a:String CONTENT="LA" HEIGHT="43" WIDTH="117" HPOS="839" VPOS="349" WC="1" STYLEREFS="TEXTSTYLE0001"/> </a:TextLine> </a:TextBlock> <a:ComposedBlock ID="PAG001BLK0002" HEIGHT="335" WIDTH="1157" HPOS="320" VPOS="502"> <a:TextBlock ID="PAG001BLK0003" HEIGHT="137" WIDTH="1126" HPOS="333" VPOS="520" STYLEREFS="PARSTYLE0002"> <a:TextLine ID="PAG001LIN0002" WIDTH="1125" HEIGHT="136" HPOS="333" VPOS="520"> <a:String CONTENT="CASA" HEIGHT="132" WIDTH="269" HPOS="333" VPOS="524" WC="1" STYLEREFS="TEXTSTYLE0002"/> <a:SP WIDTH="55" HPOS="657" VPOS="524"/> <a:String CONTENT="DE" HEIGHT="132" WIDTH="137" HPOS="657" VPOS="524" WC="1" STYLEREFS="TEXTSTYLE0002"/> <a:SP WIDTH="55" HPOS="849" VPOS="524"/> <a:String CONTENT="CERVANTES" HEIGHT="136" WIDTH="609" HPOS="849" VPOS="520" WC="1" STYLEREFS="TEXTSTYLE0002"/> </a:TextLine> </a:TextBlock> <a:TextBlock ID="PAG001BLK0004" HEIGHT="55" WIDTH="525" HPOS="639" VPOS="777" STYLEREFS="PARSTYLE0003"> <a:TextLine ID="PAG001LIN0003" WIDTH="524" HEIGHT="54" HPOS="639" VPOS="777"> <a:String CONTENT="EN" HEIGHT="52" WIDTH="76" HPOS="639" VPOS="778" WC="1" STYLEREFS="TEXTSTYLE0003"/> <a:SP WIDTH="48" HPOS="763" VPOS="778"/> <a:String CONTENT="VALLADOLID" HEIGHT="54" WIDTH="400" HPOS="763" VPOS="777" WC="1" STYLEREFS="TEXTSTYLE0003"/> </a:TextLine> </a:TextBlock> </a:ComposedBlock> <a:TextBlock ID="PAG001BLK0010" HEIGHT="30" WIDTH="110" HPOS="863" VPOS="2161" STYLEREFS="PARSTYLE0006"> <a:TextLine ID="PAG001LIN0009" WIDTH="109" HEIGHT="29" HPOS="863" VPOS="2161"> <a:String CONTENT="1888" HEIGHT="29" WIDTH="109" HPOS="863" VPOS="2161" WC="0.94" STYLEREFS="TEXTSTYLE0008"/> </a:TextLine> </a:TextBlock> </a:ComposedBlock> </a:PrintSpace> </a:Page> </a:Layout> </a:alto>
Referencias
editar- ↑ «Proyecto europeo METAe». Archivado desde el original el 3 de marzo de 2016. Consultado el 12 de septiembre de 2016.
- ↑ «Web oficial con la estructura de archivos ALTO».
- ↑ «CCS Content Conversion Specialists GmbH, Hamburgo».
- ↑ La casa de Cervantes en Valladolid (Biblioteca Digital de Castilla y León)
Véase también
editar- Reconocimiento óptico de caracteres (OCR, del inglés Optical Character Recognition)
- (en inglés) Metadata Encoding and Transmission Standard (METS)
- (en inglés) Preservation Metadata: Implementation Strategies (PREMIS)
- OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)
- Dublin Core, un estándar de metadatos ISO
- (en inglés) hOCR
Enlaces externos
editar- (en inglés) ALTO (Analyzed Layout and Text Object) standards en la página web de la Biblioteca del Congreso (USA).
- (en inglés) https://altoxml.github.io/ resp. https://github.com/altoxml ALTOxml on GitHub
- (en inglés) METS ALTO Introduction by CCS GmbH Archivado el 4 de septiembre de 2014 en Wayback Machine.