Digitalización de documentos

La digitalización de documentos es un proceso tecnológico que permite, mediante la aplicación de técnicas fotoeléctricas o de escáner, convertir la imagen contenida en un documento en papel en una imagen digital.[1]

Digitalizando obras del dominio público en Uruguay.

La digitalización de documentos es una forma de capturar y almacenar imágenes utilizando la tecnología computacional.[2]​ Por medio de una cámara digital o un escáner se obtienen imágenes de forma electrónica, que convierte el documento en una imagen mediante softwares de captura.[1]​ La información digitalizada queda registrada en un dispositivo de almacenamiento de datos y puede ser usada para otras operaciones o archivada para futuras consultas sin perder calidad o claridad por el paso del tiempo.

La digitalización de documentos forma parte esencial de la preservación digital, que es un conjunto de técnicas diseñadas para la conservación de la información de los documentos.

Objetivo editar

El objetivo básico de la digitalización de documentos es la transferencia de la información a otro soporte distinto del original. El documento pasa de un estado analógico a uno digital o informático.[1]​ Los documentos en formato informático, son aquel digitalizado con almacenamiento en soporte magnético u óptico.[2]​ La información queda registrada por señales binarias; la calidad y contenido de las copias siempre es idéntica a la del documento original.

La digitalización de documentos permite:

  • Preservar los documentos originales del deterioro por su uso y generar copias de seguridad.
  • Preservar solo el contenido informativo.
  • Agilizar y descentralizar la consulta de los documentos digitalizados.

La tecnología digital permite capturar los valores de cualquier imagen al margen de su soporte, polaridad, dimensiones, etc. Cualquier imagen o conjunto de ellas puede ser estructurada en bases de datos y ser recuperada en nuevos formatos.

Evolución editar

El comienzo de la digitalización, se dio debido a la necesidad del ser humano por almacenar y transmitir la información necesaria en distintos soportes. Antes de realizarse la digitalización tal y como la conocemos hoy en día, se crearon una serie de instrumentos modificados con el paso del tiempo explicados a continuación.

En 1895 el instrumento utilizado se denominaba Telediágrafo, permitía transmitir las imágenes al formato digital por medio de métodos eléctricos. Su uso consistía en dibujar la imagen en una lámina de estaño empleando una tinta no conductora de goma-laca con alcohol, para posteriormente ser fijada en un rodillo que trabajaba como transmisor. Entretanto el receptor utilizaba un lápiz óptico sincronizado con el Telediágrafo, por lo que enviaba y recibía línea a línea la imagen que pretendía digitalizarse. Este proceso de digitalización podía costar hasta media hora.[3]

Posteriormente, con la llegada del Belinógrafo en 1913 la técnica utilizada mejoró notablemente, ya que se utilizaba una fotocelda para traspasar la imagen a través de la línea telefónico conocido como Fax. En los años 40, con la construcción de las primeras computadoras, se empezaron a agregar números para realizar múltiples cálculos. Ya en la década de los 80 se realizaban los primeros escáneres digitales, lo que en lugar de enviarse la imagen a fax se almacenaba en un PC.[3]

Estos primeros aparatos mencionados al capturar los documentos que pretendían digitalizarse contenían una deficiente resolución, pero con el avance de la tecnología y el paso del tiempo han mejorado notablemente hasta la actualidad, utilizando para el proceso de digitalización sistemas mucho más innovadores y eficaces.

Clases y tipos editar

Los diferentes tipos de documentos que podemos encontrar son materiales de soporte magnético y de soporte óptico de caracteres.

Soporte óptico de caracteres (Optical Character Recognition) significa Reconocimiento Óptico de Caracteres (OCR). Es la tecnología que permite convertir imágenes de caracteres en letra de máquina, en caracteres capaces de ser interpretados o reconocidos por un ordenador.[2]​ Obtiene como resultado final un archivo en un formato de texto editable, cuyos formatos de salida en los que se presentan estos archivos pueden ser variados (pdf, txt, etc.).

Este procedimiento es utilizado en la informática como procedimiento para digitalizar un texto a través de un escáner.

Para poder realizar un reconocimiento de los caracteres, el software debe inspeccionar la imagen pixel a pixel buscando formas que coincidan con los rasgos de los caracteres.[4]

El soporte óptico permite analizar elementos del documento como (imágenes, tablas, texto, etc.) para su posterior digitalización.

Este sistema revolucionó el mundo digital, pudiendo evitar la introducción manual de los datos a un ordenador y reconociéndolos automáticamente. Con el paso del tiempo la técnica se ha ido perfeccionando con la evolución y mejora de su efectividad. En la actualidad el soporte óptico además de permitir mantener la estructura de los documentos originales en el archivo de salida, reconoce caracteres contenidos en documentos manuscritos, diagramas, partituras, etc. A pesar de ello, debemos destacar que dispone de una efectividad limitada, debido a que deben realizarse posteriores revisiones y correcciones manualmente del texto escaneado.[4]

En la actualidad existe un sistema de reconocimiento óptico más avanzado denominado de ABBYY FineReader, basado en tres principios fundamentales IPA (Integridad, Intencionalidad y Adaptabilidad).[5]

Respecto a la utilización del OCR es aplicable en diversos ámbitos y sectores (Actividad Jurídica, Centros de Documentación, etc.) para la digitalización de formularios, informes, documentos administrativos, etc. En el sector cultural, en la preservación del patrimonio, el OCR digitaliza principalmente documentos históricos en soporte microfilm o papel.[4]

Entre las ventajas que presenta el soporte óptico de caracteres encontramos:[4]

  • Búsqueda y recuperación de documentos.
  • Explotación de los documentos.
  • Reducción de costes económicos

Los inconvenientes que muestra son los siguientes:[4]

  • Escasez de conocimiento y expertos en las instituciones.
  • Elevado coste de generar texto electrónico
  • Deficiente digitalización de documentos históricos anteriores al siglo XIX.

Las recomendaciones técnicas que se deben considerar para una mayor resolución de los documentos digitalizados con el soporte óptico de caracteres, es establecer una resolución mínima de 300 ppp en documentos de texto con tipos de letra claros y 600 ppp para documentos con letras pequeñas u originales de poca calidad (prensa).[4]

Soporte magnético. Esta categoría hace referencia los materiales audiovisuales, entre los materiales que pueden digitalizarse encontramos (Cintas de vídeo VHS, Beta, Vinilos, Casetes, etc.). El proceso de digitalización consiste en la transcripción de señales analógicas en señales digitales cuyo objetivo es facilitar su procesamiento (comprensión, codificación, etc.), haciendo la señal derivada (digital) con menos ruidos e interferencias a las señales analógicas.[6]

El proceso de digitalización analógica está formado de cuatro etapas:

  • Muestreo (sampling). Consiste en tomar muestras periódicas de la amplitud de la señal. La velocidad con que se toma esta muestra (el número de muestras por segundo), conocido como frecuencia de muestreo. Cuanto menor es el valor del período de muestreo, mejor constituida queda la señal analógica.[6]
  • Retención (hold). Las muestras tomadas han de ser retenidas (retención) por un circuito de retención (hold), el tiempo suficiente para permitir evaluar su nivel (cuantificación). Desde el punto de vista matemático este proceso no se contempla, ya que se trata de un recurso técnico debido a limitaciones prácticas, y carece, por tanto, de modelo matemático.[6]
  • Cuantificación. Mide el nivel de voltaje de cada una de las muestras. Consiste en asignar un margen de valor de una señal analizada a un único nivel de salida. Incluso en su versión ideal, añade, como resultado, una señal indeseada a la señal de entrada: el ruido de cuantificación.[6]
  • Codificación. Consiste en traducir los valores obtenidos durante la cuantificación al código binario. Hay que tener presente que el código binario es el más utilizado, pero también existen otros tipos de códigos que también son utilizados.[6]

Entre las ventajas que presenta el soporte magnético encontramos:[6]

  • Al presentar la señal, leves alteraciones puede ser reparada y amplificada a través de sistemas de regeneración de señales.
  • Dispone de sistemas de detección y modificación de errores.
  • Facilidad para el procesamiento de la señal.
  • La señal digital permite la multigeneración infinita sin pérdidas de calidad.

Los inconvenientes que muestra son los siguientes:[6]

  • Debe realizarse primeramente una conversión analógica-digital y a continuación una decodificación.
  • La transmisión de señales digitales requiere una sincronización precisa entre los tiempos del reloj del transmisor, con respecto a los del receptor.
  • Al utilizar compresión con pérdida, es improbable reconstruir la señal original idéntica, pero permitiría una parecida dependiendo del muestreo tomado en la conversión de analógico a digital.

Características técnicas editar

La digitalización de documentos es un proceso muy normalizado, debe hacerse bajo unas condiciones determinadas y unos requerimientos básicos para una correcta digitalización, es por eso que necesita unas características técnicas definidas, las cuales pueden depender del formato de origen del documento y la finalidad que se le vaya a dar a la copia digitalizada.[7][8]​ Principalmente las características técnicas de los documentos digitalizados son:

Imagen digital editar

A diferencia de las fotografías ordinarias, las digitales están formadas por cadenas de bits, interpretadas por un ordenador, y que presenta una reproducción de la imagen en pantalla.[7]

La imagen digital es dividida en una matriz de puntos a modo de cuadrícula. Cada uno de estos puntos recibe el nombre de píxel, que toma el valor binario 1 o 0 dependiendo de la luminosidad y el tono lumínico leído por el escáner. A cada píxel se le asigna un valor tonal que está representado por un código binario.[8]

Resolución digital editar

La resolución de la imagen viene dada por el número de pixeles que tiene la imagen. Cuanto mayor sea este número mayor será la resolución. La medida de la resolución se determina por el número de píxeles leídos en una distancia lineal de una pulgada (2,54 cm) en el documento digitalizado.[8]

Las resoluciones de escaneado más frecuentemente utilizadas en documentos blanco y negro son 200, 300 y 400 puntos por pulgada. En la digitalización de imágenes color de alta calidad, son típicas resoluciones de 1200 a 2400 puntos por pulgada.

Profundidad de bits o resolución cromática editar

La profundidad de bits específica la cantidad de información de color que está disponible para cada píxel de una imagen. Cuantos más bits de información por píxel haya, más colores disponibles existirán y se podrá apreciar una mayor precisión en la representación del color.[8]

Las imágenes digitales se pueden digitalizar en blanco y negro, a escala de grises o a color.

  • Para la digitalización en blanco y negro, a cada pixel un bit, bien de valor 0 bien de valor 1, correspondiendo al blanco y al negro.
  • Para una escala de grises se aplican 8 bits a cada píxel, de modo que la imagen digital resultante sea capaz de representar 256 valores o tonos de grises.
  • En el caso de las imágenes en color, utilizando 24 bits se obtendrán 16,7 millones de colores.

Tamaño del fichero editar

El tamaño del fichero se calcula multiplicando el área de superficie (ancho por alto) del documento a digitalizar (en pulgadas), por la profundidad en bits (en bits/píxel) y por el cuadrado de la resolución. Dado que el tamaño del archivo se representa en Bytes (8 bits), dividiremos el resultado por 8.[8]

Compresión editar

La compresión se utiliza para reducir el tamaño del fichero de imagen para su almacenamiento, su procesamiento y transmisión. El tamaño del fichero para las imágenes digitales puede ser muy grande, lo que requiere mayores recursos informáticos para su almacenamiento, procesamiento y transmisión.[7]

Existen dos sistemas de compresión: los sistemas de compresión sin pérdidas y los sistemas de compresión con pérdidas. Los sistemas de compresión sin pérdidas reducen el código binario sin desechar o suprimir ninguna información. Los sistemas de compresión con pérdidas sacrifican parte de la información original con el objetivo de conseguir una mayor compresión y, por tanto, un archivo final de tamaño más reducido.[8]

Formatos de ficheros editar

Existen diferentes formatos de ficheros de imágenes en el mercado. Cada uno con sus características específicas, sus ventajas e inconvenientes,[8]​ algunos ejemplos son:

  • BMP (Windows Bitmap)
  • GIF (Graphic Interchange Format)
  • TIFF (Tagged Image File Format)
  • JPEG (Joint Photographic Experts Group)
  • PDF (Portable Document Format)
  • SVG (Scalable Vector Graphics)
  • PNG (Portable Network Graphics)
  • RAW

Proceso editar

La clave del proceso de digitalización es el compromiso entre el dispositivo de captura y el reproductor para que el resultado represente la fuente original con la mayor fidelidad posible.

La digitalización suele ocurrir en dos partes: Discretización y Cuantificación, estos pueden ocurrir al mismo tiempo, aunque son conceptualmente distintos.[cita requerida] Todo proyecto de digitalización, en general, debe contemplar tres aspectos fundamentales:

  • Los objetivos que se quieren lograr
  • El ámbito de aplicación de aplicación
  • La responsabilidad de las partes involucradas

También deben de tenerse en cuenta tres fases diferentes, pero estrechamente ligadas en tres sí:[9]

  • Fase archivística: preparación de la digitalización de documentos según las reglas archivísticas.
  • Fase tecnológica: aplicación de reglas ligadas a la tecnología de la digitalización.
  • Fase legal: cumplimiento de las prescripciones legales para garantizar el valor de los documentos digitalizados.

En el caso específico de digitalizar documentos con origen en formato papel el proceso tiene que realizar:[10]

  • Captura con escáner del documento físico.
  • Indexado de la información extraída del documento.
  • Almacenamiento del documento y la información para una posterior búsqueda.

Fases del proceso editar

Antes de empezar a digitalizar, se debería realizar un documento donde se plasmen los criterios que vamos a emplear para la digitalización, de gran utilidad si cambian los equipos que lo desarrollan.[11]

En el proceso de digitalización de documentos se deben de tener en cuenta ciertas pautas para normalizar dicho proceso en los archivos:

Reunir toda la información a procesar editar

Eliminando todos los elementos que no sean el documento en sí mismo.

Consideraciones de la descripción editar

Seguidamente a la selección de los documentos y previamente a la digitalización, se deben comparar y actualizar las descripciones archivísticas del material objeto de la digitalización. Para poder identificar la documentación digitalizada se deberá registrar como mínimo la información de los elementos obligatorios de ISAD (G). Sin embargo, si se observa algún deterioro físico en el documento original, se hará constar en el área, no obligatoria de “Condiciones de acceso y uso”. Igualmente se hará constar las cuestiones relativas a las restricciones de acceso cuando sea preciso.[8]​A los elementos obligatorios se le suman, para su inclusión como metadatos, los elementos:[11]

  • Archivo que custodia la documentación.
  • Serie documental a la que pertenece
  • Responsable de la digitalización
  • Fecha de la digitalización

Preparación de los orígenes editar

También previamente a la digitalización se comprobará que no existan documentos duplicados, que estén libres de elementos que puedan obstaculizar la digitalización (grapas, gomas, etc.) y de que estén convenientemente ordenadas. Si el documento a digitalizar es una unidad documental compuesta,[12]​ se recomienda foliar el original a lápiz previamente a la digitalización.[8]

Condiciones de visualización y calibración del monitor editar

Es necesario controlar el entorno de visualización, teniendo en cuenta que el monitor (mejor con poca luz) y el documento original (mejor con mucha luz) requieren condiciones de visualización diferentes. También se deben considerar las “condiciones humanas”, ya que sería conveniente que las imágenes se evaluaran bajo las mismas circunstancias. Hay que tener en cuenta también la calibración del monitor,[13]​ ya que las imágenes pueden verse diferentes en distintos monitores. El método ideal es utilizar hardware de calibración de monitor y el software adjunto.[8]

Obtención de las imágenes editar

Es necesario determinar el dispositivo de captura de la imagen más adecuado a la documentación para así garantizar la integridad y la calidad de las imágenes digitales. Por último, se comprobará que el número de páginas digitalizadas sea igual al de imágenes digitales resultantes del proceso de digitalización.[8]

Control de calidad de la imagen editar

Para el control tonal y de color se recomienda incluir en los ficheros maestros escalas o cartas de colores, que sirven para conseguir un mayor control sobre los resultados de un proceso fotográfico, normalmente se incluyen dentro de la propia imagen que se va a reproducir.

Para el control de la resolución y estar dentro de las normas del índice de calidad (QI), se emplea la carta MIRA TEST ISO CHART Nº 2, utilizada en la microfilmación. En el caso de usar cámaras digitales tenemos que saber cuál es la resolución óptica de partida que ofrece el sensor de nuestra cámara. Para ello deberíamos conocer los píxeles que ofrece.[8]

Además hay que tener en cuenta las siguientes consideraciones:[11]

  • Durante todo el proceso de digitalización es necesario efectuar controles de calidad.
  • El proceso de digitalización estará supervisado por un técnico en imagen digital.
  • La supervisión se realizará a partir de la visualización de la imagen en el monitor o bien desde la operación matemática del índice de calidad (QI) para la escala de grises y color.
  • El tamaño del archivo digital, el tipo de archivo y la resolución de captura dependerán de las características de los originales a reproducir.
  • Se efectuarán ensayos de acceso a los ficheros con el fin de establecer un equilibrio entre calidad visual aceptable para el usuario y el tamaño del fichero, de manera que el tiempo de captura sea amable.
  • La captura digital de originales de gran formato se realizará para la copia de conservación en formato TIFF, utilizando un sistema de cuadrícula. Para la difusión de estos formatos se realizará una captura general con una resolución óptima en sistema de compresión JPEG o PNG, y se dividirá en coordenadas.
  • Cuando se realicen capturas con un sistema de compresión, se optará por el grado de compresión que garantice que la calidad de la imagen sea óptima y la pérdida de información mínima.
  • En las imágenes digitales obtenidas se incorporarán los metadatos adecuados de control.
  • La capacidad mínima de captura del sensor será de 6000 píxeles en escala de grises y color RGB.
  • Podrán realizarse todos aquellos procesos encaminados a la mejora y optimización de la imagen captada bajo las directrices del responsable técnico que supervise los trabajos.

Tratamiento de las imágenes editar

Una vez escaneados los documentos, se deberá verificar que las imágenes digitales estén correctamente alineadas, que no tengan imágenes añadidas, que sean una representación exacta de la unidad documental, que sean visibles y legibles y que tengan un índice de calidad. Si estas premisas no se cumplen se deberá realizar el tratamiento de optimización de las imágenes.

Una vez realizada la digitalización se revisará cada una de las imágenes de cada fichero, subsanando las deficiencias detectadas.Una vez revisado se deberá conservar un “fichero maestro” o Copia de conservación (Son reproducciones digitales de alta calidad realizadas con fines de preservación, en formatos RAW o TIFF sin compresión agresiva que afecte a la calidad de la imagen) de todos los documentos digitales y una copia de consulta.[8]

Creación de los ficheros de consulta y ficheros de divulgación editar

A partir de cada fichero maestro deberá crearse un fichero de consulta en formato PDF (documentación encuadernada), JPG o PNG (documentación suelta). Estos ficheros de consulta se pueden hacer bien por defecto o bien por demanda.[8]

Marca de agua editar

Las copias digitales obtenidas deberán ir convenientemente provistas de una marca de agua visible, que identifique el Archivo de procedencia/la institución que custodia los documentos originales.[11]​ Los ficheros maestros (TIFF/PDF) no llevarán inserta en ningún caso marca de agua.

Se debe tener en cuenta que, la marca de agua es un elemento inserto en la imagen que puede ser fácilmente eliminado si se dispone de los medios necesarios. Por tanto, más confiable resulta, la información registrada en el metadato “responsable de la digitalización” ya que en dicho elemento se consignará la persona e institución responsables de dicha digitalización.[8]

Almacenamiento y soportes de conservación editar

Se deben elegir como soportes de almacenamiento de las imágenes digitales aquellos que ofrezcan una mayor garantía para la conservación y preservación inalterable de la información. Las imágenes estarán archivadas en una estructura jerárquica de carpetas, reflejando el esquema de organización de los fondos dentro del Archivo de procedencia. Esta estructura aparecerá duplicada, una de ellas destinada a las imágenes de conservación y otra para las de consulta.

Los responsables de la custodia de las copias comprobarán periódicamente la legibilidad de todos los soportes en los que se han alojado las copias digitales.

Ventajas e inconvenientes editar

Ventajas editar

  • Rápido acceso a múltiples usuarios en todo el mundo
  • Las imágenes pueden rehacerse y mejorarse electrónicamente
  • Se pueden obtener copias de alta calidad
  • La recuperación automatizada facilita la búsqueda de la información
  • Las imágenes pueden reproducirse muchas veces sin pérdida de calidad
  • Las imágenes digitales no se deterioran con el uso.

Inconvenientes editar

  • Gran inversión para sustentar las tecnologías de conversión y recuperación de registros
  • Faltan estándares en muchas áreas
  • El almacenamiento digital no ofrece características de permanencia: necesita revisión continua y una transferencia periódica
  • Los sistemas de recuperación se vuelven obsoletos
  • Aunque en disminución progresiva, los costos de producción y almacenamiento son altos
  • El tiempo y los costos para capturar y almacenar imágenes de alta resolución aumentan a medida que aumenta su calidad. Reproducir en color es más costoso.

Véase también editar

Referencias editar

  1. a b c González Mesa, Elda (2006). «La digitalización de documentos, ¿amiga o enemiga?». La Habana, Cuba. 
  2. a b c Sociedad informática del Gobierno Vaco (2008). «Metodología de Digitalización de Documentos». Vitoria-Gasteiz. Consultado el 14 de diciembre de 2017. 
  3. a b Imaging Center. «Origen y concepto de Digitalizacion». Archivado desde el original el 15 de noviembre de 2017. Consultado el 16 de diciembre de 2017. 
  4. a b c d e f Observatorio Vasco de la Cultura (2011). OCR: tecnología para el reconocimiento óptico de caracteres en una imagen. País Vasco. Consultado el 16 de diciembre de 2017. 
  5. ABBYY (2017). «Que es Reconocimiento óptico de caracteres (OCR)». Consultado el 16 de diciembre de 2017. 
  6. a b c d e f g El rincón de Alex. «PROCESO DE DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA.». Consultado el 16 de diciembre de 2017. 
  7. a b c IFLA (2002). «Directrices para proyectos de Digitalización de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos». La Haya, Holanda. Consultado el 14 de diciembre de 2017. 
  8. a b c d e f g h i j k l m n ñ Junta de Castilla y León (2011). «Recomendaciones para la digitalizacion de documentos en Archivos». Castilla y León. Archivado desde el original el 31 de octubre de 2017. Consultado el 14 de diciembre de 2017. 
  9. Bermúdez Muñoz, María Teresa. «Guía para la digitalización de documentos». Consultado el 10 de diciembre de 1017. 
  10. «Que es digitalizar un documento. Proceso de digitalización de documentos.». 2015. Archivado desde el original el 20 de diciembre de 2017. Consultado el 10 de diciembre de 2017. 
  11. a b c d Archivos de Andalucía. Consejería de cultura. (2 de julio de 2010). «Recomendaciones técnicas digitalizacion». Consultado el 9 de diciembre de 2017. 
  12. [1]
  13. [2]