Loquendo

software de reconocimiento y síntesis de voz

Loquendo (palabra que significa Locución, y pronunciado [Locuendo]) es una corporación multinacional de tecnología de software, fundada en 2001 por la empresa Telecom Italia,[1]​ también tiene oficinas en España, Alemania, Francia, Reino Unido y Estados Unidos.[2]

Loquendo
Información general
Tipo de programa Sintetizador de voz
Autor Telecom Italia
Desarrollador Nuance Communications
Modelo de desarrollo Software de reconocimiento y síntesis de voz
Lanzamiento inicial 2001
Licencia Software propietario
Estado actual Con soporte activo
Idiomas Inglés, Italiano, Portugués y más de 15 idiomas
Enlaces

Los productos actuales del Loquendo se pueden encontrar en los GPS (ya sean incorporados al vehículo o portátiles), en dispositivos para personas con discapacidad,[3]teléfonos inteligentes, libros electrónicos, cajeros automáticos con voz, videojuegos de computadora, artefactos domésticos controlados por voz y otros productos.

Sus productos fueron ganadores de varios premios incluyendo “Speech Engine Leader” entregado por “Speech Technologies” en 2007, 2008 y 2009.[4]​ También fue considerado por “Speech Technologies” el líder del mercado en 2009 y 2010.[5]​ El 30 de septiembre de 2011, Nuance Communications (uno de los principales competidores de Loquendo) anunció que había adquirido Loquendo.

El 12 de abril de 2021, Microsoft anunció la adquisición de Nuance Communications, formando parte de la divísion Azure, convirtiéndose en el nuevo propietario de la empresa.

Historia editar

Loquendo era, originalmente, una comunidad de investigación creada a mediados de los años 1970 y 1972 por los administradores del IRI-STET (predecesora de Telecom Italia) en los laboratorios de CSELT (Centro De Estudio y Telecomunicaciones, en Turín) antes de convertirse en una compañía en 2001.

Sintetizador de voz editar

 
Grabación de 45 rpm con "Frère Jacques" cantada por MUSA en 1978.

Construido por recomendación de la Universidad de Padua, aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creó el primer sintetizador de voz con gran inteligibilidad en 1975[6]​ era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción Frère Jacques con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).

La evolución de este prototipo, con el incremento de número de los difonos (alrededor de 1000), el refinamiento de las herramientas de los análisis lingüísticos y el mejor manejo de la forma de onda llevó a una marcada mejora de la voz sintética. Esto llevó a la creación del «sintetizador de voz» en un circuito integrado desarrollado internamente en CSELT.

En los años noventa nació «ELOQUENS», un sintetizador de voz multi-plataforma para varios sistemas operativos incluyendo DOS, Windows, System 7 y Unix y también para tarjetas telefónicas con muchos canales, como las usadas por las operadoras de teléfono italianas para obtener la dirección y la identidad del suscripto de un número de teléfono.[7]

A finales de los noventa la sintetización de voz tomó un nuevo camino, en vez de usar difonos se empezó a usar la selección y la concatenación de unidades acústicas de longitud variable. Esto provocó en “ACTOR” – “La voz que parece humana” que empezó a adquirir una gran audiencia dado al gran número de servicios telefónicos y aplicaciones creadas por empresas relacionadas con Loquendo. En los años 2000 el sintetizador fue puesto a la venta como un producto comercial, incluyendo un número de herramientas para editar la voz sintética con distintas emociones. También se lanzó una biblioteca SW para que se pueda usar en varios productos pequeños, como celulares, navegadores, computadoras PDA hasta más grandes como servidores telefónicos.

Reconocimiento de voz editar

Poco después de las investigaciones en síntesis de voz, comenzaron a investigar el reconocimiento de voz y al principio de los ochenta produjeron un primer prototipo capaz de reconocer diez dígitos y unos comandos simples.

Aplicando el modelo oculto de Márkov, en 1984, se llevó a cabo el desarrollo de un decodificador de voz que podía reconocer palabras conectadas y oraciones. Esto se llevó a cabo con la colaboración de ELSAG, otra compañía del grupo.

La necesidad de producir reconocimientos de voz independiente para aplicaciones telefónicas llevó a la creación de bases de datos con grabaciones de cientos de personas distintas y, en 1987, la primera gran base de datos, obtenida grabando a más de mil personas llamando por toda Italia.

Este material permitió el uso de los modelos de Márkov y usando un sofisticado algoritmo llevó al desarrollo de “AURIS”, el primer reconocedor de voz que podía “dar vuelta” en una variedad de dispositivos con procesadores de señales digitales (DSP).

En los noventa una colaboración europea comenzó y, junto a otras compañías y universidades de toda Europa, se adquirió una base de datos de voz muy grande, con voces de más de 65000 personas.[8]

Este material, combinado con un nuevo acercamiento al modelo oculto de Márkov y a la red neuronal artificial, produjo “FLEXUS” el primer reconocedor de voz flexible, que permitía a varios servicios telefónicos usar reconocimientos de voz en sus interfaces humanas. Combinando “FLEXUS” y “ACTOR” en un mismo sistema surgió “Diálogos”, permitiendo la creación de servicios telefónicos de vanguardia.

El nacimiento de Loquendo como una compañía llevó al desarrollo de muchos lenguajes y al estreno de reconocedor en la forma de un software de biblioteca, para la creación de varias aplicaciones telefónicas.

Las campañas de grabaciones de voz se expandieron y no sólo fueron en Europa, sino que se movieron hasta los países mediterráneos luego a América del Sur, Centro y del Norte y finalmente países en el Este. Se recolectaron incontables horas de voz de cientos de miles de personas en las regiones. Las grabaciones fueron recolectadas para las conexiones telefónicas, entre otros usos.

Codificación de voz editar

Las actividades de investigación de codificación de voz empezaron aún antes que las de reconocimiento y síntesis, el objetivo era armar un equipo como un CODEC para incrementar lo más posible el número de conversaciones telefónicas que podían fluir por un mismo cable (o conexión satelital), sin perder claridad de voz.

A finales de los setenta, estudios y experimentos llevaron a la creación de algoritmos para codificar la señal de voz telefónica y armar la CCITT, normativa europea conocida como codificación A-law. Este estándar se utilizó a continuación, en el CODEC para 64 líneas telefónicas kbit / s RDSI.

En los años siguientes se construyeron codecs más fuertes (usado en intercambios telefónicos) y, con el PAN-Europa en un consorcio GSM, el codec a utilizar en teléfonos móviles de segunda generación. Al mismo tiempo se construyó un CODEC para transmitir señales de alta calidad a pesar del límite de banda de 8 kHz de los cables de teléfono, que era útil para aplicaciones de conferencias de audio y vídeo.

Plataformas de habilitación editar

A finales de los años noventa el desarrollo de Internet en la forma que hoy conocemos (hipertexto residente en servidores diferentes que abarcan todo el planeta en una gran red) llevó a la necesidad de hacer que estos textos disponibles en la voz a través del teléfono. Al mismo tiempo los sistemas IVR se vuelven cada vez más y más extensos y se convirtió en una esencial herramienta HW y SW para el desarrollo rápido de nuevas aplicaciones y servicios telefónicos.

Al mismo tiempo, el IVR – (por sus siglas en inglés, Interactive Voice Response), se hizo más popular y utiliza herramientas de hardware y software para desarrollar rápidamente nuevas aplicaciones de telefonía. Es evidente para todos que eso trajo el logro de sistemas complejos como la automatización de la “Guía telefónica” o “el Servicio de Información de tren” que son demasiado rígidas y no permiten el fácil desarrollo de nuevas aplicaciones.

Por lo tanto, se consideró que era necesario crear plataformas para los sistemas telefónicos automáticos de voz que sean escalables y fáciles de programar. Con este fin se creó un grupo de trabajo especial para desarrollar un prototipo de navegador mediante la voz, para ser mostrado al público en SMAU 2000,[9]​ con el nombre de "VoxNauta". El éxito fue tal que Telecom Italia decidió cerrar sus laboratorios de investigación originales y crear Loquendo el 1 de febrero de 2001.

A través de los años "VoxNauta" se desarrolló en diversas formas: desde pequeños servidores a sistemas de grandes empresas con miles de líneas y se ha instalado en cientos de empresas de todo el mundo.

La aparición de normas en la redacción de los servicios telefónicos (VoiceXML) y protocolos (CPRM) para la conexión de servidores que alojan las tecnologías del habla a los servidores que alojan las tarjetas telefónicas llevó a la creación de software Speech Server, anfitrión de texto-a-voz y el habla-reconocedor motores de Loquendo.

Esta investigación continúa y el desarrollo ha dado lugar a que Loquendo sea una de las marcas más conocidas en el campo de la síntesis y reconocimiento de voz.

La marca editar

No hay una explicación definitiva del origen del nombre de Loquendo, mientras que el logo fue creado por el departamento gráfico de Telecom Italia. Cuando se visualiza como un gif animado las tres ondas por encima de la "O" se encienden en secuencia, dando la sensación de la emisión del sonido.[cita requerida]

La marca no ha sido protegida por la sociedad, hay otras empresas italianas, cuyo nombre se deriva directamente de Loquendo, y esto ha contribuido a su uso generalizado, incluso a expensas de las marcas competidoras.[cita requerida]

Venta de la compañía editar

A través de los años, hubo rumores de la venta de Loquendo a otras empresas.[10]​ Los más recientes fueron en el verano de 2011, cuando se anunció, que dos empresas multinacionales con sede en Estados Unidos, Nuance y Avaya, estaban estudiando la posibilidad de una toma de posesión.

Como Nuance era un competidor directo de la empresa italiana, había cierta preocupación por los trabajadores de Loquendo, de un posible desmembramiento de la investigación y el desarrollo y, la desaparición de una excelente marca italiana de cuarenta años de experiencia.[11]​ La compra por parte de Avaya, parecía entonces más conveniente, ya que sus actividades son complementarias a la actividad llevada a cabo por Loquendo, Avaya, de hecho, no tenía ninguna tecnología de voz, por lo que podría haber estado muy interesada en la posibilidad de un desarrollo.[12]

Estos informes fueron seguidos con gran interés por los trabajadores, las autoridades locales en Turín y el Piamonte y toda la comunidad científica internacional.[13][14][15]

El 13 de agosto de 2011, Telecom Italia anunció públicamente la venta a Nuance de la totalidad de su participación en Loquendo por un valor de 53 millones de euros.[16][17][18]

Usos editar

Loquendo tiene varias versiones. La más usada es la TextAloud para hacer vídeos de todo tipo y luego subirlos a la plataforma de vídeos YouTube. Estos vídeos —llamados popularmente "Vídeos Loquenderos"— se volvieron famosos durante mucho tiempo hasta hoy en día. Los youtubers que suben videos con Loquendo se les apoda "Loquenderos". El uso más corriente y más popular de Loquendo ha sido para videos o parodias de Grand Theft Auto: San Andreas. El primer vídeo usando ese programa se subió el 22 de mayo del 2006 por el usuario fingazzz. El título del vídeo es Still Dorito,[19]​ el cual es una parodia de la canción de rap Still Dre de los raperos estadounidenses Dr. Dre y Snoop Dogg.

Desde 2019 Youtube desmonetiza todos los videos que usen Loquendo.

Véase también editar

Referencias editar

  1. Loquendo at a glance
  2. «Locations». web.archive.org. 23 de febrero de 2011. Archivado desde el original el 23 de febrero de 2011. Consultado el 16 de diciembre de 2020. 
  3. Ipiña, D. L., Rodríguez, A., & Vázquez, I. (2004). «Accesibilidad para Discapacitados a través de Teléfonos y Servicios Móviles Adaptables». Facultad de Ingeniería de la Universidad de Deusto (Bilbao). 
  4. Speech Technologies: Market Leaders: Speech Engine Archivado el 3 de enero de 2014 en Wayback Machine.
  5. Speech Technologies: Speech Technology Industry Buyer's Guide Archivado el 3 de enero de 2014 en Wayback Machine.
  6. Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995. ISBN
  7. Roberto Billi, Franco Canavesio, Alberto Ciaramella, Luciano Nebbia, "Interactive voice technology at work: The CSELT experience", Ed. Speech communication, 1995 - Elsevier
  8. SpeechDat family projects (from the progenitor's name)
  9. (it) Corriere della Sera, Pagine web da ascoltare al telefono, 4 settembre 2000
  10. Telecom, in attesa di Sparkle vende la «piccola» Loquendo, 11 luglio 2009
  11. (it) la Repubblica, Loquendo, il ministero convoca anche Bernabè, 2 agosto 2010
  12. (it) la Repubblica, Loquendo, seconda offerta. I dipendenti: "Dà più garanzie", 6 agosto 2010
  13. «Salviamo Loquendo!». Archivado desde el original el 30 de marzo de 2012. Consultado el 10 de agosto de 2011. 
  14. "Un neo da estirpare", l'Informatica, cap. 1 In: Luciano Gallino, "La scomparsa dell'Italia industriale", Ed. Einaudi 2003 - ISBN 978-88-06-16628-1
  15. Marina Cassi, La comunità della scienza difende Loquendo Archivado el 30 de marzo de 2012 en Wayback Machine., "La Stampa", 10 agosto 2011
  16. press release, Telecom Italia sells Loquendo to Nuance for an Enterprise Value of €53 Million, "Telecom Italia", 13 August 2011
  17. (press release, Nuance to Acquire Loquendo Archivado el 21 de mayo de 2015 en Wayback Machine., "Nuance", 15 August 2011
  18. (it) Luca Davi, Telecom Italia cede Loquendo al gruppo Nuance, "Il Sole 24 ORE", 14 agosto 2011
  19. Youtube: Still dorito

Bibliografía editar

  • (it) Luigi Bonavoglia, "CSELT trent'anni", Ed. CSELT, 1994 [1]
  • (it) Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995, ISBN 88-85404-09-X, ISBN 978-88-85404-09-0
  • (it) Quarant'anni d'innovazione, ed. Millennium s.r.l, (supplemento al num 224 di Media Duemila, 2005)
  • (it) torinowireless.it
  • (it) smau.it Archivado el 3 de enero de 2014 en Wayback Machine.
  • (it) corriere.it
  • (it) isticom.it Archivado el 24 de septiembre de 2011 en Wayback Machine.
  • (it) deputatids.it
  • (it) h-care.eu
  • (es) loquendo
  • (it) Forum P.A. 17-20 de mayo de 2010 - Cartella Stampa AVAYA