15.ai

15.ai es una aplicación web de inteligencia artificial gratuita y no comercial que genera voces de texto a voz naturales y emotivas de alta fidelidad a partir de una variedad de personajes ficticios de una variedad de fuentes de medios.Desarrollado por un investigador seudónimo del MIT bajo el nombre 15, el proyecto utiliza una combinación de algoritmos de síntesis de audio, redes neuronales profundas de síntesis de voz y modelos de análisis de sentimientos para generar y servir voces de personajes emotivas más rápido que en tiempo real, particularmente aquellos con un tamaño muy pequeño. cantidad de datos entrenables. Lanzado a principios de 2020, 15.ai comenzó como una prueba de concepto de democratización de la actuación de voz y el doblaje mediante la tecnología. Los usuarios han elogiado su naturaleza gratuita y no comercial (con la única condición de que el proyecto se acredite adecuadamente cuando se utilice), su facilidad de uso, la ausencia de requisitos de registro de cuenta de usuario y las mejoras sustanciales en las implementaciones actuales de texto a voz; sin embargo, algunos críticos y actores de voz han cuestionado la legalidad y ética de dejar dicha tecnología disponible públicamente y fácilmente accesible.

Características editar

HAL 9000, conocido por su siniestra voz robótica, es uno de los personajes disponibles en 15.ai.^[1]

Los personajes disponibles incluyen GLaDOS y Wheatley de Portal, personajes de Team Fortress 2, Twilight Sparkle y varios personajes principales, secundarios y secundarios de My Little Pony: La Magia de la Amistad, Bob Esponja de Bob Esponja, Daria Morgendorffer y Jane Lane de Daria . el Décimo Doctor de Doctor Who, HAL 9000 de 2001: Odisea en el Espacio, el Narrador de The Stanley Parable, el Super Smash Bros. de Wii U/3DS / Switch. Locutor (anteriormente), Carl Brutananadilewski de Aqua Teen Hunger Force, Steven Universe de Steven Universe, Dan de Dan Vs. y Sans de Undertale .

El modelo de aprendizaje profundo utilizado por la aplicación no es determinista: cada vez que se genera un discurso a partir de la misma cadena de texto, la entonación del discurso será ligeramente diferente. La aplicación también admite la alteración manual de la emoción de una línea generada utilizando contextualizadores emocionales (término acuñado por este proyecto), una oración o frase que transmite la emoción de la toma y que sirve como guía para el modelo durante la inferencia. Los contextualizadores emocionales son representaciones del contenido emocional de una oración deducida mediante incrustaciones de emoji aprendidas mediante transferencia utilizando DeepMoji, un algoritmo de análisis de sentimiento de red neuronal profunda desarrollado por el MIT Media Lab en 2017. DeepMoji se entrenó en 1.200 millones de apariciones de emoji en datos de Twitter de 2013 a 2017, y se descubrió que supera a los seres humanos en la identificación correcta del sarcasmo en tweets y otros modos de comunicación en línea.

15.ai utiliza un modelo de múltiples hablantes: se entrenan cientos de voces simultáneamente en lugar de secuencialmente, lo que reduce el tiempo de entrenamiento requerido y permite que el modelo aprenda y generalice el contexto emocional compartido, incluso para voces sin exposición a dicho contexto emocional. En consecuencia, toda la gama de personajes de la aplicación funciona con un único modelo entrenado, a diferencia de varios modelos de un solo hablante entrenados en diferentes conjuntos de datos. El léxico utilizado por 15.ai ha sido extraído de una variedad de fuentes de Internet, incluidos los Diccionarios de Oxford, Wiktionary, el Diccionario de pronunciación CMU, 4chan, Reddit y Twitter . Las pronunciaciones de palabras desconocidas se deducen automáticamente utilizando reglas fonológicas aprendidas mediante el modelo de aprendizaje profundo.

La aplicación admite una versión simplificada de un conjunto de transcripciones fonéticas en inglés conocidas como ARPABET para corregir errores de pronunciación o dar cuenta de heterónimos : palabras que se escriben igual pero se pronuncian de manera diferente (como la palabra leído, que se puede pronunciar como /ˈrɛd/ o /ˈriːd/ dependiendo de su tiempo verbal ). Mientras que los códigos ARPABET originales desarrollados en la década de 1970 por la Agencia de Proyectos de Investigación Avanzada admiten 50 símbolos únicos para designar y diferenciar entre fonemas en inglés,^[2] la convención ARPABET del Diccionario de pronunciación CMU (el conjunto de códigos de transcripción seguido de 15.ai ) reduce el conjunto de símbolos a 39 fonemas combinando realizaciones fonéticas alofónicas en un único estándar (p. ej. AXR/ER ; UX / UW ) y usar múltiples símbolos comunes juntos para reemplazar consonantes silábicas (p. ej. EN/AH0 N ).^[3] Las cadenas ARPABET se pueden invocar en la aplicación envolviendo la cadena de fonemas entre llaves dentro del cuadro de entrada (por ejemplo, {AA1 RP AH0 B EH2 T} para denotar /ˈɑːrpəˌbɛt/, la pronunciación de la palabra ARPABET ). La siguiente es una tabla de fonemas utilizados por 15.ai y el Diccionario de pronunciación CMU:^[4]

Vowels
ARPABET	Rspl.	IPA	Example
`AA`	ah	Archivo de audio "ɑ" no encontrado	odd
`AE`	a	æ	at
`AH0`	ə	ə	about
`AH`	u, uh	ʌ	hut
`AO`	aw	ɔ	ought
`AW`	ow	aʊ	cow
`AY`	eye	aɪ	hide
`EH`	e, eh	ɛ	Ed

Vowels
ARPABET	Rspl.	IPA	Example
`ER`	ur, ər	ɝ, ɚ	hurt
`EY`	ay	eɪ	ate
`IH`	i, ih	ɪ	it
`IY`	ee	i	eat
`OW`	oh	oʊ	oat
`OY`	oy	ɔɪ	toy
`UH`	uu	ʊ	hood
`UW`	oo	u	two

Stress
AB	Description
0	No stress
1	Primary stress
2	Secondary stress

Consonants
ARPABET	Rspl.	IPA	Example
`B`	b	b	be
`CH`	ch, tch	tʃ	cheese
`D`	d	d	dee
`DH`	dh	ð	thee
`F`	f	f	fee
`G`	g	ɡ	green
`HH`	h	h	he
`JH`	j	dʒ	gee

Consonants
ARPABET	Rspl.	IPA	Example
`K`	k	k	key
`L`	l	l	lee
`M`	m	m	me
`N`	n	n	knee
`NG`	ng	ŋ	ping
`P`	p	p	pee
`R`	r	r	read
`S`	s, ss	s	sea

Consonants
ARPABET	Rspl.	IPA	Example
`SH`	sh	ʃ	she
`T`	t	t	tea
`TH`	th	θ	theta
`V`	v	v	vee
`W`	w, wh	w	we
`Y`	y	j	yield
`Z`	z	z	zee
`ZH`	zh	ʒ	seizure

Véase también editar

Referencias editar

↑ «Website Lets You Make GLaDOS Say Whatever You Want».
↑ Klautau, Aldebaro (2001). «ARPABET and the TIMIT alphabet». Archivado desde el original el 3 de junio de 2016. Consultado el 8 de septiembre de 2017.
↑ «Phonetics». Columbia University. Columbia University. 2017. Archivado desde el original el 19 de junio de 2022. Consultado el 11 de junio de 2022.
↑ «The CMU Pronouncing Dictionary». CMU Pronouncing Dictionary. CMU Pronouncing Dictionary. 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022. Consultado el 4 de junio de 2022.

[kotaku-1] «Website Lets You Make GLaDOS Say Whatever You Want».

[klautau-2] Klautau, Aldebaro (2001). «ARPABET and the TIMIT alphabet». Archivado desde el original el 3 de junio de 2016. Consultado el 8 de septiembre de 2017.

[columbia-3] «Phonetics». Columbia University. Columbia University. 2017. Archivado desde el original el 19 de junio de 2022. Consultado el 11 de junio de 2022.

[cmudict-4] «The CMU Pronouncing Dictionary». CMU Pronouncing Dictionary. CMU Pronouncing Dictionary. 16 de julio de 2015. Archivado desde el original el 3 de junio de 2022. Consultado el 4 de junio de 2022.

[1]

[2]

[3]

[4]