Abrir menú principal

La estilometría es la aplicación del estudio del estilo lingüístico al lenguaje escrito, aunque también se ha aplicado con éxito a la música[1]​ y a la pintura.[2][3]

La estilometría se utiliza a menudo para atribuir la autoría a documentos anónimos o de autor dudoso. Tiene aplicación legal, académica y literaria, desde la investigación de ciertas obras de Shakespeare a la lingüística forense.

HistoriaEditar

La estilometría deriva de otras técnicas anteriores para analizar textos en busca de pruebas de autenticidad, identidad del autor y otras incertidumbres.

La moderna práctica de la disciplina recibió su principal impulso con el estudio de autorías en obras de teatro del Renacimiento inglés. Investigadores y lectores observaron que algunas obras de la época tenían patrones característicos de lenguaje, e intentaron utilizar estos patrones para identificar autores de colaboraciones o de obras anónimas. Los primeros intentos no siempre tuvieron éxito: en 1901, un investigador trató de utilizar las preferencias lingüísticas de John Fletcher para distinguir entre él y Philip Massinger en sus trabajos colaborativos, pero las aplicó por error a una versión modificada por el editor.[4]

Las bases de la estilometría fueron establecidas por el filósofo polaco Wincenty Lutosławski en el libro Principios de Estilometría, de 1890. Lutosławski utilizó ese método para componer una cronología de los diálogos de Platón

El desarrollo de los ordenadores y su capacidad para analizar grandes cantidades de datos impulsó este tipo de labor. No obstante, esta gran capacidad de análisis seguía sin garantizar la calidad del resultado. A principios de los 60, el reverendo A.Q. Morton realizó un análisis informático de las catorce epístolas del Nuevo Testamento atribuidas a San Pablo, con el que demostró que las obras pertenecía a seis autores distintos. Una comprobación de este método, con obras de James Joyce, reveló que el Ulises, la obra maestra del autor, había sido escrita por cinco personas distintas, ninguna de las cuales, aparentemente, intervino en la redacción de la primera novela de Joyce, Retrato del artista adolescente.[5]

No obstante, con el tiempo y la práctica, investigadores y estudiosos han pulido sus métodos, que hoy arrojan resultados mucho más acertados. Uno de los primeros éxitos fue la resolución de la controvertida autoría de doce de los Federalist Papers, escritos por Frederick Mosteller and David Wallace.[6]​ Aunque todavía surgen dudas sobre la metodología, y es posible que siempre sigan surgiendo, en la actualidad pocos discuten la premisa básica de que el análisis lingüístico de textos escritos puede generar información y conocimientos muy valiosos.

AplicacionesEditar

Entre las aplicaciones de la estilometría, los principales son los estudios literarios, históricos, sociales y de género, así como análisis e investigaciones forenses.[7][8]​ También se puede aplicar al estudio de códigos informáticos de autoría dudosa.[9]

Investigaciones actualesEditar

La estilometría moderna se apoya en los ordenadores para el análisis estadístico, inteligencia artificial, y en el acceso al creciente corpus de textos disponibles en internet.[10]​ Sistemas de software como «Signature»[11]​ (progama gratuito producido por el Dr. Peter Millican de la universidad de Óxford), JGAAP[12]​ (programa de atribución de autoría gráfico de Java, aplicación gratuita desarrollada por Patrick Juola, de la universidad de Duquesne), stylo[13][14]​ (paquete de fuente abierta para diversos análisis estilométricos, como la atribución de autorías desarrollado por Maciej Eder, Jan Rybicki y Mike Kestemont), o Stylene,[15]​ en neerladés, (aplicación gratuita en línea creada por Walter Daelemans, de la universidad de Amberes, y Véronique Hoste, de la universidad de Gante) facilitan el uso de la estilometría, incluso para los no expertos.

Casos notablesEditar

La estilometria se ha utilizado en numerosos casos famosos. Matthew Jockers aplicó técnicas estilométricas al análisis del Libro de Mormón, concluyendo que el autor no era Joseph Smith, sino Sidney Rigdon.[16]​ Más recientemente, otro estudio de Schaalje y su equipo ha desmentido esta teoría, demostrando que Joseph Smith y sus escribas tampoco son sus autores más probables, a la vez que revelaban múltiples autores que trabajaron junto a los principales autores supuestos del texto.[17]

Simon Fuller y James O'Sullivan publicaron un estudio en el que afirman que el autor de bestsellers James Patterson no escribe nada en las novelas en las que aparece como coautor.[18][19][20]​ Según O'Sullivan, su colaboración con el antiguo presidente de EE.UU. Bill Clinton en el libro El presidente ha desaparecido es una excepción.[21]

Casos prácticos de interésEditar

  • El Libro de los Jueces registra un caso, sucedido entre 1370 y 1070 a.C., en el que la tribu de Galaad identificó a miembros de la tribu de Efraín, con la intención de ejecutarlos, obligándoles a decir la palabra Shibboleth, que en el dialecto de los últimos sonaba como «siboleth».[22]
  • En 1952, el clérigo sueco Dick Helander fue elegido obispo de Strängnäs. La campaña fue competitiva, y Helander fue acusado de escribir más de cien cartas anónimas difamatorias sobre otros candidatos al obispado. Helander fue condenado por escribir dichas cartas y perdió su puesto de obispo, pero después fue parcialmente exonerado. Las cartas se estudiaron utilizando numerosas medidas estilométricas y características de las máquinas de escribir, y en los distintos casos judiciales que se llevaron a cabo hasta su muerte en 1978 ─varios de ellos iniciados por el propio Helander─ se debatió el valor de la estilometría como evidencia ante un tribunal.[23][24]
  • En 1975, Ronald Reagan, tras acabar su mandato como gobernador de California, comenzó a realizar comentarios semanales en una radio con ciento de emisoras. Después de que se publicaran sus notas personales en 2001, con motivo de su 90° cumpleaños, se llevó a cabo un estudio para determinar cuáles de esas charlas habían sido escritas por él y cuáles no, con la ayuda de métodos estilométricos.[25]
  • En 1996, el profesor Donald Foster[26]​, del Vassar College, llevó a cabo el análisis estilométrico del libro Primary Colors, controvertido y anónimo. Este análisis dio a conocer la estilometría al gran público, tras identificar correctamente a Joe Klein como su autor, identidad confirmada por un análisis de su escritura manual.
  • En 1996 se utilizaron métodos estilométricos para comparar el manifiesto de Unabomber con las cartas del sospechoso ─Theodor Kaczynski─ a su hermano, lo que llevó a su detención y condena.[27]
  • En abril de 2015, los investigadores utilizaron métodos estilométricos para estudiar una obra supuestamente del siglo XVIII titulada Double Fasehood, concluyendo que había sido escrita conjuntamente por William Shakespeare y John Fletcher. Esta obra contendría el texto perdido de la obra Cardenio, basada en un personaje de la novela Don Quijote de la Mancha.[28]​ Los investigadores compararon la longitud media de las frases en 54 obras de Shakespeare y Fletcher, analizaron el uso de palabras poco frecuentes y cuantificaron la complejidad y la diátesis de su lenguaje.
  • En 2017, un grupo de lingüistas, informáticos y académicos analizaron las obras firmadas por Elena Ferrante. Basándose en una recopilación creada por la universidad de Padua, fomada por 150 novelas escritas por 40 autores, analizaron el estilo de Ferrante estudiando siete de sus novelas. Pudieron comparar su estilo de escritura con otros 39 novelistas utilizando, por ejemplo, la aplicación stylo.[13]​ Todos ellos llegaron a la misma conclusión: Elena Ferrante es, en realidad, Domenico Starnone.[29]

Datos y métodosEditar

Puesto que la estilometría se aplica a casos descriptivos para caracterizar el contenido de una colección, y a casos identificativos, como la verificación de autorías o categorías de texto, los métodos utilizados para analizar datos y características varían de los diseñados para clasificar elementos en conjuntos a los creados para distribuir dichos elementos en un espacio de atributos variados. La mayor parte de los métodos son de naturaleza estadística ─como el análisis de grupos y el análisis discriminante lineal─, se suelen basar en características y datos filológicos y son productivos campos de aplicación de métodos modernos de aprendizaje automático.

Mientras que en el pasado la estilometría hacía hincapié en los elementos menos frecuentes o más chocantes de un texto, las técnicas contemporáneas pueden aislar patrones identificativos, incluso en partes comunes del discurso. La mayoría de los sistemas se basa en estadísticas léxicas, por ejemplo, la frecuencia de ciertas palabras o términos en el texto para caracterizar dicho texto o su autor. En ese contexto, a diferencia de la recuperación de información, la frecuencia de los patrones de las palabras más comunies es más interesante que los términos tópicos menos frecuentes.[37][38]

El método estilométrico primario es la invariante de autor: una propiedad que todos los textos tienen en común, o al menos todos los textos lo suficientemente largos como para admitir resultados estadísticamente flexibles significativos escritos por un autor dado. Un ejemplo de invariante de autor es la frecuencia de palabras funcionales utilizadas por el escritor.

En este método, el texto se analiza para encontrar las 50 palabras más comunes. Después, el texto se divide en 5000 partes, y cada una de estas partes se analiza para buscar la frecuencia de esas 50 palabras en ese trozo. Esto genera un identificador único de 50 números para cada parte. Estos números colocan al trozo correspondiente en un punto de un espacio de 50 dimensiones, que se reduce a un plano gracias al análisis de componentes principales (ACP). El resultado es una muestra de puntos que corresponde al estilo de un autor. Si dos trabajos literarios se analizan de esta forma, la comparación de estos patrones nos dirá si son del mismo autor o no.

Redes neuronalesEditar

Se han utilizado redes neuronales ─un caso especial de método estadístico de aprendizaje automático─ para analizar la autoría de textos. Se utilizan otros textos de autor conocido para entrenar a la red neuronal por medio de procesos como la propagación hacia atrás, en la que se calcula y se usa el error para actualizar el proceso con el fin de incrementar su exactitud. A través de un proceso similar a la regresión no lineal, la red aumenta su capacidad de generalizar su eficacia de reconocimiento a nuevos textos a los que no ha sido aún expuesta, para clasificarlos con un determinado grado de seguridad. Estas técnicas se aplicaron a las históricas sospechas de colaboracion entre Shakespeare y sus contemporáneos Fletcher y Christopher Marlowe,[39][40]​, que confirmaron la opinión, basada en estudios más convencionales, de que esta colaboración se había producido.

En un estudio de 1999, un programa de redes neuronales alcanzó el 70% de exactitud determinando la autoría de poemas que no habían sido analizados hasta entonces. Este estudio, de la universidad Vrije, examinó la identidad de poemas de tres autores holandeses utilizando solo secuencias de letras.[41]

Otro estudio utilizó redes de creencia profunda para un modelo de verificación de autoría aplicable a la autentificación continua.[42]​ En este método, el problema es que la red puede hacerse tendenciosa obedeciendo a su entrenamiento, y es posible que se decante por los autores que ha analizado con más frecuencia.[41]

Algoritmo genéticoEditar

Otra técnica de aprendizaje automático utilizada en la estilometría es el algoritmo genético, basado en conjuntos de reglas de este tipo: «si la palabra X aparece más de N veces cada mil palabras, entonces el autor del texto es Y». El programa aplica 100 reglas a un determinado conjunto de textos conocidos y cada una de ellas recibe una puntuación de idoneidad. Las 50 reglas con menos puntuación se descartan, y las 50 restantes se ajustan con pequeños cambios. Se introducen 50 reglas nuevas y se repite el proceso hasta que las reglas evolucionaldas atribuyen correctamente los textos.

Pares rarosEditar

El método denominado pares raros para identificar estilos se basa en costumbres individuales de colocación. El uso que un autor determinado hace de ciertas palabras puede conllevar el uso idiosincrásico y predecible de otras palabras.

Atribución de autoría en mensajería instantáneaEditar

La difusión de internet ha inclinado la atención de la atribución de autoría hacia los textos en línea (páginas web, blogs, etc.), mensajes electrónicos (correos, tuits, comentarios, etc.) y otros tipos de información escrita con textos mucho más cortos que un libro de longitud media, mucho menos formales y más diversos en cuanto a elementos expresivos, como colores, diseño, tipo de letra, gráficos, emoticonos, etc. Ya se trabaja en modelos que tienen en cuenta estos aspectos tanto en la estructura como en la sintaxis.[43]​ Además, se han introducido datos de contenido específico e idiosincrásico (como modelos tópicos y herramientas de comprobación gramatical) para revelar elecciones deliberadas de estilo.[44]

Se han utilizado características estilométricas estándar para categorizar el contenido de un chat en una aplicación de mensajería instantánea[45]​ o el comportamiento de los participantes en la conversación,[46]​ pero los intentos de identificar a dichos participantes son escasos y están todavía en sus primeras fases. Además, se ha prestado poca atención a las similitudes entre las conversaciones habladas y las interacciones en mensajerías instantáneas,[47]​ aunque representan una diferencia esencial entre los datos que aprotan estas últimas y cualquier otro tipo de información escrita.

ReferenciasEditar

  1. Westcott, Richard (15 de junio de 2006). «Making hit music into a science». BBC News. 
  2. «Internet Archive Wayback Machine». 3 de junio de 2006. Archivado desde el original el 30 de junio de 2006. Consultado el 15 de octubre de 2012. 
  3. Shlomo Argamon, Kevin Burns y Shlomo Dubnov, eds. The structure of style: algorithmic approaches to understanding manner and meaning. Springer Science & Business Media, 2010.
  4. Samuel Schoenbaum, Internal evidence and Elizabethan dramatic authorship; an essay in literary history and method, p. 171.
  5. Samuel Schoenbaum, Internal evidence and Elizabethan dramatic authorship; an essay in literary history and method, p. 196.
  6. F. Mosteller & D. Wallace (1964). Inference and Disputed Authorship: The Federalist. Reading, MA: Addison-Wesley. 
  7. Chaski, Carole. Author Identification in the Forensic Setting (en inglés). The Oxford Handbook of Language and Law. Oxford University Press. ISBN 9780199572120. doi:10.1093/oxfordhb/9780199572120.001.0001. 
  8. Chaski, Carole (22 de diciembre de 2005). Wecht, Cyril H.; Rago, John T., eds. Forensic Science and Law: Investigative Applications in Criminal, Civil and Family Justice. CRC Press. ISBN 978-1-4200-5811-6. 
  9. Claburn, Thomas (16 de marzo de 2018). «FYI: AI tools can unmask anonymous coders from their binary executables». The Register. Consultado el 2 de agosto de 2018. 
  10. Shlomo Argamon, Jussi Karlgren, y James G. Shanahan. Stylistic analysis of text for information access. Documentos del taller realizado conjuntamente con la 28ª Conferencia Anual Internacional ACM sobre Investigación y Desarrollo de Recuperación de Información. del 13 al 19 de agosto de 2005, Salvador, Bahía (Brasil). Instituto Sueco de Ciencias Computacionales, 2005.
  11. «The Signature Stylometric System». PhiloComp. Consultado el 3 de enero de 2014. 
  12. «JGAAP». JGAAP. 4 de septiembre de 2012. Consultado el 15 de octubre de 2012. 
  13. a b «The stylo for R package». Computational Stylistics Group. 2 de octubre de 2014. Consultado el 24 de octubre de 2014. 
  14. Eder, Maciej; Rybicki, Jan; Kestemont, Mike (2016). «Stylometry with R: a package for computational text analysis». R Journal 8 (1): 107-121. 
  15. Daelemans, Walter; Hoste, Véronique (2013). «STYLENE: an Environment for Stylometry and Readability Research for Dutch». CLiPS Technical Report Series. ISSN 2033-3544. Consultado el 28 de junio de 2019. 
  16. Jockers, M. L.; Witten, D. M.; Criddle, C. S. (29 de septiembre de 2008). «Reassessing authorship of the Book of Mormon using delta and nearest shrunken centroid classification». Literary and Linguistic Computing (en inglés) 23 (4): 465-491. ISSN 0268-1145. doi:10.1093/llc/fqn040. 
  17. Schaalje, G. Bruce; Fields, Paul J.; Roper, Matthew; Snow, Gregory L. (18 de enero de 2011). «Extended nearest shrunken centroid classification: A new method for open-set authorship attribution of texts of varying sizes». Digital Scholarship in the Humanities (en inglés) 26 (1): 71-88. ISSN 2055-7671. doi:10.1093/llc/fqq029. 
  18. Fuller, Simon; O'Sullivan, James (2017). «Structure over Style: Collaborative Authorship and the Revival of Literary Capitalism». Digital Humanities Quarterly 011 (1). Consultado el 20 de abril de 2017. 
  19. Lane, Anthony (18 de junio de 2018). «Bill Clinton and James Patterson’s Concussive Collaboration». The New Yorker (en inglés estadounidense). Consultado el 20 de junio de 2019. 
  20. «Why you don't need to write much to be the world's bestselling author». The Conversation. 3 de abril de 2017. Consultado el 20 de junio de 2019. 
  21. O'Sullivan, James (7 de junio de 2018). «Bill Clinton and James Patterson are co-authors – but who did the writing?». The Guardian (en inglés). Consultado el 20 de junio de 2019. 
  22. [[Reina-Valera|Reina-Valera]] (1960). «Jueces 12 - Biblia Reina Valera 1960». Bibliatodo. Consultado el 21 de junio de 2019. 
  23. Text processing text analysis and generation – text typology and attribution. Proceedings of Nobel symposium 51 / ed. por Sture Allén Estocolmo: Almqvist & Wiksell international 1982 653 pp. Data linguistica ; 16 Nobel symposium ; 51 ISBN 91-22-00594-3
  24. Karlgren, Jussi (2003). «Helander: An Authorship Attribution Case». Consultado el 21 de junio de 2019. 
  25. Edoardo M. Airoldi; Stephen E. Fienberg; Kiron K. Skinner (julio de 2007). «Whose Ideas? Whose Words? Authorship of Ronald Reagan's Radio Addresses». PS: Political Science & Politics 40 (3): 501-506. doi:10.1017/S1049096507070874. 
  26. Author Unknown por Gavin McNett Salon, 2 de noviembre de 2000
  27. Belluck, Pam (10 de abril de 1996). «In Unabom Case, Pain for Suspect's Family». The New York Times. Archivado desde el original el 10 de agosto de 2017. Consultado el 22 de junio de 2019. 
  28. «Atribuyen a Shakespeare una obra inspirada en un personaje de Cervantes». La Vanguardia. 16 de marzo de 2010. Consultado el 22 de junio de 2019. 
  29. Jacques Savoy. Elena Ferrante Unmasked. https://www.researchgate.net/publication/320131096_Elena_Ferrante_Unmasked
  30. Peter Reuell. "You say John, I say Paul. But what does stylometry say?". https://news.harvard.edu/gazette/story/2018/09/harvard-statistician-examines-beatles-mystery/
  31. «Rastreadores digitales en el Siglo de Oro». El Norte de Castilla. 23 de diciembre de 2018. Consultado el 7 de agosto de 2019. 
  32. «Un monstruo de la naturaleza llamado Lope». abc. 28 de noviembre de 2018. Consultado el 7 de agosto de 2019. 
  33. Real, La Tribuna de Ciudad (9 de julio de 2019). «Juan Ruiz de Alarcón aumenta su obra cinco siglos después». La Tribuna de Ciudad Real. Consultado el 7 de agosto de 2019. 
  34. Chamberí, PSOE. «PSOE | PSOE Chamberí | chamberí | suplemento cultural | domingo, 28 de julio 2019 | número 06 | Daniel Migueláñez | Pág nº 08 | El Holmes de la filología.». Consultado el 7 de agosto de 2019. 
  35. «Sor Juana Inés centró las 42 Jornadas de Teatro Clásico». Lanza Digital. 14 de julio de 2019. Consultado el 7 de agosto de 2019. 
  36. «'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón». El Norte de Castilla. 10 de julio de 2019. Consultado el 7 de agosto de 2019. 
  37. Douglas Biber. Variation across speech and writing. Cambridge University Press, 1991.
  38. Karlgren, Jussi; Cutting, Douglass (1994). «Recognizing Text Genres with Simple Metrics Using Discriminant Analysis». Proceedings of the International Conference on Computational Linguistics. 
  39. [1] Neural Computation in Stylometry I: An Application to the Works of Shakespeare and Fletcher Matthews RAJ & Merriam TVN Lit Linguist Computing (1993) 8 (4): 203–209. doi: 10.1093/llc/8.4.203
  40. [2]Neural Computation in Stylometry II: An Application to the Works of Shakespeare and Marlowe Merriam TVN & Matthews RAJ Lit Linguist Computing (1994) 9 (1): 1–6
  41. a b JF HoornZ; SL Frank; W Kowalczyk; F van der Ham (3 de septiembre de 2012). «Neural network identification of poets using letter sequences». Literary and Linguistic Computing 14 (3): 311-338. doi:10.1093/llc/14.3.311. Consultado el 27 de junio de 2019. 
  42. Brocardo, ML; Traore, I; Woungang, I; Obaidat, MS (2017). «Authorship verification using deep belief network systems». Int J Commun Syst. 30 (12): e3259. doi:10.1002/dac.3259. 
  43. de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (1 de diciembre de 2001). «Mining e-Mail Content for Author Identification Forensics». SIGMOD Rec. 30 (4): 55-64. ISSN 0163-5808. doi:10.1145/604264.604272. 
  44. Argamon, Shlomo; Koppel, Moshe; Pennebaker, James W.; Schler, Jonathan (1 de febrero de 2009). «Automatically Profiling the Author of an Anonymous Text». Commun. ACM 52 (2): 119-123. ISSN 0001-0782. doi:10.1145/1461928.1461959. 
  45. «Classification of Instant Messaging Communications for Forensics Analysis – TechRepublic». TechRepublic. Consultado el 26 de enero de 2016. 
  46. Zhou, L.; Zhang, Dongsong (1 de enero de 2004). «Can online behavior unveil deceivers? – an exploratory investigation of deception in instant messaging». Proceedings of the 37th Annual Hawaii International Conference on System Sciences, 2004. pp. 9 pp.-. ISBN 978-0-7695-2056-8. doi:10.1109/HICSS.2004.1265079. 
  47. Zhou, L.; Zhang, Dongsong (1 de enero de 2004). «Can online behavior unveil deceivers? – an exploratory investigation of deception in instant messaging». Proceedings of the 37th Annual Hawaii International Conference on System Sciences, 2004. pp. 9 pp.-. ISBN 978-0-7695-2056-8. doi:10.1109/HICSS.2004.1265079. 

Enlaces externosEditar