Un bigrama o digrama es un grupo de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.[1]​ Se trata de un caso especial del N-grama.

Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:

Es decir, la probabilidad de una palabra dada la palabra precedente es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras , dividido por la probabilidad de que la palabra precedente.

Referencias editar

  1. Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Véase también editar