Medida de similitud

En estadística y campos relacionados, una medida de similitud o función de semejanza o la semejanza métrica es un función real-valuada que cuantifica la semejanza entre dos objetos, aunque no existe una definición única de similitud. Normalmente tales medidas son en algún sentido el inverso de las distancias métricas: toman valores grandes para objetos similares y toman el valor cero o un valor negativo para objetos muy disímiles. Aun así, en términos generales, una función de semejanza también puede satisfacer axiomas métricos.

La similitud coseno es una similitud generalmente utilizada para vectores real-valuados, utilizada en (entre otros campos) la búsqueda de información para puntuar la semejanza de documentos en el modelo de espacio vectorial. En aprendizaje automático, funciones kernel comunes como el kernel RBF pueden ser vistas como funciones de semejanza.[1]

Uso en clusterización editar

En clustering espectral, una medida de similitud, o afinidad, se usa para transformar datos para superar dificultades relacionadas con una falta de convexidad en la forma de la distribución de datos.[2]​ La medida da lugar a una matriz de semejanza de dimensión nxn para un conjunto de n puntos, donde la entrada (i,j) en la matriz puede ser sencillamente el (negativo de la) distancia euclidiana entre i y j, o pueda ser una métrica más compleja como el Gaussiano .     [2]​ Modificar más este resultado con técnicas de análisis de redes es también común.[3]

Uso en alineamiento de secuencias editar

Matrices de semejanza son utilizadas en alineamiento de secuencias. Puntuaciones más altas son dadas a caracteres más similares, y puntuaciones más bajas o negativas para caracteres disímiles.

Las matrices de semejanza de nucleótidos se usan para alinear sucesiones de ácido nucleico. Porque hay solamente cuatro nucleótidos comúnmente encontrados en el ADN (Adenina (Un), Citosina (C), Guanina (G) y Timina (T)), las matrices de semejanza de nucleótidos son mucho más sencillas que las matrices de semejanza de proteínas. Por ejemplo, una matriz sencilla asignará a bases idénticas una puntuación de +1 y bases no idénticas una puntuación de −1. Una matriz más complicada daría una puntuación más alta a transiciones (cambios de una pirimidina como C o T a otra pirimidina, o de un purina como U o G a otra purina) que a transversiones (de un pirimidina a una purina o viceversa).

La proporción coincidencia/no-coincidencia de la matriz establece la distancia evolutiva buscada.[4][5]​ La matriz +1/−3 de ADN utilizada por BLASTN es más conveniente para encontrar coincidencias entre secuencias que son 99 % idénticas; una matriz +1/−1 (o +4/−4) es mucho más conveniente para secuencias con aproximadamente 70 % de similitud. Las matrices para secuencias de similitud más baja requieren alineamientos de secuencias más largos.

Las matrices de similitud de aminoácidos son más complicadas, porque hay 20 aminoácidos codificados por el código genético, y por ende un número más grande de sustituciones posibles. Por lo tanto, la matriz de semejanza para aminoácidos contiene 400 entradas (aunque es normalmente simétrica). La primera aproximación puntuaba todos los cambios de aminoácido igualmente. Un refinamiento más tardío fue para determinar semejanzas de aminoácidos basado en cuántos cambios de base fueron requeridos para cambiar un codón para codificar para aquel aminoácido. Este modelo es mejor, pero no tiene en cuenta la presión selectiva de cambios de aminoácidos. Los mejores modelos tuvieron en cuenta las propiedades químicas de los aminoácidos.

Un método ha sido empíricamente generar las matrices de similitud. El método Dayhoff utilizaba secuencias y árboles filogenéticos tomados de especies en el árbol. Este método ha dado lugar a la serie de matrices PAM. Las matrices PAM son etiquetadas basándose en cuántos cambios de nucleótido han ocurrido, por 100 aminoácidos. Mientras las matrices PAM se benefician de tener un modelo evolutivo bien entendido, son más útiles en distancias evolutivas cortas (PAM10@-PAM120). En distancias evolutivas largas, por ejemplo PAM250 o 20 % de identidad, se ha demostrado que las matrices BLOSUM son mucho más eficaces.

Las series BLOSUM fueron generadas comparando un número de sucesiones divergentes. Las series BLOSUM son etiquetadas basándose en cuánta entropía queda sin cambios entre todas las secuencias, así que un número de BLOSUM más bajo corresponde a un número PAM más alto.

Véase también editar

Referencias editar

  1. Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). «A primer on kernel methods». Kernel Methods in Computational Biology. 
  2. a b Ng, A.Y.; Jordan, M.I.; Weiss, Y. (2001), «On Spectral Clustering: Analysis and an Algorithm», Advances in Neural Information Processing Systems (MIT Press) 14: 849-856 .
  3. Li, Xin-Ye; Guo, Li-Jie (2012), «Constructing affinity matrix in spectral clustering based on neighbor propagation», Neurocomputing 97: 125-130, doi:10.1016/j.neucom.2012.06.023 .
  4. States, D; Gish, W; Altschul, S (1991). «Improved sensitivity of nucleic acid database searches using application-specific scoring matrices». Methods: A Companion to Methods in Enzymology 3 (1): 66. doi:10.1016/S1046-2023(05)80165-3. 
  5. Sean R. Eddy (2004). «Where did the BLOSUM62 alignment score matrix come from?». Nature Biotechnology 22 (8): 1035-1036. PMID 15286655. doi:10.1038/nbt0804-1035. Archivado desde el original el 3 de septiembre de 2006.