El spam basado en imágenes,[1][2]​ o spam de imágenes, es un tipo de spam por correo electrónico en el que el mensaje textual se incrusta en imágenes, que luego se adjuntan a los correos electrónicos basura.[3]​ Dado que la mayoría de los clientes de correo electrónico mostrarán el archivo de imagen directamente al usuario, el mensaje de spam se transmite tan pronto como se abre el correo electrónico (no hay necesidad de seguir abriendo el archivo de imagen adjunto).

Figura 1. Ejemplo de imagen limpia de spam

Técnica editar

 
Figura 2. Ejemplos de imágenes de spam ofuscadas para eludir la detección basada en OCR y en firmas

El objetivo del spam de imágenes es claramente eludir el análisis del contenido textual del correo electrónico realizado por la mayoría de los filtros de spam[3]​ (por ejemplo, SpamAssassin, RadicalSpam, Bogofilter, SpamBayes). En consecuencia, por la misma razón, junto con la imagen adjunta, a menudo los spammers añaden algún texto "falso" al correo electrónico, es decir, una serie de palabras que es más probable que aparezcan en correos electrónicos legítimos y no en spam. Los correos electrónicos de spam con imágenes anteriores contenían imágenes de spam en las que el texto era limpio y fácilmente legible, como se muestra en la Figura 1.

Detección editar

 
Figura 3. Tamaño medio del spam frente al porcentaje de spam de imágenes[4]

En consecuencia, se utilizaron herramientas de reconocimiento óptico de caracteres para extraer el texto incrustado en las imágenes de spam, que luego podía ser procesado junto con el texto del cuerpo del correo electrónico por el filtro de spam o, de forma más general, por técnicas de categorización de texto más sofisticadas.[1][5]​ Además, también se generaron firmas (por ejemplo, hashing MD5) para detectar y bloquear fácilmente las imágenes de spam ya conocidas. A su vez, los remitentes de spam reaccionaron aplicando algunas técnicas de ofuscación a las imágenes de spam, de forma similar a los CAPTCHA, tanto para evitar que el texto incrustado fuera leído por las herramientas OCR como para despistar a la detección basada en firmas. En la Figura 2 se muestran algunos ejemplos.

Esto planteó la cuestión de mejorar la detección del spam de imágenes mediante técnicas de visión por ordenador y reconocimiento de patrones.[1][2][6][7]

En particular, varios autores han investigado la posibilidad de reconocer el spam de imágenes ofuscadas utilizando características genéricas de bajo nivel de la imagen (como el número de colores, la cobertura de color predominante, la relación de aspecto de la imagen, el área de texto), metadatos de la imagen, etc.[6][7][8][9]​ (véase[2]​ para un estudio exhaustivo). En particular, algunos autores también han intentado detectar la presencia de texto en imágenes adjuntas con artefactos que denotan un intento de ofuscarlo por parte del adversario.[10][11][12][13]

Historia editar

 
Figura 4. Tamaño medio del spam frente al porcentaje de spam de imágenes y ZIP/RAR (2011-2012, por semana).[14]

El spam de imágenes comenzó en 2004 y alcanzó su punto álgido a finales de 2006, cuando más del 50% del spam era de imágenes. A mediados de 2007 empezó a disminuir, y prácticamente desapareció en 2008[4]​. La razón de este fenómeno no es fácil de entender. El declive del spam de imágenes puede atribuirse probablemente tanto a la mejora de las contramedidas propuestas (por ejemplo, detectores rápidos de spam de imágenes basados en características visuales), como a los mayores requisitos en términos de ancho de banda del spam de imágenes, que obligan a los spammers a enviar una menor cantidad de spam en un intervalo de tiempo determinado. Ambos factores podrían haber hecho que el spam de imágenes fuera menos conveniente para los spammers que otros tipos de spam. No obstante, a finales de 2011 se detectó un resurgimiento del spam de imágenes, que alcanzó el 8% de todo el tráfico de spam, aunque por un pequeño periodo de tiempo.[14]

Véase también editar

Referencias editar

  1. a b c Fumera, Giorgio; Pillai, Ignazio; Roli, Fabio (2006). «Spam Filtering Based On The Analysis Of Text Information Embedded Into Images». Journal of Machine Learning Research 7 (98): 2699-2720. ISSN 1533-7928. Consultado el 10 de agosto de 2023. 
  2. a b c Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli,Biggio, Battista; Fumera, Giorgio; Pillai, Ignazio; Roli, Fabio (2011). «A survey and experimental evaluation of image spam filtering techniques, Pattern Recognition Letters». Pattern Recognition Letters: 1436-1446. ISSN 0167-8655. doi:10.1016/j.patrec.2011.03.022. 
  3. a b Li, Siyuan; Li, Ruiguang; Xu, Yuan; Zhou, Hao; Yan, Hanbing; Xu, Bin; Zhang, Honggang (2018-09). «WAF‐Based Chinese Character Recognition for Spam Image Filtering». Chinese Journal of Electronics (en inglés) 27 (5): 1050-1055. ISSN 1022-4653. doi:10.1049/cje.2018.06.014. Consultado el 10 de agosto de 2023. 
  4. a b IBM X-Force® 2010, Mid-Year Trend and Risk Report. 2010. 
  5. Bayes OCR Spam Assassin's Plugin. 
  6. a b Aradhye, H., Myers, G., Herson, J. A. (2005). «Image analysis for efficient cat egorization of image-based spam e-mail.». Proc. Int. Conf. on Document Analysis and Recognition: 914-918. 
  7. a b Dredze, M., Gevaryahu, R., Elias-Bachrach, A. (2007). «Learning fast classifiers for image spam». Proc. 4th Conf. on Email and Anti-Spam (CEAS). 
  8. Wu, C.-T., Cheng, K.-T., Zhu, Q., Wu, Y.-L. (2005). «Using visual features for anti-spam filtering». IEEE Int. Conf. on Image Processing, Vol. III: 501-504. 
  9. Liu, Q., Qin, Z., Cheng, H., Wan, M. (2010). «Efficient modeling of spam images». Int. Symp. on Intelligent Information Technology and Security Informatics. IEEE Computer Society: 663-666. 
  10. «FuzzyOcrPlugin - SPAMASSASSIN - Apache Software Foundation». cwiki.apache.org. Consultado el 10 de agosto de 2023. 
  11. Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli (2007). «Image Spam Filtering Using Visual Information». 14th Int. Conf. on Image Analysis and Processing (ICIAP), Modena, Italy, IEEE Computer Society: 105--110. 
  12. Fabio Roli, Battista Biggio, Giorgio Fumera, Ignazio Pillai, Riccardo Satta (2007). «Image Spam Filtering by Detection of Adversarial Obfuscated Text». Workshop on Neural Information Processing Systems (NIPS), Whistler, British Columbia, Canada. 
  13. Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli (2008). «Improving Image Spam Filtering Using Image Text Features». Fifth Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA. 
  14. a b IBM X-Force® 2012, Mid-Year Trend and Risk Report. 2012.