Desenroscado de bucles

El Desenroscado de bucles (conocido en inglés como loop unrolling o Loop unwinding) es una técnica de optimización de bucles que intenta mejorar la velocidad de ejecución de un programa a costa de aumentar su tamaño binario (Situación de compromiso espacio-tiempo). Esta transformación puede hacerla manualmente el programador o un Compilador optimizador.

El objetivo del desenroscado de bucles es incrementar la velocidad del programa al reducir (o eliminar) instrucciones que controlan el bucle, como aritmética de punteros o la verificación de final de bucle en cada iteración;[1]​ reduciendo la penalización por ramificación además de “ocultar latencias, en particular, la espera de la lectura de datos de memoria”.[2]​ Para eliminar esta sobrecarga en la computación, los bucles pueden ser reescritos como una repetición de sentencias similares independientes.[3]

Ventajas editar

El mayor peso en los bucles pequeños se localiza en las instrucciones que incrementan el puntero o índice al siguiente elemento del array y en los test de “¿ha finalizado el bucle?”. Si un compilador o ensamblador de optimización es capaz de precalcular compensaciones para cada variable de la matriz referenciada individualmente, éstas pueden incorporarse directamente en las instrucciones de código de máquina, por lo que no requieren operaciones aritméticas adicionales en tiempo de ejecución.

  • Puede conseguirse una mejora significativa si la reducción de instrucciones a ejecutar compensa por cualquier pérdida de rendimiento causada por el incremento en el tamaño del programa.
  • La predicción de saltos se minimiza.[4]
  • Si las instrucciones del bucle son independientes entre sí (es decir: si las instrucciones de un ciclo del bucle no afectan a las instrucciones del ciclo siguiente), éstas pueden ser ejecutadas en paralelo.
  • El desenroscado puede realizarse dinámicamente si el número de elementos del array no se conoce en tiempo de compilación (como en el Dispositivo de Duff).

Los compiladores optimizadores pueden desenroscar bucles automáticamente o bajo demanda.

Desventajas editar

  • El tamaño del programa aumenta, este efecto puede no ser deseado, particularmente en aplicaciones embebidas.
  • Puede que también cause un incremento en los fallos de caché de instrucción, que afectan negativamente al rendimiento.
  • A menos que la transformación sea aplicada de manera transparente por un compilador optimizador, el código resultante es menos legible.
  • Si en el cuerpo del bucle se realizan llamadas a función, puede que no sea posible combinar el desenroscado con Inlining, ya que el incremento del tamaño el código podría ser excesivo. Por lo tanto, puede que se deba escoger entre ambas optimizaciones.
  • Posible aumento del uso de los registros en una sola iteración para almacenar variables temporales[cita requerida], lo que puede reducir el rendimiento, aunque dependerá mucho de posibles optimizaciones[5]
  • Con la excepción de códigos muy pequeños y simples, los bucles desenroscados que contienen ramificaciones son más lentos que si se usa recursión.[6]

Desenroscado de bucles estático o manual editar

El desenroscado de bucles manual (o estático) requiere que el programador analice el bucle e interprete sus iteraciones como una secuencia de instrucciones que pueden reducir la sobrecarga del bucle. Sería el desenroscado opuesto al desenroscado dinámico, que es realizado por el compilador.

Ejemplo de desenroscado manual en C editar

Supongamos que debemos optimizar una función que borra exactamente 100 objetos de una colección. Esta operación se haría normalmente con un bucle for que llamaría a la función borrar(indice_de_objeto);. Si la carga de trabajo del bucle es mayor que la requerida por la función de borrado, desenroscar el bucle puede acelerar el proceso.

Bucle normal Bucle desenroscado
for (int indice = 0; indice < 100; ++indice)
{
    borrar(indice);
}
for (int indice = 0; indice < 100; indice += 5)
{
    borrar(indice);
    borrar(indice + 1);
    borrar(indice + 2);
    borrar(indice + 3);
    borrar(indice + 4);
}

Como consecuencia de esta modificación, el nuevo programa debe hacer 20 iteraciones en lugar de 100. Por lo tanto sólo deben hacerse el 20% de los saltos y ramificaciones condicionales, lo cual puede ser un descenso potencialmente significativo de la carga de administración del bucle. Para un óptimo beneficio no deben usarse variables que requieran aritmética de punteros en el código desenroscado.

Por otro lado, este desenroscado manual hace crecer el código de 4 a 8 líneas, pudiendo provocar durante la ejecución que se usen más registros para almacenar las variables de cada iteración[cita requerida]. Además, las variables de control del bucle y la cantidad de operaciones en la estructura desenroscada deben ser escogidas cuidadosamente para asegurar que el comportamiento es el mismo que en el código original. Por ejemplo, debemos considerar la posibilidad de que la cantidad de iteraciones no fuese divisible por 5. Los cambios requeridos también se complican si las condiciones de finalización del bucle son variables.

Complejidad prematura editar

En este simple caso, el control del bucle es tan solo un trabajo extra que organiza las instrucciones. El bucle en sí mismo no contribuye a obtener el resultado deseado, tan sólo ahorra al programador del tedio de replicar el código varias veces, esta tarea podría haber sido delegada al preprocesador o a las herramientas de los editores de texto. De manera parecida, las instrucciones if y otras estructuras de control del flujo de programa pueden ser sustituidas por código replicado, con la salvedad de que inflan el código. Es trivial para un programa realizar las combinaciones, pero un programador puede encontrar la repetición aburrida y cometer errores.

Bucle normal Bucle desenroscado
  for (indice = 1; indice <= 8; indice++){
      if (indice % 2 == 0)
          cosas_pares(indice);
      else
          cosas_impares(indice);
  }
  cosas_impares(1); cosas_pares(2);
  cosas_impares(3); cosas_pares(4);
  cosas_impares(5); cosas_pares(6);
  cosas_impares(7); cosas_pares(8);

El siguiente ejemplo incluye la variable de índice en el cómputo:

Bucle normal Bucle desenroscado
  x(1) = 1;
  for (indice = 2; indice <= 9; indice++){
      x(indice) = x(indice - 1) * indice;
      printf("%d %d",indice,x(indice));
  }
  x(1) = 1;
  x(2) = x(1) * 2; printf("2%d",x(2));
  x(3) = x(2) * 3; printf("3%d",x(3));
  x(4) = x(3) * 4; printf("4%d",x(4));
  ...etc.

que al ser compilado, producirá gran cantidad de código (se podrán ver muchas instrucciones print) pero es posible aplicar más optimizaciones. En el ejemplo anterior sólo se hace referencia a x(indice) y x(indice - 1) en el bucle, por lo tanto: al no haber más referencias a la colección x sus usos pueden ser reemplazados por una variable. Pero hacer dicho cambio puede evitar que el compilador se de cuenta de que los valores del array son constantes, cada uno de ellos derivado de una constante previa y que por lo tanto podría resumir el código para que quedase:

  printf ("2,2");
  printf ("3,6");
  printf ("4,24");
  ...etc.

En general, el contenido de un bucle puede ser grande, implicando complejas indexaciones de array. Probablemente estos casos sean los mejores para dejar que un compilador optimizador desenrosque el bucle. Al replicar los bucles más internos puede permitir varias optimizaciones aunque la ganancia sea pequeña a no ser que el índice del bucle sea grande.

Desenroscando bucles WHILE editar

Un bucle WHILE similar al siguiente (expresado en pseudocódigo)

Bucle normal Bucle desenroscado Bucle desenroscado y retocado
  WHILE (condición) DO
      acción
  ENDWHILE
  ...
  WHILE (condición) DO
      acción
      IF NOT(condición) THEN GOTO salir
      acción
      IF NOT(condición) THEN GOTO salir
      acción
  ENDWHILE
  LABEL salir:
  .
  IF (condición) THEN
      REPEAT {
          acción
          IF NOT(condición) THEN GOTO salir
          acción
          IF NOT(condición) THEN GOTO salir
          acción
      } WHILE (condición)
  LABEL salir:

Este desenroscado acelera el bucle ya que la instrucción ENDWHILE (que se compilará como un salto al inicio del bucle) se ejecutará tan sólo una tercera parte de las veces.

Es incluso mejor el ejemplo de pseudocódigo retocado, en que algunos compiladores optimizadores eliminarán por completo los saltos incondicionales.

Desenroscado dinámico editar

Dado que los beneficios del desenroscado de bucles suelen depender del tamaño del array (del que habitualmente no se sabe el tamaño hasta que se ejecuta el código) los compiladores en tiempo de ejecución pueden decidir si ejecutar un bucle normal o generar una secuencia (relativamente corta) de instrucciones individuales para cada elemento. Esta flexibilidad es una de las ventajas de las técnicas de compilación en tiempo de ejecución frente a la compilación estática o la optimización manual en el contexto del desenroscado de bucles. En esta situación, incluso con valores de índice la mejora es útil al requerir poco (o ningún) incremento del tamaño del programa.

Los programadores de lenguaje ensamblador (incluyendo los desarrolladores de compiladores optimizadores) también pueden beneficiarse del desenroscado dinámico de bucles, usando un método similar al que se usa para las tablas de saltos eficientes. En este caso, el mejor rendimiento se da cuando el índice máximo de cualquier campo referenciado en un array es menor al desplazamiento máximo que puede ser especificado en una instrucción en código máquina (que será marcado por el compilador si se sobrepasa).

El siguiente ejemplo es para los ensambladores de IBM S/360 o Z/Architecture y asume que un campo de 100 bytes será copiado desde un array llamado FROM a uno llamado TO (ambos con elementos de 256 bytes con 50 entradas).

Ejemplo en ensamblador (IBM/360 o Z/Architecture) editar

Para un ejemplo en x86 ver Enlaces externos. * initialize all the registers to point to arrays etc (R14 is return address) LM R15,R2,INIT load R15= '16', R0=number in array, R1--> 'FROM array', R2--> 'TO array' LOOP EQU * SR R15,R0 get 16 minus the number in the array BNP ALL if n > 16 need to do all of the sequence, then repeat * (if # entries = zero, R15 will now still be 16, so all the MVC's will be bypassed) * calculate an offset (from start of MVC sequence) for unconditional branch to 'unwound' MVC loop MH R15,=AL2(ILEN) multiply by length of (MVC..) instruction (=6 in this example) B ALL(R15) indexed branch instruction (to MVC with drop through) * Assignment (move) table - (first entry has maximum allowable offset with single register = X'F00' in this example) ALL MVC 15*256(100,R2),15*256(R1) * move 100 bytes of 16th entry from array 1 to array 2 (with drop through) ILEN EQU *-ALL length of (MVC...) instruction sequence; in this case =6 MVC 14*256(100,R2),14*256(R1) * MVC 13*256(100,R2),13*256(R1) * MVC 12*256(100,R2),12*256(R1) * All 16 of these 'move character' instructions use base plus offset addressing MVC 11*256(100,R2),11*256(R1) * and each to/from offset decreases by the length of one array element (256). MVC 10*256(100,R2),10*256(R1) * This avoids pointer arithmetic being required for each element up to a MVC 09*256(100,R2),09*256(R1) * maximum permissible offset within the instruction of X'FFF'. The instructions MVC 08*256(100,R2),08*256(R1) * are in order of decreasing offset, so the first element in the set is moved MVC 07*256(100,R2),07*256(R1) * last. MVC 06*256(100,R2),06*256(R1) * MVC 05*256(100,R2),05*256(R1) * MVC 04*256(100,R2),04*256(R1) * MVC 03*256(100,R2),03*256(R1) * MVC 02*256(100,R2),02*256(R1) * MVC 01*256(100,R2),01*256(R1) move 100 bytes of 2nd entry MVC 00*256(100,R2),00*256(R1) move 100 bytes of 1st entry * S R0,MAXM1 reduce Count = remaining entries to process BNPR R14 ... no more, so return to address in R14 AH R1,=AL2(16*256) increment 'FROM' register pointer beyond first set AH R2,=AL2(16*256) increment 'TO' register pointer beyond first set L R15,MAXM1 re-load (maximum MVC's) in R15 (destroyed by calculation earlier) B LOOP go and execute loop again * * ----- Define static Constants and variables (These could be passed as parameters) --------------------------------- * INIT DS 0A 4 addresses (pointers) to be pre-loaded with a 'LM' instruction MAXM1 DC A(16) maximum MVC's N DC A(50) number of actual entries in array (a variable, set elsewhere) DC A(FROM) address of start of array 1 ("pointer") DC A(TO) address of start of array 2 ("pointer") * ----- Define static Arrays (These could be dynamically acquired) -------------------------------------------------- * FROM DS 50CL256 array of (max) 50 entries of 256 bytes each TO DS 50CL256 array of (max) 50 entries of 256 bytes each

En este ejemplo, se necesitarán aproximadamente 202 instrucciones para un bucle 'conventional' (50 iteraciones) mientras que en el código dinámico anterior necesita sólo unas 89 instrucciones (un ahorro del 56% aproximadamente). Si el array consistiera de tan sólo 2 entradas, aún se ejecutaría en aproximadamente el mismo tiempo que el bucle sin desenroscar. El incremento del código es de tan sólo unos 108 bytes (incluso con miles de entradas en el array). Pueden usarse técnicas similares cuando intervienen múltiples instrucciones, siempre y cuando la longitud del conjunto de instrucciones se ajuste. Por ejemplo, en este ejemplo, si se necesita borrar el resto del array (asignando un valor nulo) después de haber copiado los 100 bytes, se puede añadir una instrucción de borrado XC xx*256+100(156,R1),xx*256+100(R2) inmediatamente después de cada MVC en la secuencia (entendiendo que xx coincide con el valor anterior en el MVC). También es perfectamente posible generar el código anterior 'en línea' usando una macro de ensamblador, especificando 4 o 5 operadores (u otra alternativa, crear una subrutina, que se accedería con una simple llamada, pasando una lista de parámetros), haciendo que la optimización quede accesible a programadores poco experimentados.

Ejemplo en C editar

El siguiente ejemplo muestra un desenroscado dinámico de bucle para un programa escrito en C. A diferencia del ejemplo anterior en ensamblador, la aritmética de punteros se genera por el compilador porque la variable indice se usa para indexar los elementos del array. La optimización más completa sólo es posible cuando se usan índices absolutos.

#include<stdio.h>

#define BLOQUE (8)

int main()
{ 
  int indice = 0; 
  int elementos = 50;                     // Numero a procesar.
  int iteraciones = (elementos / BLOQUE); // Cantidad de iteraciones.
  int resto = (elementos % BLOQUE);       // Resto (a procesar posteriormente).

  /* Si la cantidad de elementos no es divisible por BLOQUE
     calcula los elementos restantes a procesar */

  // Desenrosca el bucle en 'bloques' de 8 elementos
  while (iteraciones-- > 0) 
  { 
    printf("procesando(%d)\n", indice    );
    printf("procesando(%d)\n", indice + 1); 
    printf("procesando(%d)\n", indice + 2); 
    printf("procesando(%d)\n", indice + 3); 
    printf("procesando(%d)\n", indice + 4); 
    printf("procesando(%d)\n", indice + 5); 
    printf("procesando(%d)\n", indice + 6); 
    printf("procesando(%d)\n", indice + 7);

    // Actualiza el indice con los elementos procesados en la iteracion.
    indice += BLOQUE; 
  }

  /* Se usa una instruccion switch para procesar el resto no divisible por BLOQUE
     saltando a la etiqueta case que procesara en cascada el resto de casos para
     completar la operacion (Dispositivo de Duff). */
  switch (resto) 
  {
    case 7 : printf("process(%d)\n", indice + 6);
    case 6 : printf("process(%d)\n", indice + 5);
    case 5 : printf("process(%d)\n", indice + 4);
    case 4 : printf("process(%d)\n", indice + 3);
    case 3 : printf("process(%d)\n", indice + 2);
    case 2 : printf("process(%d)\n", indice + 1);
    case 1 : printf("process(%d)\n", indice    );
    case 0 :                                    ;
  }
  return 0;
}

Véase también editar

Referencias editar

  1. Ullman, Jeffrey D.; Aho, Alfred V. (1977). Principios de diseño de compiladores. Reading, Mass: Addison-Wesley Pub. Co. pp. 471–2. ISBN 0-201-10073-8. 
  2. Petersen, W.P., Arbenz, P. (2004). Introducción a la computación paralela. Oxford University Press. p. 10. 
  3. Nicolau, Alexandru (1985). Loop Quantization: Desenroscar para la explotación del Paralelismo a bajo nivel. Dept. of Computer Science Technical Report. Ithaca, NY: Cornell University. OCLC 14638257. 
  4. Fog, Agner (29 de febrero de 2012). «Optimizando subrutinas en lenguaje ensamblador». Copenhagen University College of Engineering. p. 100. Consultado el 22 de septiembre de 2012. «12.11 Loop unrolling». 
  5. Sarkar, Vivek (2001). «Desenroscado eficiente de bucles anidados». International Journal of Parallel Programming 29 (5): 545-581. doi:10.1023/A:1012246031671. 
  6. Adam Horvath "Code unwinding - performance is far away"

Lectura adicional editar

  • Kennedy, Ken; Allen, Randy (2001). Optimizando los compiladores para arquitecturas modernas: Una aproximación basada en dependencias. Morgan Kaufmann. ISBN 1-55860-286-0. 

Enlaces externos editar