Diferencia entre revisiones de «Dragado de datos»

Contenido eliminado Contenido añadido
Función de sugerencias de enlaces: 2 enlaces añadidos.
Etiquetas: Revertido Edición visual Edición desde móvil Edición vía web móvil Tarea para novatos Sugerencia: añadir enlaces
m Revertidos los cambios de Wiki Saltar xd (disc.) a la última edición de Rafstr
Etiquetas: Reversión Revertido
Línea 6:
El proceso de dragado de datos implica probar múltiples hipótesis utilizando un único [[conjunto de datos]] mediante una [[búsqueda de fuerza bruta]], tal vez de combinaciones de variables que podrían mostrar una [[correlación]], y tal vez de grupos de casos u observaciones que muestran diferencias en su media o en su desglose por alguna otra variable.
 
Las pruebas convencionales de [[significación estadística]] se basan en la probabilidad de que surja un resultado particular si solo actuara el azar, y necesariamente aceptan cierto riesgo de conclusiones erróneas de cierto tipo (rechazos erróneos de la [[hipótesis nula]]). Este nivel de riesgo se denomina [[Significación estadística|''significación estadística'']]. Cuando se realizan una gran cantidad de pruebas, algunas arrojan resultados falsos de este tipo; por lo tanto, se podría informar (erróneamente) que el 5% de las hipótesis elegidas al azar son estadísticamente significativas al nivel de significancia del 5%, se podría informar (erróneamente) que el 1% es estadísticamente significativa al nivel de significancia del 1%, y así sucesivamente, sólo por casualidad. Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán estadísticamente significativas (aunque esto sea engañoso), ya que casi todos los conjuntos de datos con algún grado de aleatoriedad probablemente contengan (por ejemplo) algunas [[Relación espuria|correlaciones espurias]]. Si no son cautelosos, estos resultados pueden engañar fácilmente a los investigadores que utilizan técnicas de [[minería de datos]]. El término ''p-hacking'' (en referencia a [[Valor p|los valores ''p'']] ) fue acuñado en un artículo de 2014 por los tres investigadores detrás del blog [[Data Colada]], que se ha centrado en descubrir este tipo de problemas en la investigación de las ciencias sociales. <ref name=":3">{{Cita web|url=https://www.wsj.com/science/data-colada-debunk-stanford-president-research-14664f3|título=The Band of Debunkers Busting Bad Scientists|fechaacceso=2023-10-08|autor=Subbaraman|nombre=Nidhi|fecha=2023-09-24|sitioweb=[[Wall Street Journal]]|idioma=en-US|urlarchivo=https://archive.today/20230924094046/https://www.wsj.com/science/data-colada-debunk-stanford-president-research-14664f3|fechaarchivo=2023-09-24}}</ref> <ref>{{Cita web|url=https://psycnet.apa.org/record/2013-25331-001|título=APA PsycNet|fechaacceso=2023-10-08|sitioweb=psycnet.apa.org|idioma=en}}</ref>
 
El dragado de datos es un ejemplo de cómo ignorar el problema de las comparaciones múltiples. Una forma es cuando se comparan subgrupos sin alertar al lector sobre el número total de comparaciones de subgrupos examinadas. <ref name="Deming">{{Cita publicación|url=http://www.niss.org/sites/default/files/Young%20Karr%20Obs%20Study%20Problem.pdf|título=Deming, data and observational studies|apellidos=Young, S.&nbsp;S.|apellidos2=Karr, A.|publicación=Significance|volumen=8|número=3|páginas=116–120|doi=10.1111/j.1740-9713.2011.00506.x|año=2011}}
Línea 32:
 
=== Modelado múltiple ===
Otro aspecto del condicionamiento de [[Contraste de hipótesis|las pruebas estadísticas]] por el conocimiento de los datos se puede ver al utilizar el system or machine analysis and [[regresión lineal]] para observar la frecuencia de los datos. Un paso crucial en el proceso es decidir qué [[Variables dependientes e independientes|covariables]] incluir en una relación que explica una o más variables. Hay consideraciones tanto estadísticas (por ejemplo regresión por pasos) <ref>Efroymson,M. A. (1960) "Multiple regression analysis," Mathematical Methods for Digital Computers, Ralston A. and Wilf,H. S., (eds.), Wiley, New York.</ref>como sustantivas que llevan a los autores a favorecer algunos de sus modelos sobre otros, y hay un uso liberal de pruebas estadísticas. Sin embargo, descartar una o más variables de una relación explicativa sobre la base de los datos significa que no se pueden aplicar válidamente procedimientos estadísticos estándar a las variables retenidas en la relación como si nada hubiera sucedido. Por la naturaleza del caso, las variables retenidas tuvieron que pasar algún tipo de prueba preliminar (posiblemente intuitiva e imprecisa) que las variables descartadas fallaron. En 1966, Selvin y Stuart compararon las variables retenidas en el modelo con los peces que no caen a través de la red, en el sentido de que sus efectos seguramente serán mayores que los de los que caen a través de la red. Esto no sólo altera el desempeño de todas las pruebas posteriores sobre el modelo explicativo retenido, sino que también puede introducir sesgo y alterar el [[error cuadrático medio]] en la estimación. <ref name="Selvin">
{{Cita publicación|título=Data-Dredging Procedures in Survey Analysis|apellidos=Selvin, H.&nbsp;C.|apellidos2=Stuart, A.|publicación=The American Statistician|volumen=20|número=3|páginas=20–23|doi=10.1080/00031305.1966.10480401|año=1966}}
</ref> <ref name="BerkBrownZhao">