Diferencia entre revisiones de «Dragado de datos»
Contenido eliminado Contenido añadido
Función de sugerencias de enlaces: 2 enlaces añadidos. Etiquetas: Revertido Edición visual Edición desde móvil Edición vía web móvil Tarea para novatos Sugerencia: añadir enlaces |
m Revertidos los cambios de Wiki Saltar xd (disc.) a la última edición de Rafstr Etiquetas: Reversión Revertido |
||
Línea 6:
El proceso de dragado de datos implica probar múltiples hipótesis utilizando un único [[conjunto de datos]] mediante una [[búsqueda de fuerza bruta]], tal vez de combinaciones de variables que podrían mostrar una [[correlación]], y tal vez de grupos de casos u observaciones que muestran diferencias en su media o en su desglose por alguna otra variable.
Las pruebas convencionales de [[significación estadística]] se basan en la probabilidad de que surja un resultado particular si solo actuara el azar, y necesariamente aceptan cierto riesgo de conclusiones erróneas de cierto tipo (rechazos erróneos de la [[hipótesis nula]]). Este nivel de riesgo se denomina [[Significación estadística|''significación estadística'']]. Cuando se realizan una gran cantidad de pruebas, algunas arrojan resultados falsos de este tipo; por lo tanto, se podría informar (erróneamente) que el 5% de las hipótesis elegidas al azar son estadísticamente significativas al nivel de significancia del 5%, se podría informar (erróneamente) que el 1% es estadísticamente significativa al nivel de significancia del 1%, y así sucesivamente, sólo por casualidad. Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán estadísticamente significativas (aunque esto sea engañoso), ya que casi todos los conjuntos de datos con algún grado de aleatoriedad probablemente contengan (por ejemplo) algunas [[Relación espuria|correlaciones espurias]]. Si no son cautelosos, estos resultados pueden engañar fácilmente a los investigadores que utilizan técnicas de
El dragado de datos es un ejemplo de cómo ignorar el problema de las comparaciones múltiples. Una forma es cuando se comparan subgrupos sin alertar al lector sobre el número total de comparaciones de subgrupos examinadas. <ref name="Deming">{{Cita publicación|url=http://www.niss.org/sites/default/files/Young%20Karr%20Obs%20Study%20Problem.pdf|título=Deming, data and observational studies|apellidos=Young, S. S.|apellidos2=Karr, A.|publicación=Significance|volumen=8|número=3|páginas=116–120|doi=10.1111/j.1740-9713.2011.00506.x|año=2011}}
Línea 32:
=== Modelado múltiple ===
Otro aspecto del condicionamiento de [[Contraste de hipótesis|las pruebas estadísticas]] por el conocimiento de los datos se puede ver al utilizar el system or machine analysis and
{{Cita publicación|título=Data-Dredging Procedures in Survey Analysis|apellidos=Selvin, H. C.|apellidos2=Stuart, A.|publicación=The American Statistician|volumen=20|número=3|páginas=20–23|doi=10.1080/00031305.1966.10480401|año=1966}}
</ref> <ref name="BerkBrownZhao">
|