Regresión logística para seres humanos
Monday, June 27, 2011 8:18:37 PM
Entonces, ¿qué es la regresión logística? Es un tipo de análisis para estudios analíticos que nos muestra la relación entre distintas variables explicativas (o independientes) y una variable dependiente. El ejemplo clásico es para estudios de factores de riesgo, donde se puden estudiar las enfermedades desde su origen multifactorial, viendo como se correlacionan los distintos factores entre sí y con la enfermedad.
¿Cómo se interpreta? Los resultados se obtienen en relación a las variables explicativas o "factores". En general, se entrega un valor de
- odds ratio, o la probabilidad que un evento suceda (número de veces) si un individuo está expuesto a un factor en relación a uno que no está expuesto a ese factor
- p - value; es decir, la probabilidad que los resultados se hayan obtenido producto del azar
- coeficiente de correlación de Pearson (r²), o la fuerza de asociación entre las variables y puede ir entre -1 (correlación negativa), 0 (sin correlación) ó +1 (correlación positiva)
¿Cómo se si los resultados son válidos? Obviamente para un análisis de este tipo no basta solo apretar el botón "ejecutar" del software estadístico. A grandes rasgos, se debe cumplir con las siguienes condiciones o "assumptions":
- Tamaño de la muestra: Se requiere, como mínimo, de 10 eventos por cada variable explicativa (EPV). Para 25 o más variables se requieren 15 EPV. Por ejemplo, si estudiaremos 7 posibles factores de riesgo para carcinoma mucoepidermoide, requeriremos un n = 140 (70 casos y 70 controles).
- Correlación entre las variables: Una fuerte correlación entre las variables explicativas disminuye dramáticamente la potencia del estudio. Por ejemplo, si investigamos como influye el tabaco y el consumo de cafeína en el desarrollo de cáncer oral podríamos esperar una fuerte correlación entre consumo de tabaco y café. En general, valores de r² = 0,7 ó -0,7 se consideran altos.
- Las variables deben ser dicotómicas, tanto las variables explicativas como la variable dependiente.
- Cumplir con el principio de independencia en las observaciones
Resumiendo, si el estudio que leemos presenta más de 10 EPV, correlaciones r² < 0,7 y OR altos tenemos asegurada una buena potencia estadística
Conociendo esto, vamos a ver que muchos estudios no cumplen con estas condiciones. Como es la "novedad", es esperable ver un abuso por parte de los investigadores. Por ejemplo, realizar un estudio con 1 EVP y no cumplir con el principio de independencia en las observaciones, o hablar de asociación en un estudio que debió ser de prevalencia.
Nota: El título puede leerse como algo "agrandado", pero solo es un juego de palabras con el lema de Ubuntu
Referencias:
- Courvoisier, D.S. et al., 2011. Performance of logistic regression modeling: beyond the number of events per variable, the role of data structure. Journal of Clinical Epidemiology. Available at: http://linkinghub.elsevier.com/retrieve/pii/S0895435610004245
- Hosmer, D.W. & Lemeshow, S., 2000. Applied Logistic Regression, Second Edition. John Wiley and Sons, 373 p.






















