Este editorial es la tercera y última entrega de la serie de 3 editoriales. En la primera se explicó el ciclo del método científico para contextualizar, en él, el papel de la estadística, junto con los conceptos de precisión y validez interna y externa1. En la segunda se intentó dejar claro que si una diferencia no es estadísticamente significativa, esto no es sinónimo de equivalencia y no debe considerarse que ambos tratamientos «son iguales o equivalentes», en el contexto por ejemplo de un ensayo clínico en el que se compare un nuevo tratamiento con el tratamiento convencional2.
Este último editorial pretende mostrar la diferencia entre estadísticamente significativo y clínicamente relevante3.
Pongamos como ejemplo una «variable respuesta principal» o «primary endpoint», que en este caso es el cambio desde la visita basal hasta la visita final en el volumen espiratorio forzado en el primer segundo (FEV1)4, por ejemplo, en el contexto comparativo de 2 tratamientos en asma.
Planteando el diseño del ensayo clínico como un ensayo clínico controlado y aleatorizado de 2 brazos paralelos, obtendremos como medida descriptiva la media de la puntuación en el FEV1 en el grupo de intervención y la compararemos con la media en el grupo control, obteniendo la «diferencia de medias entre grupos» en litros o mililitros (mL), que es una variable cuantitativa continua al ser susceptible de tomar valores decimales. En cuanto a test estadísticos, el test t de Student-Fisher es el procedimiento más habitual para comparar ambas medias.
En la figura 1, el umbral para la diferencia mínima clínicamente relevante (+100mL) se muestra con barritas en color negro resaltado, y el umbral de la hipótesis nula clásica de diferencia de mL=0 se muestra con barras y puntos (resaltado en rojo en la versión electrónica del editorial). Cada intervalo de confianza (IC) representa los límites inferior y superior de la verdadera diferencia de medias poblacional de respuesta a los tratamientos (con un 95% de confianza). En los cuatro IC95%, el límite inferior de cada intervalo es mayor que cero. Si dividiéramos la diferencia de medias entre su error estándar, que recordemos que cuantifica el papel del azar en nuestros resultados, comprobaríamos cómo el resultado sería un estadístico «t de Student» mayor que 1,96; con una p<0,05. Así pues, los cuatro IC95% son estadísticamente significativos.
Que un resultado sea estadísticamente significativo, únicamente va a querer decir que el error estándar es pequeño en comparación con la diferencia de medias. Si el error estándar es lo suficientemente pequeño, nuestros resultados serán siempre estadísticamente significativos, pero ello no implica que necesariamente sean clínicamente relevantes. En este caso, como hemos mencionado, se considera que una diferencia en el FEV1 tiene que ser de al menos 100mL para que tenga un impacto en la calidad de vida de los pacientes.
Siguiendo con el ejemplo de la figura 1, veremos cómo a pesar de que todos los IC95% son estadísticamente significativos, no todos son concluyentes en cuanto a la relevancia clínica del tratamiento. La relevancia crítica se interpreta en base al tamaño del efecto o «effect size» (nuestra diferencia de medias), usando los límites de los IC95% en relación con el umbral delta que se corresponde con la diferencia mínima clínicamente relevante, conocida en inglés como «minimal clinically important difference» (MCID)5,6.
El primer IC95% (ejemplo 1) se corresponde con una diferencia de +50mL, con un límite inferior y uno superior de +25 a +75mL respectivamente (teniendo en cuenta el papel del azar en nuestros resultados con un 95% de confianza). Es decir, el nuevo tratamiento sería mejor que el tratamiento convencional, pero no tanto como para considerarlo clínicamente relevante, porque su límite superior (+75mL) es menor que la diferencia mínima clínicamente relevante de +100mL. Este es el ejemplo paradigmático de cómo algo puede ser estadísticamente significativo, pero clínicamente no relevante.
Recordemos que el error estándar se puede disminuir reduciendo la variabilidad o aumentando el tamaño muestral, luego cualquier diferencia de medias que no sea cero se podrá volver estadísticamente significativa. Una diferencia de medias totalmente irrelevante de 0,05mL será estadísticamente significativa si, por ejemplo, logramos que su error estándar asociado sea de 0,025mL.
Únicamente un IC95% (el del ejemplo 4), además de estadísticamente significativo, es clínicamente relevante de forma concluyente porque su límite inferior es mayor que 100mL. En el ejemplo 2 la mayor parte del intervalo concuerda con la hipótesis de que la diferencia no es clínicamente relevante. En el ejemplo 3 la mayor parte del intervalo concuerda con que el efecto sí es clínicamente relevante. No obstante, al cruzar sendos IC95% el umbral para la diferencia mínima clínicamente relevante, ambos ejemplos serían clínicamente no concluyentes.
Esto mismo se aplica a las medidas de asociación. La relevancia clínica en este caso ha de tenerse siempre en cuenta ante resultados cercanos a 1 en medidas de asociación, y especialmente si se trata de odds ratios, ya que recordemos que esta medida puede sobreestimar la magnitud de la asociación con respecto a otras como la razón de riesgos7.
Así pues, a modo de conclusión, cualquier diferencia de medias que no sea cero, o cualquier medida de asociación que no sea 1, se podrá volver estadísticamente significativa aumentando el tamaño muestral o disminuyendo la variabilidad de los datos. Que un resultado sea estadísticamente significativo no es sinónimo de relevancia clínica, pues no todos los resultados estadísticamente significativos serán clínicamente relevantes, cuya interpretación debe hacerse en base a un umbral específico de relevancia clínica. El problema y las diferentes metodologías a la hora de establecer un umbral para la diferencia mínima clínicamente relevante es motivo de interés científico8,9 y excede las pretensiones de este editorial. Por su utilidad práctica en el caso de la investigación aplicada a enfermedades respiratorias, conviene recordar los cuestionarios de control de síntomas como por ejemplo el Asthma Control Test (ACT, por sus siglas en inglés). Estas herramientas validadas reportan, entre sus características métricas, la llamada «sensibilidad al cambio» o «responsiveness» en inglés10, estableciendo asimismo la diferencia mínima clínicamente relevante que en este caso es de 3 puntos11.