Diferencias en clasificadores

En episodios anteriores hemos visto algunos criterios de evaluación de clasificadores y métodos de validación. Concluíamos diciendo que si bien ahora tenemos herramientas para evaluar y validar un clasificador, y esto nos permite compararlo con otro clasificador similar, nos faltan herramientas para determinar cuánto mejor es uno que otro. Veamos un par de alternativas de análisis de diferencias estadísticamente significativas.

Test de hipótesis

En la cuadrilla somos muy fans de Dobble y tenemos la sospecha de que, cuando echamos una partida después de comer, la comilona afecta a la fluidez de las partidas. Puede que el sopor postpandrial nos haga reaccionar más lento o que por el contrario el subidón de glucosa nos haga venirnos arriba y reaccionar más rápido, pero estamos convencidos de que afecta de alguna manera a nuestras partidas.

Un test de hipótesis es una herramienta estadística para determinar si una propiedad que se supone en una población se cumple en la muestra. Partimos de la hipótesis nula o H0, que representa el statu quo: lo que es comúnmente aceptado en este momento. Frente a ella, plantearemos nuestra hipótesis alternativa o H1 que contradice a la hipótesis nula.

En nuestro caso, la cuadrilla está convencida de que una buena comilona nada tiene que ver con el tiempo de reacción de las jugadas. Esta será la hipótesis nula de la que partimos. Pero nosotros estamos convencidos de lo contrario: la comilona es determinante para nuestro tiempo de reacción, positiva o negativamente. Esta será nuestra hipótesis alternativa.

  • H0: una comilona no afecta al tiempo medio de reacción (μ = μ0)
  • H1: una comilona afecta al tiempo medio de reacción (μ ≠ μ0)

Para salir de dudas organizamos un experimento. Sabemos que el tiempo de reacción medio en una partida de Dobble es de 1.7 segundos. Tras una copiosa alubiada con todos sus sacramentos jugamos unas partidas midiendo el tiempo de reacción, obteniendo un promedio de 1,65 segundos. El fin de semana siguiente, también después de un pantagruélico festín, obtenemos un promedio de 1,80 segundos. Y el siguiente, con dos agujeros más en el cinturón, 2,25 segundos.

  Media (μ) Diferencia (s) Diferencia (%)
Población 1,70
Primera comida 1,65 -0,05 -2,94%
Segunda comida 1,80 +0,10 +5,88%
Tercera comida 2,25 +0,55 +32,35%

Tendríamos dudas para asegurar que nuestra hipótesis se cumple tras la primera comida, apenas hay diferencia. El segundo día, con una diferencia un poco mayor, quizá podríamos discutir si la diferencia es relevante. Y aunque seguramente la mayoría acepte que la diferencia de la tercera comida parece significativa, podría deberse al azar.

Una manera de salir de dudas es calcular la probabilidad de haber obtenido esos resultados asumiendo la hipótesis nula: ¿qué probabilidad había de obtener esos resultados asumiendo que la comilona no ha afectado al tiempo de reacción?

Los tiempos de reacción siguen una distribución normal con su máximo en la media de tiempos de reacción, y queremos tener un nivel de confianza que ataje discusiones. Digamos que establecemos un nivel de confianza del 95%. Podríamos ser más restrictivos y fijar un 99%, por ejemplo, pero un 95% nos parece suficiente. A la medida complementaria de este nivel de confianza la llamaremos nivel de significación y la representaremos con la letra alfa (α), de modo que 1 – α = 0.95 y por tanto α = 0.05.

Como estamos buscando valores más extremos que los esperables para H0, tanto por exceso como por defecto (dos colas, two tailed), tenemos que considerar los valores que quedan tanto por encima como por debajo del margen de confianza del 95% que hemos establecido. Los puntos en los que trazamos esta línea de lo esperable son los valores críticos. La probabilidad de que obtengamos valores más extremos que los valores críticos es lo que llamamos valor-p (p-value), y coincide con el valor del área bajo la curva a partir de los valores críticos.

Si nuestra hipótesis alternativa hubiera sido que el sopor postpandrial incrementa el tiempo de reacción (μ ≥ μ0) tendríamos que mirar entonces únicamente los valores por encima del valor crítico superior (one tailed, o concretamente right tailed).

Vale, muy bien, pero… ¿cómo calculamos los valores críticos y el valor-p? Si conociésemos la desviación estándar de la población y tuviéramos una muestra suficientemente grande para nuestra hipótesis alternativa (>30 casos) podríamos usar un Test-Z. Si no, podemos optar por un Test-T. Veremos ambos métodos en las siguientes entradas.

0

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.