Jugar con los datos: un trabajo artesano que exige la lectura de la letra pequeña de las pruebas estadísticas; que puede proporcionar una riqueza incalculable para nuestros clientes y que, también hay que decirlo, puede hacernos caer en un estado del que sólo el pequeño rayo de sol del amanecer nos descubra que es hora de un buen café antes de continuar.
En un análisis cuantitativo prácticamente todo está escrito. Sólo hace falta saber la página donde hay que buscar, dando comienzo un proceso de análisis donde entran en juego no solo los conocimientos, sino la experiencia, la creatividad, las ganas y, sobre todo, el tiempo con que contemos y nos dejen para hacerlo. Leer una tabla de porcentajes es fácil pero hacer Investigación de Mercados es una tarea apasionante pero difícil y que implica dedicar muchas horas de diálogo y juego con los datos.
Allá por los finales de los '80 me preguntaba por el sentido de un porcentaje y por lo absurdo de los resultados de estudios de comportamiento de animales de laboratorio en la Facultad. Al final, muchos llegamos a la misma conclusión: profesionalmente hablando, enfrentarse a los problemas del despacho día a día nos hace valorar aquello que estudiamos y que, de alguna forma, tenemos almacenado en forma de índice en nuestra cabeza; por eso decíamos al principio "... sólo hace falta saber la página donde buscar...".
Realizar un estudio cualitativo es tan complejo y rico como analizar una tabla de contingencia de una investigación cuantitativa. Un discurso y un número tienen por detrás mucha información para estudiar y relacionar.
Hoy día, es fácil que encontremos numerosos modelos de análisis de datos cuantitativos, que intentan ir más allá del frío dato número, adaptarse a las necesidades de información de hoy y, aún más, ser capaces de organizar y relacionar la cuantiosa información que circula por cientos de vias. Muy a nuestro pesar, a veces no podemos encontrar una traducción a nuestra lengua de los nombres de estos modelos, pero con lo que sí nos encontramos al estudiarlos es que la base y fundamento del modelo matemático-estadístico que utilizan son viejos conocidos de los investigadores: regresiones múltiples, correlaciones, ji-cuadrado, mínimos cuadrados, análisis de varianza, coeficientes de contingencia, etc. La Estadística de siempre sigue estando muy presente en los modelos y técnicas más vanguardistas.
Un ejemplo práctico nos puede ayudar a entender qué queremos transmitir en nuestro artículo. Vamos a partir de una simple tabla de porcentajes de variables nominales, es decir no métricas.
Imaginemos una investigación realizada con especialistas y relacionado con la prescripción de un fármaco en monoterapia o terapia combinada para una misma patología. Realizando una tabulación cruzada de las variables:
-
prescripción: monoterapia / terapia combinada
-
edad del médico: clasificada en cuatro cortes de edad
-
sexo del médico: hombre-mujer.
obtenemos los siguientes porcentajes:
|
Sexo del Médico |
Prescripción por corte de edad del médico |
Hombres |
Mujeres |
Total |
Prescribe solo en monoterapia |
% |
% |
% |
29-35 años |
17 |
20 |
18 |
36-45 años |
21 |
11 |
17 |
46-55 años |
9 |
7 |
8 |
56-65 años |
20 |
18 |
19 |
Prescribe solo en terapia combinada |
% |
% |
% |
29-35 años |
15 |
12 |
14 |
36-45 años |
9 |
16 |
12 |
46-55 años |
7 |
11 |
8 |
56-65 años |
1 |
5 |
3 |
Base: Total Muestra |
(75) |
(56) |
(131) |
La muestra fue seleccionada del listado del cliente, de forma proporcional a la edad y sexo del médico, con lo cual podemos considerarla como representativa del universo concreto que estamos estudiando.
Observando esta tabla podríamos intuir algunas conclusiones pero de una forma estadísticamente robusta no podemos afirmar nada.
En primer lugar, debemos plantear una hipótesis de trabajo: la edad y el sexo del médico influyen en la forma de prescripción del fármaco estudiado. No se trata de estudiar la interrelación que existe entre sexo-prescripción y edad-prescripción por separado, sino de estudiar la interrelación entre las tres variables a la vez. Para estudiar la relación entre dos variables (dos dimensiones) suele emplearse Ji-cuadrado, phi, o el coeficiente de contingencia. En nuestro caso tendríamos tres variables (tres dimensiones); si nuestras tres variables fuesen métricas (contínuas), estaríamos ya pensando en realizar una regresión múltiple para averiguar la relación entre una variable dependiente (lo que se va a explicar) y un conjunto de variables independientes (las que explican); nuestra variables no son cuantitativas, sino nominales y este hecho nos conduce a la imposibilidad de aplicar la regresión múltiple y a la búsqueda de otro modelo estadístico: los modelos logarítmico-lineales o más comúnmente conocidos como modelos log-lineales.
Los modelos log-lineales, cuyo objetivo es conocer la interacción entre las variables que se formulan bajo hipótesis, en un problema concreto, trabajan transformando las frecuencias observadas en logarítmos naturales obteniendo, como consecuencia de ello, un modelo aditivo en lugar de multiplicativo, para que dicho modelo pueda trabajar internamente.
Un modelo log-lineal debe pasar por varias fases:
-
la selección del tipo de análisis dentro de los modelos log-lineales, (saturado, independencia o jerárquico).
-
la realización de la prueba de ajuste que compara las frecuencias esperadas y las frecuencias observadas.
-
la elección o verificación del modelo más adecuado, en función de la prueba de ajuste realizada.
-
la interpretación de los datos.
Los modelos log-lineales nos van a dar la respuesta a la hipótesis que planteamos anteriormente. Las variables que van a ser sometidas al estudio de su posible interacción son:
Como resultado de aplicar el análisis Jerárquico log-lineal, nos encontramos que las variables prescripción y edad interactúan, no ocurriendo así entre sexo-prescripción y edad-sexo, (con un grado de significación p < 0,05).
Este modelo nos sirve para que, por un proceso de eliminación, (backward elimination), se llegue a seleccionar el par de variables mencionado.
Ahora, sí podemos tener una mayor seguridad al realizar una tabla de contingencia entre las dos variables que interactúan: edad y tipo de prescripción. Añadiremos en la tabla los residuos tipificados corregidos y explicaremos posteriormente su significado e importancia:
Forma de prescripción fármaco por edad del médico
Monoterapia |
29-35 |
36-45 |
46-55 |
56-65 |
Total fila |
|
1,00 |
2,00 |
3,00 |
4,00 |
|
Count |
24 |
22 |
11 |
25 |
82 |
Col pct |
57,1% |
57,9% |
50,0% |
86,2% |
62,6% |
Tot pct |
18,3% |
16,8% |
8,4% |
19,1% |
|
Adj Res |
-0,9 |
-0,7 |
1,3 |
-3,0 |
|
|
|
|
|
|
|
Terapia combinada |
29-35 |
36-45 |
46-55 |
56-65 |
Total fila |
Count |
18 |
16 |
11 |
4 |
49 |
Col pct |
42,9% |
42,1% |
50,0% |
13,8% |
37,4% |
Tot pct |
13,7% |
12,2% |
8,4% |
3,1% |
|
Adj Res |
0,9 |
0,7 |
1,3 |
-3,0 |
|
Total Columna |
42 |
38 |
22 |
29 |
131 |
32,1% |
29,0% |
16,8% |
22,1% |
100% |
En esta tabla tenemos varios datos en cada una de las celdillas que se corresponden con el cruce de las variables: el valor absoluto, el porcentaje vertical, el porcentaje total calculado sobre el total de la muestra y el residuo tipificado ajustado (Adjusted residual), en el cuál nos detenemos porque nos explica en qué celda puede haber mayores diferencias.
Los residuos o errores que nos aparecen en una tabla de contingencia, no significan que nos hallamos equivocado. Nos indican cómo hay que interpretar la asociación en la tabla y en cada celda. Estos residuos tipificados corregidos (traducción de Adjusted residuals de Haberman) conforman una Distribución Normal y por tanto cuentan con media 0 y desviación típica 1 (N (0,1)), lo que nos facilita la interpretación de los resultados con un nivel de confianza de 0,95, es decir, se puede afirmar que:
-
Los errores mayores de 1,96 indican celdas con más casos de los que debería haber según su frecuencia esperada, siempre que las variables estudiadas fueran independientes.
-
Los errores menores de -1,96 nos indican celdas con menores casos de los que debería haber según su frecuencia esperada si supuestamente fueran variables independientes.
¿Esto qué significa? ... Volviendo a nuestros datos de la tabla de contingencia y ubicándonos en la última fila de cada celda nos encontramos con el residuo tipificado corregido y lo interpretaríamos así:
-
¿en qué celda aparecen valores mayores a 1,96?: en la celdilla correspondiente 'a tratamiento en monoterapia' 'en médicos entre 56-65 años' (3,0), significando la existencia de una dependencia entre estas dos variables y en este pequeño colectivo médico, ya que si fuesen independientes, es decir, si no hubiera interacción el valor no superaría 1,96.
-
¿en qué celda aparecen valores menores a -1,96?: en la celdilla correspondiente a 'tratamiento en terapia combinada' 'en médicos entre 56-65 años' (3,0), quiere decir, como complemento al punto anterior, que hay menos casos de individuos entre 5665 años que prescriben el fármaco en terapia combinada, en relación a lo que el modelo estadístico esperaba (frecuencia esperada). Luego no se cumple el precepto de la independencia porque el valor del residuo tipificado corregido es menor a 1,96, hablamos pues de una dependencia existente entre esta edad y la prescripción en terapia combinada.
-
En el resto de los casos no hay dependencia ya que el modelo se ajusta de forma correcta.
Si sólo nos fijamos en el parámetro de ji-cuadrado de Pearson que arroja la tabla, diríamos que las dos variables estudiadas son independientes, globalmente hablando, no existe relación (p>0,05), sin embargo, utilizando los residuos tipificados corregidos vemos que en esa celdilla no se cumple la independencia porque hay una relación de dependencia. Hemos encontrado un nicho interesante para nuestro cliente.
Las conclusiones más básicas que sacamos de todo ello y de cara a nuestro cliente serían:
× El rejuvenecimiento de su fichero médico si su estrategia de producto se centra en la terapia combinada y optimizar sus recursos de marketing en colectivos médicos más jóvenes donde la forma de prescripción del fármaco no está relacionada con la edad del especialista.
× Ampliar su fichero médico en el colectivo de mayor edad si su estrategia de producto se centra en la monoterapia.
De cara a nosotros mismos, las conclusiones irían en la línea de:
-
No caer o dejarse llevar por las prisas.
-
Cuestionar lo obvio.