Históricamente el problema a resolver es el siguiente: si somos 40 millones de habitantes, ¿cómo hacer para averiguar lo que pensamos todos preguntándole solamente a un grupo reducido de personas?
Todos los que vivimos en esta primera parte del siglo XXI sabemos cómo funciona una encuesta, pero lo que también tengo claro es que lo que no sabemos es por qué funcionan. Es decir: ¿cómo puede alguien arrogarse el derecho a decir que conoce lo que piensa “la gente” si solamente consultó a un grupo pequeño? ¿En qué se basan quienes hacen las evaluaciones para poder decidir?
Pareciera que no nos queda más remedio que creer, casi como si fuera una religión. “Alguien” dice que conociendo la opinión de un poco más de mil personas es suficiente para saber lo que pensamos todos, y los demás le creemos. Pero, ¿es realmente así? ¿Cómo se hace una encuesta y por qué funciona? O mejor dicho, ¿por qué debería funcionar?
Lo extraordinario es que la respuesta la provee –una vez más– la ciencia. En este caso, la matemática. De hecho, en forma sistemática estamos bombardeados por encuestas que nos radiografían y que sirven para decirnos en forma periódica qué es lo que pensamos, qué es lo que nos gusta, qué es lo que queremos, qué nos quita el sueño, qué querríamos tener, qué fantaseamos, dónde querríamos ir, qué trabajos querríamos tener, qué comida nos gusta comer, qué es lo que creemos que necesitamos, etc, etc. Todo se reduce entonces a encuestar. O a encuestarnos, si usted prefiere.
Empiezo por el lugar obvio: siempre hay una forma de poder saber lo que piensa un grupo grande de personas: ¡preguntarles a todas! Esto es lo que uno hace el día de una elección o de un plebiscito. Pero claro, esta solución tiene un problema (muy grande): es muy costosa. Hay que parar el país durante todo un día, hay que involucrar forzosamente a una buena parte de la población para que hagan de “jueces/jurados”, hay que imprimir una cantidad enorme de “boletas”, renovar credibilidades (DNI, libretas de enrolamiento, cívicas, o todas las variantes que usted pueda incluir acá), invadir escuelas, iglesias, clubes, parroquias, etc., etc., etc. Y como dije al principio, tiene un costo descomunal.
Lo hacemos periódicamente para renovar parte del Congreso o para elegir presidente o gobernadores, pero sin embargo, no lo hacemos para pulsar la opinión de la población en temas ríspidos, controversiales y de difícil solución (aborto, eutanasia, legalización de ciertas drogas para uso personal por poner algunos ejemplos puntuales) u otros que serían más pedestres pero relevantes para ciertos subgrupos de pobladores en distintas regiones del país. El último plebiscito que yo recuerdo tuvo que ver con el que casi termina en un conflicto bélico con Chile.
Como es fácil advertir entonces, hay momentos en los que es necesario “saber” qué piensa la población, sólo que no es posible ni sustentable estar haciendo una compulsa popular frente a todo tema que necesitamos evaluar. Sería casi como vivir en un estado de asamblea permanente. ¿Qué hacer? Históricamente, la solución pasa por organizar una encuesta. Es decir, se pretende diseñar un método que permita consultar un grupo reducidísimo de personas y en función de los resultados que se obtengan, extrapolar los porcentajes e imaginar entonces que uno sabe lo que piensa la población toda, y obrar en consecuencia.
En todo lo que siga voy a hablar como si los encuestadores y organizaciones que se dedican a encuestar en el país no tuvieran ni nombre ni apellido. Voy a hablar desde el punto de vista de la matemática, pero con una observación: no es mi especialidad.[1]
Las primeras dudas
Empiezo con algunas preguntas. Voy a suponer que la idea es pulsar la opinión de los argentinos sobre un determinado tema, no importa cuál.
a) ¿Es posible preguntarle a un grupo de dos mil personas lo que piensa sobre algo e inferir –rigurosamente– lo que sucedería si le preguntáramos a los 40 millones? ¿Es serio eso? Más aún: ¿es científico?
Sí. Si la encuesta está bien hecha, en forma rigurosa, cumpliendo con los requisitos indispensables (de los que voy a hablar un poco más abajo) no sólo se puede inferir lo que piensa un universo de 40 millones de personas sobre un determinado tema sino que incluso se puede calcular (o estimar) el error que se comete. La matemática ofrece esas herramientas.
b) ¿Se obtiene una respuesta perfecta?
No, no es perfecta pero es muy aproximada. Es tan aproximada que uno puede incluso calcular a lo sumo cuán lejos va a estar de la respuesta “real”, o sea, la que se obtendría si se consultara a todas las personas.
c) ¿Cualquier grupo de dos mil personas sirve?
No, no cualquiera. El grupo tiene que ser elegido “al azar”. Y ése es un tema NO menor. Aunque parezca trivial, no es tan sencillo “elegir al azar”.
d) ¿Tienen que ser dos mil personas exactamente? ¿No pueden ser menos? O al revés: ¿no convendría que fueran más?
Depende del “error” con el que usted quiera hacer su cálculo. Cuanto menor sea el número de personas que integren “la muestra”, mayor será el error que se cometa. Sin embargo, si bien es cierto que cuantas más personas usted encueste menor será el error cometido, llega un cierto punto “casi de saturación” en donde por más que uno incremente mucho el número de personas que integran la muestra, las ventajas son muy pequeñas.
De hecho, con 1100 personas, los datos que se obtienen son muy buenos y permiten tener –en la mayoría de los casos– una idea bastante fina de lo que pasa con el universo total. El error se estima en más o menos un 3 por ciento del valor real.
e) ¿Las 1100 personas dependen de que los argentinos seamos 40 millones? ¿Y si fuéramos más? O sea, si una encuesta se hiciera en Alemania (80 millones) o en China (1354 millones), hace falta encuestar a más personas? ¿Y si fuera en Cuba (11 millones) o en Uruguay (un poco más de 3 millones) alcanzarían menos?
No, y esto es verdaderamente antiintuitivo y extraordinario al mismo tiempo. La muestra de 1100 personas es independiente del número que conformen el universo total. Da lo mismo que sean 40 millones, 400 millones o 4000 millones. Si me puedo permitir le sugiero que no siga leyendo tan rápido sin dedicarle un instante a pensar lo que acaba de leer: ¡no importa cuál sea la población total, si uno elige “al azar” 1100 personas, el valor obtenido sobre el tema que a usted le interesa encuestar será una aproximación en más o menos 3 por ciento del valor que le daría si usted les hubiera preguntado a todos!
f) ¿Qué particularidad tienen que tener las 1100 personas? ¿Cómo se eligen?
Como decía más arriba, éste es un dato clave y crucial. La elección de las 1100 personas TIENE QUE SER AL AZAR. Los humanos tenemos muchas dificultades para entender bien lo que significa “al azar”. De hecho, hay mucha literatura escrita explicando la dificultad que hay en generar “números al azar”, aunque parezca una trivialidad.[2]
Hay múltiples ejemplos de desviaciones brutales que se produjeron porque las muestras no cumplieron con esta regla básica.[3]
El margen de error
Ahora sí, algunas reflexiones. Estoy seguro de que usted escuchó hablar de “margen de error”. ¿Qué quiere decir esto? Confronte lo que sigue con la idea que usted tiene sobre el “error”.
En principio (y digo en principio porque no es todo lo que esto dice), cuando a uno le hablan de margen de error en realidad lo que le están diciendo es lo siguiente: es un número que mide la “tolerancia” que usted se permite aceptar, entre el valor “real” (si usted pudiera consultar a toda la población) y el valor que resulta luego de haber realizado la encuesta.
Por ejemplo: supongamos que uno quisiera saber si los argentinos estamos a favor o no de la legalización de la marihuana para uso personal y los resultados que se obtuvieran al encuestar a 1100 personas fueron que un 75 por ciento opina que sí y un 25 por ciento opina que no.
El hecho que se hayan encuestado a 1100 personas al azar significa que el resultado obtenido tiene un “margen de error” de un más/menos 3 por ciento. Pero, un momento: acá quiero hacer una pausa para una reflexión que creo importante.
De acuerdo con lo que escucho habitualmente, la conclusión que saca una persona cuando escucha o lee estos datos, es que el verdadero valor (si consultáramos a todos los argentinos) de los que están a favor de la legalización de la marihuana para uso personal es un número que “cae” entre un 72 por ciento y 78 por ciento[4]. Esto es correcto en principio, pero con un asterisco, que no es menor. Y présteme atención porque esto también es algo que no siempre aparece en el momento de revelar el resultado de una encuesta.
Hace falta agregar que esto pasaría un 95 por ciento de las veces.
Esto –creo– es una novedad. ¿Cómo un 95 por ciento de las veces? En general, uno no escucha nunca hablar de este hecho. Me explico: un 95 por ciento de las veces el resultado obtenido por la encuesta caería en el intervalo (72 por ciento a 78 por ciento), pero NO SIEMPRE. Es decir, si uno hiciera la encuesta 100 veces y le preguntara a 100 muestras de 1100 personas diferentes cada vez, entonces el valor caería entre 72 por ciento y 78 por ciento en 95 de las 100 encuestas... ¡pero no necesariamente en todas!
Y esto tiene que ver con el potencial “error en la muestra”. Parece otro tema menor, pero no lo es. Si bien las muestras son tomadas al azar, aún así hay un margen de error en la muestra. Uno está tentado de ignorarlo, y posiblemente se lo pueda permitir, pero es necesario observarlo, aunque sea un poco más engorroso de entender. En la vida cotidiana, y sobre todo en los medios de comunicación, se tiende a ignorar o minimizar este hecho que al menos requiere ser descripto alguna vez. Uno está más o menos tranquilo de que los resultados van a estar bien, porque en 95 de 100 casos “va a dar lo que debe”, pero, al mismo tiempo, es bueno saber que hay cinco casos de esos cien, en donde “puede que no”. Y lo notable es que la matemática ¡también mide este tipo de error!
De hecho, si uno quisiera ser riguroso y tratar de “eliminar” los errores tanto como le sea posible, lo que conviene hacer entonces es repetir las encuestas varias veces con diferentes grupos de personas y luego, hacer un “promedio” con esos resultados.[5]
La cuestión del número
Ahora, quiero volver “al número” de personas que integran la muestra. Si fuera todo tan fácil, yo podría elegir un subgrupo de diez personas y listo. Les pregunto a ellos, me fijo en el resultado y se terminó la historia. Lo que quiero plantear con esta idea, es que ninguno de los dos extremos es aceptable: ni preguntarle a diez ni preguntarle a 40 millones. Entonces, ¿qué hacer? Uno comienza a aumentar el grupo de personas a encuestar y a estimar el error que comete. Está claro que diez son insuficientes, pero ¿cuántas hacen falta? ¿Cincuenta? ¿Cien? ¿Mil? ¿Diez mil? ¿Cien mil?
Si la respuesta va a ser –por ejemplo– cien mil entonces, si bien es mucho mejor que 40 millones, hay algo que “falla”. Cien mil son muchísimos todavía: tenemos que reducir el número. Y mucho. ¿Cuántos entonces? ¿Cincuenta mil? No. ¿Diez mil? Ahora ya no sé. ¿Serán necesarios diez mil? Si bien yo querría seguir bajando, diez mil es un número bastante más manejable. Sigue siendo un número grande pero no imposible. Yo podría seleccionar al azar diez mil personas y preguntarles a ellas... pero, ¿estará bien? ¿Serán suficientes diez mil para poder inferir lo que queremos?
¿Qué tendrá la matemática para decir? ¿En qué lugar uno podría –o debería– hacer el corte? ¿No se podrá disminuir más? ¿Y si lo reducimos, cuánto nos estamos perdiendo? O mejor dicho: ¿cuánto estamos dispuestos a sacrificar? ¿Cuánto nos empezamos a alejar de la realidad?
Y acá voy a parar y la/lo voy a invitar a mirar la Figura 1 que sigue y más abajo voy a “intentar” dar una explicación sobre cómo interpretarlo y hacer algunas observaciones importantes sobre el origen del cuadro y los cuidados que hay que tener.
En principio, fíjese en las dos columnas. En la de la izquierda, se lee: “Tamaño de la Muestra”. En la segunda, “Margen de error de la Muestra”. ¿Cómo entender esto? Me explico.
La parte izquierda no ofrece problemas: mide cuántas personas fueron consultadas. A su vez, la columna de la derecha, mide el “error” –en porcentaje– que se comete (en más o en menos). Fíjese como al pasar de 50 a 400, el error disminuye de un +/-14 por ciento a un +/-6 por ciento. Más aún, si uno encuesta a 1.100 personas, el error ahora se reduce a un +/3 por ciento. Por último, para tener un error de +/-1 por ciento hacen falta ahora encuestar a 5000 personas.[6]
Por lo tanto, el error que uno se permita tolerar indicará el tamaño de la muestra que uno tendrá que elegir.
Final
Las encuestas no sólo son necesarias sino que se han transformado en imprescindibles si uno quiere tener el pulso actualizado sobre lo que está sucediendo con la sociedad a la que “afecta” con sus decisiones. Es imposible hacer plebiscitos constantes, las redes sociales dan una información tremenda en términos cuantitativos y también cualitativos, los medios de comunicación masivos intentan instalar los “temas” que deberían figurar en las agendas de los gobernantes, pero son esas propias redes sociales las que exhiben sin filtro lo que le importa a “la gente” o nos importa a los que habitamos un país. Pero saber hacer una encuesta, hacerla honestamente, elegir muestras verdaderamente al azar, medir los datos en forma confiable y sobre todo, establecer un “vínculo” entre lo observado y las decisiones futuras, sólo hablan de cómo un gobierno ahora se puede tildar no sólo de “moderno” sino también de “sensible”. No son más las “tapas” de los diarios los que indican el camino. Somos nosotros mismos. Eso sí: hace falta “escucharnos”.
Notas:
[1] Si bien no es mi especialidad, alguna vez, allá a lo lejos y hace tiempo, fui el profesor responsable durante algunos años de la materia Probabilidades y Estadísticas en el Departamento de Matemática de la Facultad de Ciencias Exactas y Naturales de la UBA.
[2] No se conocen formas de generar números al azar ni siquiera usando computadoras. El problema es que toda computadora “corre” un programa. Si uno descubre cuál es el programa que está generando los números, entonces puede “anticipar” lo que va a salir. El tema es precioso pero muy largo y ha dado lugar a muchísimo material escrito. De hecho, los números que se pueden generar se llaman al “seudo-azar”.
[3] Hace poco más de un año, el 6 de enero del 2013, apareció en Página/12 un artículo muy sugerente al respecto. Se puede ver también acá: http://www.pagina12.com.ar/diario/contratapa/13-211281-2013-01-06.html
[4] ya que 75% - 3% = 72%, lo que daría el extremo inferior del intervalo y 75% + 3% = 78%, que daría el extremo superior del intervalo.
[5] Ver la historia de Nate Silver en nota aparte.
[6] El error de la muestra se calcula como la inversa de la raíz cuadrada del número de personas que la componen. De allí surge la “tabla” que aparece en la figura 1.