Archivo de la etiqueta: datos

Riqueza, pobreza y desigualdad social: ¿Cómo se cuantifican?

Autor: Ansgar Seyfferth

Uno de cada cinco españoles vive oficialmente debajo del umbral de la pobreza y la desigualdad social en el país ha aumentado de manera alarmante. La crisis ha puesto en primer plano unos conceptos que antes no tenían este protagonismo en el debate público. ¿Pero qué significa ser pobre en un país europeo y como se determina la desigualdad social? ¿Cómo medir estos fenómenos para obtener así una visión real y detallada de la situación socioeconómica y de su evolución como base para las decisiones políticas y la evaluación de las mismas? Está claro que para ello no basta con los clásicos indicadores omnipresentes en las noticias económicas como el producto interior bruto (PIB), su tasa de crecimiento, la renta per cápita (el PIB dividido entre la población, que como media aritmética nada nos dice sobre el reparto de la renta) y la tasa de paro (más aún cuando se extiende el empleo precario de modo que un trabajo ya no supone necesariamente unos ingresos dignos). Una elevada renta per cápita y una reducida tasa de paro no son sinónimo de menos pobreza y desigualdad, como muestra muy bien el caso de Estados Unidos. Pero estos conceptos se emplean demasiadas veces sin rigor y de manera confusa, como ilustraremos con algunos ejemplos, a la vez que intentaremos aclarar los más relevantes, empezando con la renta per cápita para pasar después a los indicadores específicos de pobreza y desigualdad. Sigue leyendo

Anuncios

LA OMNIPRESENTE MEDIA ESTADÍSTICA – ¿QUÉ NOS DICE Y QUÉ NOS OCULTA?

Autor: Ansgar Seyfferth

Para describir y resumir un conjunto de valores cuantitativos que miden una determinada característica, se suele recurrir casi siempre a su media. Se ha convertido en un concepto tan cotidiano que a veces ni nos preguntamos qué significa en el contexto concreto en el que nos topamos con ella. Demasiadas veces asumimos sin más que representanta adecuadamente el conjunto de datos, olvidándonos de la complejidad que a menudo se esconde detrás de ella, lo cual en ocasiones puede llevarnos a conclusiones equivocadas.

Tendencias centrales, asimetría y cuantiles – Las características de una distribución salarial

Si consideramos por ejemplo los salarios de una gran empresa, el salario medio tiene una interpretación de lo más intuitiva, siendo aquel que tocaría a cada empleado si se repartiera la masa salarial a partes iguales entre todos ellos. ¿Pero es un valor representativo que se corresponde con lo que gana el “empleado medio” de la empresa? Pues veamos una hipotética distribución salarial. La siguiente figura muestra la función de densidad, representada por la curva azul, que nos indica para cada salario (en el eje horizontal, creciente hacia la derecha) cómo de frecuente es (en vertical). Para ser más exacto, el área entre dos valores desde el eje horizontal hasta la curva azul es proporcional al número de empleados con salarios entre estos dos valores, como por ejemplo entre los salarios A y B en el caso del área verde. El área entero entre curva y eje se corresponde por tanto con el número total de empleados.

DistrSalarial

Sigue leyendo

LAS ENCUESTAS Y SU TRATAMIENTO EN LOS MEDIOS DE COMUNICACIÓN – ¿CUÁNDO CONVIENE DESCONFIAR?

Autor: Ansgar Seyfferth

Las encuestas son una herramienta poderosa e imprescindible para medir estados de opinión, percepciones o experiencias de un colectivo, como puede ser la población de un determinado territorio, pero también la clientela de una empresa, los usuarios de un servicio, la audiencia de un medio, etc. Sin embargo, demasiadas veces este propósito se ve desvirtuado – en ocasiones incuso intencionadamente con fines manipuladores – por un diseño inadecuado del cuestionario, una muestra no representativa, un análisis incorrecto o incompleto de las respuestas o una interpretación errónea de los resultados en los medios de comunicación, como ilustraremos a través de una serie de sencillos ejemplos que cubren los problemas más típicos.

Sigue leyendo

LA COMUNICACIÓN Y PRESENTACIÓN DE DATOS ESTADÍSTICOS

Autor: Ansgar Seyfferth

En estos tiempos de creciente protagonismo de los datos estadísticos como fuente de información y como fundamento para la toma de decisiones en ámbitos empresariales, políticos y científicos, cobran importancia las técnicas para la exploración y el análisis de datos. Como habitualmente no es el propio analista quien toma las decisiones en base a estos datos, es igual de importante la adecuada comunicación concisa de los mismos a quien toma la decisión, ajustada al perfil de este último y a la naturaleza de los datos. Lo mismo aplica cuando se trata de informar al ciudadano interesado en formarse una opinión fundamentada en base a los datos.

Sigue leyendo

¿RELACIÓN CAUSA-EFECTO O CAUSA-DEFECTO? CUIDADO CON LAS CONCLUSIONES PRECIPITADAS

Autor: Ansgar Seyfferth

¿El café acorta la vida? ¿Los empleados públicos son mejor pagados que los privados? ¿Las amas de casa son más conservadoras y católicas que las mujeres trabajadores? Preguntas como estas suelen ser mucho más difíciles de responder de lo que puede parecer a primera vista. Y es que la deducción precipitada de una relación causa-efecto de cualquier asociación o correlación es una de las fuentes más extendidas de interpretaciones erróneas, que frecuentemente confunden – o manipulan intencionadamente – a la opinión pública, como ilustraremos con unos ejemplos.

Hay una percepción generalizada que el café perjudica la salud, que parece tener su justificación en la mayor mortalidad (ajustada por edad) de los bebedores de café, nuevamente confirmada el año pasado en un estudio muy amplio. Pero en aparente contradicción con esta tendencia, en el mismo estudio el café se revela como un factor reductor de la mortalidad, cuando en el análisis se incluyen otros hábitos que pueden influir en la mortalidad, como  el consumo de tabaco y de alcohol, la dieta y la práctica de ejercicio físico. Resulta que los bebedores de café tienen mayor tendencia a hábitos poco saludables, por lo que su mayor mortalidad sería más bien debido a dichos hábitos y no al café, que hasta podría (véase el último párrafo de este artículo) contrarrestar en parte el efecto perjudicial de los malos hábitos. Por lo tanto, si la comparativa se lleva a cabo entre personas que salvo su consumo de café tienen los mismos hábitos, los bebedores de café tienen una mortalidad inferior, pero paradójicamente de media su mortalidad es superior, debido al mayor peso relativo de los bebedores de café en los grupos de peores hábitos y por tanto mayor mortalidad.

Sigue leyendo

EL ÚLTIMO PAPELITO DE MOU – UN EJEMPLO DE MANUAL DE MANIPULACIÓN ESTADÍSTICA

Autor: Ansgar Seyfferth

En su conferencia de prensa del viernes 3 de mayo, el entrenador de fútbol del Real Madrid, José Mourinho, defendió en respuesta a la pregunta de un periodista el palmarés conseguido con el equipo desde su llegada en 2010, tirando – papelito en mano – de las estadísticas, un recurso muy común para darle mayor solidez a los argumentos al respaldarlos con datos objetivos. Pero la solidez puede ser una mera apariencia si los datos no se seleccionan y analizan de manera adecuada y los resultados no se interpretan correctamente, sea por error o bien intencionadamente para apoyar el propio punto de vista. Y el discurso de Mourinho nos ofrece un excelente ejemplo de lo último, que merece la pena analizar a fondo, ya no por motivos futbolísticos – aquí no se pretende valorar su labor como técnico del Real Madrid – sino por tratarse de una práctica muy común también en otros ámbitos como la política, y sabiendo detectar las trampas más habituales en el manejo de las estadísticas somos menos susceptibles de ser manipulados.

Sigue leyendo

EL INCÓMODO CONCEPTO DE LA INCERTIDUMBRE Y LA IMPORTANCIA DE SU CORRECTO TRATAMIENTO – EL EJEMPLO DE UN DESASTRE POSIBLEMENTE EVITABLE

Autor: Ansgar Seyfferth

No hay evidencia más clara de falta de formación matemática que la exactitud desmedida en el cálculo numérico.“ Carl Friedrich Gauss.

  • Cuando según las estimaciones de Naciones Unidas la población mundial estaba cerca de superar el hito de los siete mil millones en 2011, con el correspondiente nombramiento simbólico de una niña nacida en la India el 31 de octubre como habitante nº 7.000.0000.000, la BBC contribuyó a la conmemoración con una aplicación que nos indica que por ejemplo una persona nacida el 12 de marzo del 2012 es el habitante nº 7.025.266.171 de la población actual de la tierra y el nº 83.264.625.265 de todas las personas que la han habitado desde los comienzos de la historia y lo mismo para cualquier otra fecha de nacimiento. Así, sin referencia alguna al margen de error, con todos los dígitos, cuando en realidad solamente son fiables los primeros dos de la población actual y como mucho el primero de la población acumulada desde los comienzos de la historia. (Sin ir más lejos, según las estimaciones de la Oficina del Censo de los Estados Unidos, algo más bajas que las de la ONU, la fecha  de superación de los siete mil millones de habitantes fue precisamente la introducida como ejemplo en la aplicación de la BBC, es decir existe una diferencia de unos 25 millones.)
  • Recientemente pudimos leer en el ABC que el tráfico global de datos móviles se multiplicará por trece entre 2012 y 2017, alcanzando los 11,2 Exabytes mensuales, lo que supone un incremento interanual del 66% en dicho período, según un informe realizado por Cisco. Un incremento anual del 66% exactamente, hasta los 11,2 Exabytes mensuales, ni 11,1 ni 11,3, y expresado en unos términos de certeza absoluta, cuando se trata de una variable en la que influyen muchos factores, cada uno con su incertidumbre asociada, y de una predicción de un crecimiento exponencial a cinco años vista, muy sensible a ligeras variaciones. (Por ejemplo para un crecimiento anual del 60% en vez del 66%, el tráfico mensual en 2017 no llegaría a los 9,3 Exabytes.)
  • El barómetro electoral de febrero de El País reveló una espectacular caída de la intención de voto del Partido Popular. Sin embargo, el periódico matizó que seguía siendo el partido más votado con el 23,9% por delante del PSOE con el 23,5%. Como si la ventaja de tan solo 0,4 puntos porcentuales – obtenidos no en un escrutinio completo de votos en unas elecciones reales sino en una encuesta entre una pequeña fracción de la población española con su correspondiente error muestral – fuera significativa. La ficha técnica a pie del gráfico de la encuesta deja clara que no lo es en absoluto, es decir que puede haberse producido perfectamente por azar en la muestra sin que en la población exista tal ventaja en la intención de voto. Además las respuestas espontáneas de los ciudadanos no se corresponden siempre con su comportamiento electoral real, cosa que los institutos de sondeo intentan corregir con una serie de ajustes, que suponen otra fuente de incertidumbre.

Acabamos de ver tres casos de una mala praxis muy extendido, consistente en obviar toda incertidumbre asociada a una estimación y presentar sus valores de una forma que sugiere una exactitud inexistente. Pero en ocasiones la incertidumbre es tan importante o más que la propia estimación, y no entenderla puede tener consecuencias fatales.

El 13 de febrero de 1997 el Servicio Meteorológico Nacional de los Estados Unidos (NWS) avisó de un elevado potencial de crecida de las aguas del Río Rojo del Norte de cara al deshielo previsto para abril, debido a las históricas nevadas de los meses anteriores en su cuenca hidrográfica, sobre unos suelos ya saturados de agua tras un otoño muy húmedo. El 27 de febrero cuantificó este aviso, prediciendo que en el paso del río por el área metropolitana de Grand Forks las aguas iban a llegar a una altura máxima de 49 pies, casi 15 metros, el nivel más alto en un siglo. Curiosamente este número tuvo un efecto tranquilizador, ya que el área metropolitano estaba protegido por unos diques de 51 pies de altura – que a raíz del aviso se reforzaron como medida de seguridad adicional con sacos de arena hasta los 52 pies – y porque en la primavera de 1979 el agua había alcanzado casi la misma altura – 48,8 pies – sin causar demasiados daños.

Sin embargo, el deshielo se produjo de manera más repentina de lo habitual, porque tras cuatro meses de heladas casi constantes sin deshielo gradual, a mediados de marzo las temperaturas subieron de manera brusca. A ello se añadió una tormenta de nieve y granizo principios de abril. Por ello el caudal del río creció más de lo esperado. Además, el incremento de la altura del agua en función del caudal fue mayor de lo previsto, debido a obstáculos – como puentes o diques levantados para proteger las localidades ribereñas y que suponían un estrechamiento del flujo – no tenidos en cuenta en el modelo ya que se carecía de antecedentes históricos de semejante caudal para calibrar su efecto. Cuando el NWS corrigió su pronóstico paulatinamente al alza ya era tarde para reaccionar y el 21 de abril el agua alcanzó los 54,35 pies, el nivel más alto jamás registrado, inundando buena parte de los Grand Forks y obligando a la evacuación de la población en plena noche y causando uno de los desastres naturales más costosos de la historia de los EE.UU., aunque afortunadamente sin víctimas mortales.

Sigue leyendo