Tratando de deducir el número de infectados por Coronavirus en una población concreta
Conocer el número de infectados por el virus de la COVID-19 es una tarea ardua, debido en gran parte a la falta de tests masivos. Las autoridades proporcionan datos a nivel nacional y regional, pero a nivel local resulta complicado hallar datos. He aquí un método deductivo a partir de un sondeo a una pequeña muestra en una población mediana (21000 hab) y una simple simulación numérica.
Loja es un municipio de la provincia de Granada (España) que cuenta con, aproximadamente, unos 21000 habitantes. Desde el inicio de la cuarentena (14 de Marzo) los vecinos de la localidad que presentaban síntomas compatibles con COVID-19 y acudían al hospital local, eran derivados a un hospital de la capital (Granada) en caso de dar positivo en el test de coronavirus, sobretodo si los síntomas eran graves. Si no, eran enviados a sus casas donde eran sometidos a seguimiento telefónico por parte del personal sanitario.
Desde el inicio de la pandemia, las diferentes autoridades españolas (gobierno central, autonómicos) facilitan datos de casos confirmados, así como de ingresados en UCI y fallecimientos debidos a COVID-19. La resolución de estos datos, en el mejor de los casos, es a nivel provincial, por lo que no se facilitan, de forma ordinaria, datos a nivel local. Sin embargo, gracias a la labor periodística de los medios en este ámbito, se pueden conocer datos facilitados por el propio hospital local. A fecha de 5/4/2020, existían en Loja alrededor de una treintena de casos confirmados, más unos sesenta casos no confirmados, sometidos a seguimiento telefónico. Es decir, alrededor de un centenar de vecinos se han visto afectados por la COVID-19.
¿Cuán fiables son estos datos? Para tratar de estimar una cifra alternativa de afectados mediante otros métodos de hipótesis y análisis meramente estadísticos, he desarrollado el siguiente estudio:
El método consistía en lo siguiente: realizar un sondeo online dentro de un grupo cerrado de vecinos en la red social Facebook, preguntando directamente a toda aquella que quisiera responder, cuántas otras personas de su entorno conocía que habían sido ingresadas por COVID-19, o estaban pasando la enfermedad en casa. De este modo, extrapolando las respuestas a partir de un modelo teórico de conocimiento de posibles infectados, se podría tratar de deducir el número de los mismos a partir del grado de conocimiento popular de casos.
Explicación del modelo teórico
El modelo empleado, bastante simple, se basa en las siguientes hipótesis:
- Cada vecino de la localidad tiene una red de contactos, un entorno (familiares directos, amigos y compañeros de trabajo) formado por N otros vecinos.
- Si un vecino resulta afectado, podemos asumir que sus N contactos directos tendrán noticia de ello
- Todos los habitantes de la localidad podrán, entonces, ser divididos en grupos (clusters) de N+1 personas cada uno.
- Lógicamente, estos clusters pueden tener contactos en común (no son totalmente disjuntos). Esto hace que existan vecinos que conozcan más de un caso (pertenecen a dos entornos de dos afectados)
Gráficamente, estas hipótesis se podrían entender así:
A partir de estas presunciones, se arma un “toy model” (un modelo de simulación ‘de juguete’) con datos de prueba. El modelo consiste en la fabricación de una matriz de co-ocurrencia que represente las conexiones bilaterales entre los vecinos de una población.
En el siguiente gráfico, se muestra un ejemplo de matriz de co-ocurrencia para N=8 habitantes. Las filas y columnas representan dichos habitantes, con 64–8=58 posibles relaciones o conexiones. Si el vecino #3 y el vecino #6 son conocidos, su casilla se pinta en negro, y en blanco si no se conocen. Lógicamente, se trata de una matriz simétrica, ya que las relaciones son simétricas (es una red ‘no-directed’, no jerárquica).
Si, por ejemplo, los vecinos #4 y #8; como muestra la gráfica tal, han sido infectados (señalados en rojo como filas), el conteo de casillas negras en las columnas nos da el número de infectados que cada vecino conoce (en este modelo se ha decidido excluir la autorreferencia, los propios enfermos ‘no se conocen a sí mismos’ y no cuentan como conocidos enfermos para él)
A partir de ahí, se construye un sencillo algoritmo (una rutina escrita en Octave) que, a partir de tres parámetros calcula el número de infectados conocidos por cada vecino.
Estos tres parámetros son:
- N = número total de habitantes de la población
- pK = el grado de conectividad entre los vecinos, o el tramaño promedio de los entornos de conocidos, como porcentaje de la población total
- pC = porcentaje estimado de personas infectadas
El algoritmo simula una matriz de co-ocurrencia con estos parámetros de prueba, y proporciona un listado de cuántos vecinos conocen a: ningún infectado, uno, dos, tres o cuatro.
Este perfil de resultados se compara con el obtenido a partir del sondeo en las redes sociales. Al representar gráficamente los resultados, se obtienen las curvas de ajuste exponenciales, con sus respectivos coeficientes de ajuste.
La idea es correr varias simulaciones con diversas combinaciones de parámetros pK y pC, manteniendo N=21000 que sería la muestra para el caso de toda la población de Loja, con el fin de obtener la combinación que, tras representarla gráficamente con su ajuste exponencial, devuelva unos coeficientes similares.
Para ello, había que estimar primero el parámetro pK, el porcentaje de conexiones en el entorno directo de cada habitante. Con ese fin, se preguntó en el sondeo acerca del tamaño del entorno directo de una persona. El resultado fue el siguiente:
Entonces, para las simulaciones se decidió fijar el parámetro pK en el 0,11% de la población (cada vecino conoce, en promedio, a otros 23) y variar el parámetro pC (estimación de habitantes contagiados) desde el 0,4%, el que se deduce según los datos oficiales, e ir aumentándolo en pasos de +0,1% cada vez hasta obtener un perfil similar al que saldría según el sondeo.
El modelo entonces calcula el % estimado de contagiados a partir de dicha comparación, usando el parámetro pC que mejor ajuste proporcione.
Resultados
El sondeo más detallado arrojó los siguientes resultados:
La curva de progresión de exponencial dió un ajuste con un coeficiente de descenso exponencial de c=-1,64 y un coeficiente de correlación R=1.
La simulación con parámetro pK=0,11% y pC=0,01 (probabilidad de contagio de exactamente 1%) resultó en una gráfica con coeficiente c=-1.64 y coeficiente de correlación R=0,99
Conclusiones
Con estos datos, usando este modelo se concluye que, según la estimación por grado de conocimiento entre vecinos, el número de contagiados/infectados en Loja, a fecha de 05/04/2020 sería de unos 210, algo más del doble de los casos registrados con los datos oficiales.
Obviamente, los datos reales se sabrían aplicando tests PCR a un porcentaje significativo de toda la población. Se han publicado estimaciones donde se calcula que el número de infectados en esta fecha en el conjunto de España podría estar entre los 1,7 y los 18 millones (frente al dato oficial de 135.000 casos confirmados) por lo que todas las estimaciones, sobre todo ésta, han de ser tomadas con cautela.
La intención de este estudio era la de comprobar la viabilidad de realizar una estimación de afectación de un evento determinado sobre una población dada, usando para ello un método de sondeo estadístico sobre el conocimiento mutuo en una población con cierto grado de interconexión. Aquí el punto clave consiste en conocer precisamente ese grado de interconexión, un parámetro que disminuye según el tamaño de la población estudiada (en las grandes ciudades los clústers son más aislados, en los pueblos pequeños todo el mundo se conoce, por lo que el parámetro pK es mayor).
En el caso concreto a estudio, se observa una peculiaridad: en Loja la población estaría dividida en dos grandes grupos: los vecinos cuyo entorno es muy reducido (menos de 10 contactos) y aquellos cuyo entorno es de tamaño mediano-grande (de 30 a 60 contactos), lo cual explicaría la dificultad en correlacionar los datos del modelo con los resultados de la primera encuesta, que arrojaba un % de gente que conocía a más de 3 contagiados inusualmente alto, posiblemente debido a la superposición de dos curvas de conocimiento debidas a esta dicotomía en “popularidad”.
Este modelo de simulación es una primera aproximación sencilla, el objetivo es hacerlo más complejo para afinar mejor los resultados y aplicarlos a otras poblaciones, y a otros fenómenos. Una propuesta para tratar de encontrar caminos para hallar información, cuando se dispone de datos indirectos o parciales.
Para dudas, consultas, etc. por favor emplea el área de comentarios bajo este artículo. Gracias!