5  Población y muestreo

En este capítulo abordaremos los conceptos de población y muestra y muestreo. Revisaremos las ventajas y desventajas de cada uno de los tipos de muestreo y algunos ejercicios en R.

5.1 Población

En estadística una población puede entenderse como el grupo objetivo del cual se eligen los sujetos de la muestra y para quienes se generalizarían los resultados. Elgrupo objetivo debe tener características previamente definidas. Algunos ejemplos de población son:

  • En un estudio sobre la prevalencia de EPOC en un país, la población objetivo podría ser todos los casos de EPOC existentes en ese país.
  • Para un programa de control del cáncer de prostata, la población objetivo podría ser todas los hombres de más de 45 años del occidente de México.
  • Para estudiar los factores asociados al cáncer de mama, la población objetivo podría ser todas la mujeres mayores a 35 años que acudieron a revisión en un hospital de segundo nivel.

Refiriéndonos a la definición de población, podemos decir que está formada por todas las unidades sobre las que se pueden aplicar los resultados de la investigación. En otras palabras, la población es un conjunto de todas las unidades que poseen características variables bajo estudio y para las cuales los resultados de la investigación pueden generalizarse (Abhaya Indrayan 2017), (Majid 2018), (Shukla 2020).

El concepto de población no es perfecto y presenta algunas limitantes, por ejemplo:

  • Si se encuestan todos los casos existentes, no hay garantía de que los resultados se apliquen a casos futuros. Algunos autores sugieren que el concepto de población debe abarcar tanto casos pasados como casos futuros.
  • En medicina el concepto es más hipotético que real. Sería imposible en la mayoría de los casos identificar a todos los pacientes con una característica en común.
  • Cuando efectivamente se incluyen todos los casos existentes, sigue siendo una muestra considerando que no se incluyen casos futuros.

En algunas ocasiones nos podemos referir a una población finita o población infita. El primer concepto se refiere a una población en el que las unidades se encuentran perfectamente definidas y podemos estimar cuantas unidades conforman las misma. Por ejemplo: todas las mujeres casadas mayores de 40 años del barrio del Santuario en Guadalajara Jalisco. En cambio, una población infita, no puede ser contabilizada. Por ejemplo: la cantidad de diabéticos de México. Aunque existen estimaciones de cuantos diabéticos hay en México, es imposible saber con exactitud cuantos hay.

5.2 Muestra y muestreo

En la sección de [Universo, población y muestra] ya se definió el concepto de muestra. Aquí nos enfocaremos en sus ventajas y desventajas. Algunas de las características de la muestra son:

  • Puede ser el único método factible para la recopilación de datos relevantes en algunos casos. Ventaja

  • Menor costo y menor demanda de recursos (personal, laboratorio, etc.) Ventaja

  • Se puede recopilar información confiable si lo métodos son adecuados. Ventaja

  • Una muestra de una población con toda probabilidad será diferente de la segunda muestra. Desventaja

  • No todas las muestras son representativas, aunque hay métodos disponibles que hacen que sea probable que suceda. Desventaja

  • Cuando se requiere información para segmentos pequeños que contienen pocos individuos, el muestreo puede no proporcionar información lo suficientemente precisa sobre ellos. Desventaja

  • A veces, de todos modos, se necesita un recuento completo, como para un diagnóstico y perfil de resultados de los casos ingresados en un hospital cada año. Desventaja

5.3 Otros conceptos

Para comprender con exactitud los conceptos de muestreo, es necesario antes definir otros conceptos “para hablar el mismo lenguaje”

5.3.1 Unidad de investigación y unidad de muestreo

La unidad de investigación es el tema sobre el que se obtiene información. En cambio, la unidad de muestreo es la que se utiliza para realizar el muestreo. Para poder comprender mejor estos conceptos, revisaremos un ejemplo: En un censo realizado por el INEGI (Instituto Nacional de Estadística y Geografía) sobre la desnutrición infantil, la unidad de muestreo podría ser una familia, pero la unidad de investigación podría ser un niño menor de 5 años. Una unidad de muestreo puede tener múltiples unidades o ninguna unidad sobre la cual investigar.

5.3.1.1 Marco de muestreo

Se refiere a la lista de todas las unidades de muestreo en la población objetivo se denomina marco de muestreo. Algunas características del marco de muestreo son:

  • Las unidades se eligen en el marco de muestreo.
  • Las unidades de muestreo deben ser mutuamente excluyentes y el marco debe ser una lista en las que se identifiquen las unidades
  • La preparación del marco requiere una definición precisa de la unidad, así como de la población. Criterios de inclusión y de exclusión. La bioestadística no está pelead con la metodología.

5.3.2 Tamaño de muestra

¿Qué cantidad de muestra es la adecuada para ser representativa de una población? La respuesta a esta pregunta es el tamaño de muestra. Este concepto se refiere al número de sujetos o unidades de muestreo mínimos para identificar diferencias. Debe ser lo suficientemente grande para responder nuestra pregunta de investigación y para permitirnos encontrar diferencias y/o asociaciones. Se utiliza la letra \(n\) para referirnos a ella.

En futuros capítulos abordaremos un poco más acerca del tamaño de muestra.

5.3.3 Muestreo aleatorio y no aleatorio

Una muestra se denomina aleatoria cuando la inclusión o exclusión de un sujeto elegible en particular depende del azar y no se puede predecir de antemano (Palinkas et al. 2015),(Berndt 2020).

  • Para hacer un muestreo aleatorio necesitamos:
    • Un gran número de unidades de muestreo.
    • O conocer todos los individuos que reúnen con mi criterios de inclusión y exclusión

La selección aleatoria es solo una estrategia para obtener una muestra representativa. Cuanto mayor sea la muestra en relación con el tamaño de la población, mayor será la probabilidad de que sea representativa, aleatoria o no. Pero el muestreo aleatorio asigna probabilidades que ayudan a hacer inferencias estadísticamente sólidas.

Algo que no debemos olvidar es que la fluctuación de la muestra depende del: + Método del muestreo + Tamaño de muestra + Variación

5.4 Métodos de muestreo

En esta sección se revisaran los siguientes métodos de muestreo(Berndt 2020),(Abhaya Indrayan 2017)

  • Muestreo aleatorio simple
  • Muestreo aleatorio estratificado
  • Muestreo aleatorio multi etapa
  • Muestreo aleatorio por conglomerados (clusters)
  • Muestreo aleatorio sistemático
  • Muestreo consecutivo
  • Muestreo secuencial

Algunos de los tipos de muestreo no serán definidos en primera instancia pero si serán puestos es práctica.

5.4.1 Muestreo aletorio simple

En el muestreo aleatorio simple todos los individuos o unidades de muestreo deben de tener la misma probabilidad de ser seleccionados. En este tipo de muestreo estrictamente, todas las muestras, independientemente de su tamaño, tienen las mismas posibilidades de ser seleccionadas. Una de las principales desventajas de este tipo de muestreo es que requiere de la disponibilidad del marco muestral.

Por ejemplo, suponga que quiere hacer un muestreo aleatorio en el que su población de interés son los estudiantes de posgrado de CUCS, para ello necesitará una lista de todos los estudiantes que cumplan con sus criterios (incluidos maestrías, doctorados y especialidades). Es decir, se necesita todo su marco de muestreo para seleccionar aletoriamente a los estudiantes.

5.5 Muestreo aletorio estratificado

Según la RAE un estrado es un conjunto de elementos que, con determinados caracteres comunes, se ha integrado con otros conjuntos previos. Ahora imagine, que se realiza un estudio para evaluar los niveles de una hormona en mujeres. Se espera que la muestra sea representativa de todos los hospitales de segundo nivel de Guadalajara. ¿Cómo nos aseguramos de que todos los hospitales tengan una representación adecuada? Para ello, recurrimos al muestro estratificado, para ello se siguen los siguientes pasos:

  • Primero se realiza la identificación de los estratos (los hospitales)
  • Después se realiza un muestreo aleatorio para cada estrato
  • Se determina el tamaño de la muestra para cada estrato
  • Una muestra obtenida por muestreo aleatorio estratificado implica que la muestra de cada estrato está en la misma proporción que en la población

En el muestreo por estratos, la población se divide en subgrupos o estratos homogéneos basados en una característica específica, como la edad, el género, la ubicación geográfica, el nivel socioeconómico o la condición de salud. Luego, se selecciona una muestra aleatoria de cada estrato. Para el ejemplo anterior podrían los estratos podrían ser: mujeres menores a 20 años, mujeres de entre 20 y 40 años y mujeres mayores a 40 años. La figura Figure 5.1 ilustra el muestreo por estratos:

Figure 5.1: Muestreo aleatorio estratificado

Otro ejemplo de muestreo por estratos es:

  • Supongamos que deseas llevar a cabo un estudio para evaluar la prevalencia de la diabetes en una población de adultos mayores en una ciudad determinada. Sabes que esta población se compone de cuatro estratos en función de la ubicación geográfica: centro de la ciudad, suburbios, áreas rurales y áreas costeras. Cada estrato tiene una población de adultos mayores con características socioeconómicas y de acceso a la atención médica ligeramente diferentes.

Alguna de las ventajas para el muestreo por estratos son:

  • Permite obtener estimaciones precisas para cada estrato, lo que es útil cuando se sabe que diferentes estratos tienen diferentes tasas o características de interés.
  • Puede proporcionar una representación equitativa de cada estrato, lo que es útil para garantizar la inclusión de grupos minoritarios en la muestra.
  • Facilita un análisis detallado de cada estrato por separado.

Mientras que algunas de sus desventajas son:

  • Puede ser más costoso y requerir más tiempo que otras técnicas de muestreo.
  • Requiere información precisa sobre la población en términos de estratos.

5.6 Muestreo aletorio por clústers (conglomerados)

El muestro aleatorio por clústers suele confundirse con el muestreo por estratos, sin embargo, a diferencia del análisis por estratos, el análisis por clusters permite que ciertas unidades de muestreo, sobre todo cuando son pequeñas o reúnen ciertas características, no sean incluidas. Es decir, podemos no incluir algunas unidades de muestreo con tamaño pequeño. Otra diferencia es que el muestro por conglomerados es una técnica que aprovecha la existencia de grupos que pueden estar definidos previamente (por ejmplo, geográficamente). Por lo tanto, en el muestro de clusters es mejor para divisiones. Puede ver algunos ejemplos sobre el muestro por clusters y sus diferencias entre el muestro por estratos en las figuras Figure 5.2 y Figure 5.3.

Quizá la diferencia más importante entre el muestreo por clústers y por estratos es que el primero se aprovecha de divisiones ya hechas en la población.

Figure 5.2: Muestreo por conglomerados

Figure 5.3: Muestreo por conglomerados. Otro Ejemplo

Un ejmploe de muestreo por conglomerados podría ser: imagine que realiza un estudio para evaluar la prevalencia de enfermedades transmitidas por vectores, como el dengue y el zika, en una región rural de un país. En lugar de realizar un muestreo por estratos, donde dividirías la población en grupos basados en alguna característica específica, optas por el muestreo por clusters debido a la falta de una lista completa y actualizada de todos los hogares en la región

5.6.1 Muestreo aleatorio multietapa

Otro tipo de muestreo muy utilizado es el muestro aleatorio multietapa. El cual, como su no nombre lo dice consiste en extrear una muestra por etapas. Por ejemplo, imaginemos que es de nuestro interés estimar la prevalencia de tabaquismo en el estado de Jalisco. Para ello, se puede, por ejemplo, seleccionar primero 4 municipios del estado, luego 12 ciudades dentro de cada municipio seleccionado y luego 50 familias dentro de cada bloque seleccionado, todo por método aleatorio.

El muestreo multietapa es útil para poblaciones de gran tamaño que consiste en extraer las muestras por etapas y Se realiza el muestreo de la unidad mayor a unidad menor.

Figure 5.4: Muestreo aleatorio multietapa

5.6.2 Muestro aleatorio sistemático

Imaginemos ahora que tenemos un grupo de niños de una escuela primaria en el que los niños que se encuentran ordenados por estatura. Nuestro interés es conocer el índice masa corporal promedio de los niños de esa primaria. Para poder tener una muestra representativa de estos, se realizará una muestreo aleatorio sistemático. Este tipo de muestro consiste en seleccionar uno de los niños a azar (por ejemplo, mediante un muestreo aleatorio), posteriormente “sistemáticamente” selecciona el siguiente niño. Por ejemplo, podemos seleccionar un niño y medir su índice de masa corporal cada 20 niños. Es decir, después de 20 niños un niño será seleccionado. Con esto, nos aseguramos que por ejemplo no estemos haciendo nuestro muestreo con sesgo. Es decir, tendrías un error si solo seleccionamos a los niños más pequeños o a los más grandes. Ver figura Figure 5.5

Figure 5.5: Muestreo aleatorio multietapa

5.6.3 Casos consecutivos

Consiste en incluir a un individuo o paciente siempre y cuando cumplan los criterio de inclusión en el momento que este acuda a consulta, centro de referencia, laboratorio etc. Es un tipo de muestreo no probabilístico, los individuos no tienen las mismas probabilidades de ser seleccionados. Si el paciente no va a consulta no podrá ser seleccionado. En este tipo de muestreo se debe de evitar el sesgo del os días. Por ejemplo, si acudimos a la consulta solamente los lunes, no podríamos seleccionar a los pacientes que acuden otros días.

5.6.4 Muestreo secuencial

En el muestreo secuencial, los sujetos elegibles de la población objetivo se seleccionan uno a uno de manera aleatoria y se evalúan. El muestreo posterior se detiene tan pronto como se dispone de un resultado fiable en un sentido u otro. Por ejemplo, si es de nuestro interés asociar el índice de masa corporal con el riesgo de presentar infarto agudo al miocardio, detendremos el muestreo cuando logremos ver esta asociación. Este método de muestreo no es tan popular en medicina y se trata de un método no probabilístico.

5.7 Muestreo en R

El siguiente apartado de este capítulo describe algunas funciones útiles para realizar muestreo dentro de R. Veremos los siguientes puntos:

  • Muestreo aleatorio utilizando La función sample
  • Muestreo aleatorio en un base de datos
  • Muestreo aleatorio sistemático
  • Muestreo utilizando el paquete dyplr

5.7.1 Muestreo aletorio simple en R

La función sample() devuelve un número determinado de datos de un objeto. Esta función requiere al menos los siguientes argumentos: + un objeto del que vamos a extraer los datos + la cantidad de datos que vamos extraer + un argumento lógico para indicar si se quiere remplazo

Un argumento es el parámetro(s) proporcionados a una función para realizar las operaciones para las que fue creada. Es decir, un argumento le dice a una función que hacer. En este compendio utilizaremos constantemente la expresión “la función se alimenta de los siguientes argumentos”.

Ejemplo Example 5.1

Example 5.1 De una lista de 2000 datos vamos a extraer 10 de ellos sin remplazo

set.seed(4)# Función para que todos tengamos los mismos datos
sample(x=1:2000, size=10, replace = FALSE)
 [1] 1528  587  819 1795   71  684  371  757  698  307

El ejemplo Example 5.1 requiere de la explicación de algunos puntos:

  • La función set.seed permite generar números “aleatorios” bajo ciertos parámetros. En R los números aleatorios, en realidad no son aleatorios, sino pseudoaleatorios. Imagina que tiene un puñado de semillas, y no conoce su procedencia ni el árbol al que darán vida. Por lo tanto, se las siembra, el árbol que crecerá será un misterio. Ser pseudoaleatorio en lugar de aleatorio puro significa que, R necesita conocer la la procedencia de la semilla antes de plantar un árbol. La función set.seed permite modificar esta semilla e indicarle a R cual semilla seleccionar en lugar de seleccionar una al azar.
  • Utilizando la función sample generamos de nuestro argumento x 10 números aleatorios (size) sin remplazo. Explicado de otro forma, del argumento x que contiene una secuencia de números del 1 a 2000 se seleccionaron al azar 10 número sin remplazo. El argumento replace indica si la muestra será seleccionada sin o con reemplazo.

Exercise 5.1 Cree un objeto con todos los nombres de los los alumnos de la clase. Extraiga una muestra aleatoria con reemplazo de 50.

Exercise 5.2 Función sample() aplicada a bases de datos

De la base de datos pima.tr2 de la librería mass utilizando la variable edad, seleccione al azar 20 datos

library(MASS)# Cargar paquete
data("Pima.tr2") # cargar data set
sample(Pima.tr2$age, size=20)
 [1] 21 30 41 33 41 31 28 21 28 37 43 42 21 28 62 30 27 28 60 28
**Otra forma de resolución**
Pima.tr2$ID <- 1:300 # Creamos una variable de indexación
head(Pima.tr2) # Visualizar los primeros 6 datos de un data grame
  npreg glu bp skin  bmi   ped age type ID
1     5  86 68   28 30.2 0.364  24   No  1
2     7 195 70   33 25.1 0.163  55  Yes  2
3     5  77 82   41 35.8 0.156  35   No  3
4     0 165 76   43 47.9 0.259  26   No  4
5     0 107 60   25 26.4 0.133  23   No  5
6     5  97 76   27 35.6 0.378  52  Yes  6
sample(Pima.tr2$ID, size=20)
 [1] 126  76  61 133 234  48 200 250 128 158  22 251 267  26 278 113 191 228 258
[20] 177

5.7.2 Muestreo sistemático

El Example 5.2 muestra como realizar muestreo sistemático utilizando R.

Example 5.2  

set.seed(4) # Indicamos la semilla a sembrar
n <- sample(Pima.tr2$ID, size=20)# Seleccionar una muestra de 20 sin reemplazo
n+5 # Seleccionamos sitemáticamente 
 [1]  80 264  76 177 250 191  67 107 135 157  89 260 240  53 181 202 155  59 208
[20]  85

5.7.3 Muestreo con otros paquetes

El Example 5.3 describe como hacer muestreo aleatorio utilizando la librería dplyr

Example 5.3  

# Instalar el paquete dplyr
install.packages("dplyr")

# Otra alternativa de instalación
install.packages("devtools")
devtools::install_github("tidyverse/dplyr")
# Una vez instalada la librería podemos cagarla
library(dplyr) # Librería necesario
# Objeto con una muestra de 20 sin reemplazo:
muestra <- Pima.tr2 %>%
  sample_n(size=20, replace=F)
head(muestra) # Visualizar los primeros 6 datos de nuestro objeto
  npreg glu bp skin  bmi   ped age type  ID
1     2 157 74   35 39.4 0.134  30   No 180
2     6 109 60   27 25.0 0.206  27   No  65
3     9 152 78   34 34.2 0.893  33  Yes 152
4     4 134 72   NA 23.8 0.277  60  Yes 246
5     0 167 NA   NA 32.3 0.839  30  Yes 288
6     2 112 86   42 38.4 0.246  28   No 126

El Example 5.4 muestra como realizar un muestreo por proporción de casos

Example 5.4  

muestra2 <- Pima.tr2 %>% 
  sample_frac(0.10)# Extraer el 10% de lo casos
head(muestra2)
  npreg glu bp skin  bmi   ped age type  ID
1     8 133 72   NA 32.9 0.270  39  Yes 278
2     7 103 66   32 39.1 0.344  31  Yes 113
3     0 119 64   18 34.9 0.725  23   No 191
4     2 109 92   NA 42.7 0.845  54   No 228
5     4 123 62   NA 32.0 0.226  35  Yes 258
6     0 125 96   NA 22.5 0.262  21   No 291

5.8 Ejercicios muestreo

Exercise 5.3 Suponga que queremos aleatorizar a los participantes en dos grupos (A y B), y queremos aleatorizar una muestra de 50 pacientes.

sample(x=c("A","B"), size = 50, replace = T)
 [1] "A" "A" "A" "A" "B" "B" "B" "B" "B" "B" "A" "A" "A" "A" "A" "A" "A" "A" "B"
[20] "B" "A" "A" "A" "A" "A" "B" "A" "A" "A" "A" "B" "A" "B" "B" "A" "A" "A" "B"
[39] "A" "A" "B" "B" "A" "B" "A" "A" "B" "A" "A" "B"

Exercise 5.4 ¿Por qué la muestra de pacientes no incluyó 25 pacientes en el grupo A y 25 pacientes en el grupo B? ¿Considera que es un muestreo aleatorio?

Si los datos son aleatorios, es muy difícil que se generen grupos iguales.

Exercise 5.5 De la muestra anterior extraiga una segunda muestra que contenga un 60% del total de los casos de la muestra anterior.

sample(x=c("A","B"), size = 50*.6, replace = T)
 [1] "B" "B" "B" "A" "A" "A" "B" "B" "A" "A" "B" "B" "A" "A" "A" "A" "B" "B" "A"
[20] "B" "A" "A" "B" "A" "B" "B" "B" "B" "A" "B"
muestra <- sample(x=c("A","B"), size = 50, replace = T)
ID <- 1:50
datos <- data.frame(ID, muestra)
library(dplyr)
muestra2 <- datos |>
  sample_frac(0.60)# Extraer el 60% de lo casos
print(muestra2)
   ID muestra
1  49       B
2  25       A
3  45       B
4  14       B
5   4       B
6   1       B
7  11       A
8  43       B
9  31       B
10  2       B
11 10       A
12 24       A
13 48       B
14 44       B
15 50       B
16 29       A
17 18       B
18  5       A
19 33       A
20 13       B
21 20       A
22 12       B
23 35       B
24 37       A
25 34       A
26 40       B
27 41       A
28 22       B
29 38       B
30 30       A

Exercise 5.6 Si su interés es tener una muestra con al menos 50 individuos en cada uno de los grupos.¿Qué estrategias podría seguir?¿Su estrategia genera una muestra aleatoria?

Hay varias estrategias

Exercise 5.7 Un grupo de investigadores realiza una aleatorización de 30 pacientes con el objetivo de tener 15 individuos en el grupo A y 15 individuos en el grupo B. ¿Se puede considerar esta como una muestra aleatoria?

No

Exercise 5.8 Utilizando la base de datos Pima.tr2 obtenga una muestra de pacientes con diabetes de 20.

library(MASS)
data(Pima.tr2)
Pima.tr2$ID <- 1:300
# Filtrar pacientes con diabetes
Pima.tr2.DM <- 
  subset(Pima.tr2, Pima.tr2$type=="Yes")
sample(x=Pima.tr2.DM$ID, size = 20, replace = F)
 [1]  69 186 283 203  83 293 184  61 200 148 100 265 161  93  79 222 157 267 266
[20] 206
#Objeto con muestra:
muestraDM <- Pima.tr2.DM |>
  sample_n(size=20, replace=F)
head(muestraDM)
  npreg glu  bp skin  bmi   ped age type  ID
1     0 167  NA   NA 32.3 0.839  30  Yes 288
2     4 142  86   NA 44.0 0.645  22  Yes 242
3     6 115  60   39 33.7 0.245  40  Yes 171
4     5 112  66   NA 37.8 0.261  41  Yes 225
5     9 145  80   46 37.9 0.637  40  Yes 120
6     8 167 106   46 37.6 0.165  43  Yes  60