Muestreo (estadísticas) - Sampling (statistics)

Una representación visual del proceso de muestreo.

En estadística , garantía de calidad y metodología de encuestas , el muestreo es la selección de un subconjunto (una muestra estadística ) de individuos de una población estadística para estimar las características de toda la población. Los estadísticos intentan recolectar muestras que sean representativas de la población en cuestión. El muestreo tiene costos más bajos y una recopilación de datos más rápida que la medición de toda la población y puede proporcionar información en los casos en que no sea factible muestrear una población completa.

Cada observación mide una o más propiedades (como peso, ubicación, color) de objetos o individuos independientes. En el muestreo de encuestas , se pueden aplicar ponderaciones a los datos para ajustarlos al diseño de la muestra, particularmente en el muestreo estratificado . Los resultados de la teoría de la probabilidad y la teoría estadística se emplean para guiar la práctica. En la investigación comercial y médica, el muestreo se usa ampliamente para recopilar información sobre una población. El muestreo de aceptación se utiliza para determinar si un lote de producción de material cumple con las especificaciones vigentes .

Definición de población

La práctica estadística exitosa se basa en una definición enfocada del problema. En el muestreo, esto incluye definir la " población " de la que se extrae nuestra muestra. Una población se puede definir como la inclusión de todas las personas o elementos con la característica que se desea comprender. Debido a que rara vez hay suficiente tiempo o dinero para recopilar información de todos o de todo en una población, el objetivo es encontrar una muestra representativa (o subconjunto) de esa población.

A veces, lo que define a una población es obvio. Por ejemplo, un fabricante debe decidir si un lote de material de producción es de calidad lo suficientemente alta para ser entregado al cliente, o debe ser condenado por desecho o reprocesamiento debido a la mala calidad. En este caso, el lote es la población.

Aunque la población de interés a menudo consiste en objetos físicos, a veces es necesario muestrear en el tiempo, el espacio o alguna combinación de estas dimensiones. Por ejemplo, una investigación del personal de los supermercados podría examinar la longitud de la línea de pago en varios momentos, o un estudio sobre pingüinos en peligro de extinción podría tener como objetivo comprender su uso de varios terrenos de caza a lo largo del tiempo. Para la dimensión del tiempo, el foco puede estar en períodos u ocasiones discretas.

En otros casos, la "población" examinada puede ser incluso menos tangible. Por ejemplo, Joseph Jagger estudió el comportamiento de las ruedas de la ruleta en un casino de Montecarlo y lo utilizó para identificar una rueda sesgada. En este caso, la "población" que Jagger quería investigar era el comportamiento general de la rueda (es decir, la distribución de probabilidad de sus resultados en un número infinito de ensayos), mientras que su "muestra" se formó a partir de los resultados observados de esa rueda. Surgen consideraciones similares cuando se toman medidas repetidas de alguna característica física, como la conductividad eléctrica del cobre .

Esta situación a menudo surge cuando se busca conocimiento sobre el sistema de causas del cual la población observada es un resultado. En tales casos, la teoría del muestreo puede tratar a la población observada como una muestra de una "superpoblación" más grande. Por ejemplo, un investigador podría estudiar la tasa de éxito de un nuevo programa para "dejar de fumar" en un grupo de prueba de 100 pacientes, con el fin de predecir los efectos del programa si estuviera disponible en todo el país. Aquí la superpoblación es "todos en el país, que tienen acceso a este tratamiento", un grupo que aún no existe, ya que el programa aún no está disponible para todos.

La población de la que se extrae la muestra puede no ser la misma que la población sobre la que se desea obtener información. A menudo, existe una superposición grande pero no completa entre estos dos grupos debido a problemas de estructura, etc. (ver más abajo). A veces, pueden estar completamente separados; por ejemplo, se pueden estudiar ratas para comprender mejor la salud humana, o se pueden estudiar los registros de personas nacidas en 2008 para hacer predicciones sobre las personas nacidas en 2009.

El tiempo dedicado a precisar la población muestreada y la población de interés a menudo está bien invertido, porque plantea muchos problemas, ambigüedades y preguntas que de otro modo se habrían pasado por alto en esta etapa.

Marco de muestreo

En el caso más sencillo, como el muestreo de un lote de material de producción (muestreo de aceptación por lotes), sería más deseable identificar y medir cada artículo en la población e incluir cualquiera de ellos en nuestra muestra. Sin embargo, en el caso más general, esto no suele ser posible ni práctico. No hay forma de identificar todas las ratas en el conjunto de todas las ratas. Cuando la votación no es obligatoria, no hay forma de identificar qué personas votarán en las próximas elecciones (antes de las elecciones). Estas poblaciones imprecisas no son susceptibles de muestreo de ninguna de las formas siguientes y a las que podríamos aplicar la teoría estadística.

Como remedio, buscamos un marco de muestreo que tenga la propiedad de poder identificar cada elemento e incluir cualquiera en nuestra muestra. El tipo de marco más sencillo es una lista de elementos de la población (preferiblemente toda la población) con la información de contacto adecuada. Por ejemplo, en una encuesta de opinión , los posibles marcos muestrales incluyen un registro electoral y una guía telefónica .

Una muestra probabilística es una muestra en la que cada unidad de la población tiene una probabilidad (mayor que cero) de ser seleccionada en la muestra, y esta probabilidad se puede determinar con precisión. La combinación de estos rasgos permite producir estimaciones no sesgadas de los totales de la población, ponderando las unidades muestreadas de acuerdo con su probabilidad de selección.

Ejemplo: queremos estimar el ingreso total de los adultos que viven en una calle determinada. Visitamos cada hogar en esa calle, identificamos a todos los adultos que viven allí y seleccionamos al azar a un adulto de cada hogar. (Por ejemplo, podemos asignar a cada persona un número aleatorio, generado a partir de una distribución uniforme entre 0 y 1, y seleccionar a la persona con el número más alto en cada hogar). Luego entrevistamos a la persona seleccionada y encontramos sus ingresos.

Las personas que viven solas seguramente serán seleccionadas, por lo que simplemente agregamos sus ingresos a nuestra estimación del total. Pero una persona que vive en un hogar de dos adultos tiene solo una posibilidad de selección de uno en dos. Para reflejar esto, cuando llegamos a un hogar así, contabilizaríamos el ingreso de la persona seleccionada dos veces hacia el total. (La persona que se selecciona de ese hogar puede verse vagamente como que también representa a la persona que no se selecciona).

En el ejemplo anterior, no todo el mundo tiene la misma probabilidad de selección; lo que la convierte en una muestra probabilística es el hecho de que se conoce la probabilidad de cada persona. Cuando cada elemento de la población no tiene la misma probabilidad de selección, esto se conoce como un 'igual probabilidad de selección' diseño (EPS). Estos diseños también se denominan "autoponderados" porque a todas las unidades muestreadas se les asigna el mismo peso.

El muestreo probabilístico incluye: Muestreo aleatorio simple , muestreo sistemático , Muestreo estratificado , probabilidad proporcional al tamaño de muestreo, y el racimo o de varias etapas de muestreo . Estas diversas formas de muestreo probabilístico tienen dos cosas en común:

  1. Cada elemento tiene una probabilidad distinta de cero conocida de ser muestreado y
  2. implica una selección aleatoria en algún momento.

Muestreo no probabilístico

El muestreo no probabilístico es cualquier método de muestreo en el que algunos elementos de la población no tienen posibilidad de selección (a veces se los denomina "fuera de cobertura" / "no cubiertos"), o donde la probabilidad de selección no se puede determinar con precisión. Implica la selección de elementos con base en supuestos sobre la población de interés, que forma el criterio de selección. Por lo tanto, debido a que la selección de elementos no es aleatoria, el muestreo no probabilístico no permite la estimación de errores de muestreo. Estas condiciones dan lugar a un sesgo de exclusión , lo que limita la cantidad de información que una muestra puede proporcionar sobre la población. La información sobre la relación entre la muestra y la población es limitada, lo que dificulta la extrapolación de la muestra a la población.

Ejemplo: Visitamos todos los hogares de una calle determinada y entrevistamos a la primera persona que abre la puerta. En cualquier hogar con más de un ocupante, esta es una muestra no probabilística, porque algunas personas son más propensas a abrir la puerta (por ejemplo, una persona desempleada que pasa la mayor parte de su tiempo en casa tiene más probabilidades de responder que un compañero de casa empleado que podría serlo). en el trabajo cuando el entrevistador llama) y no es práctico calcular estas probabilidades.

Los métodos de muestreo no probabilístico incluyen el muestreo por conveniencia , el muestreo por cuotas y el muestreo intencional . Además, los efectos de falta de respuesta pueden convertir cualquier diseño de probabilidad en un diseño de no probabilidad si no se comprenden bien las características de la falta de respuesta, ya que la falta de respuesta modifica efectivamente la probabilidad de que cada elemento sea muestreado.

Métodos de muestreo

Dentro de cualquiera de los tipos de marcos identificados anteriormente, se pueden emplear una variedad de métodos de muestreo, individualmente o en combinación. Los factores que comúnmente influyen en la elección entre estos diseños incluyen:

  • Naturaleza y calidad del marco.
  • Disponibilidad de información auxiliar sobre unidades en el marco.
  • Requisitos de precisión y necesidad de medir la precisión
  • Si se espera un análisis detallado de la muestra
  • Preocupaciones de costo / operativas

Muestreo aleatorio simple

Una representación visual de la selección de una muestra aleatoria simple

En una muestra aleatoria simple (SRS) de un tamaño determinado, todos los subconjuntos de un marco de muestreo tienen la misma probabilidad de ser seleccionados. Por tanto, cada elemento del marco tiene la misma probabilidad de selección: el marco no está subdividido ni dividido. Además, cualquier par de elementos tiene las mismas posibilidades de selección que cualquier otro par (y de manera similar para los triples, etc.). Esto minimiza el sesgo y simplifica el análisis de resultados. En particular, la varianza entre los resultados individuales dentro de la muestra es un buen indicador de la varianza en la población general, lo que hace que sea relativamente fácil estimar la precisión de los resultados.

El muestreo aleatorio simple puede ser vulnerable a errores de muestreo porque la aleatoriedad de la selección puede dar como resultado una muestra que no refleja la composición de la población. Por ejemplo, una muestra aleatoria simple de diez personas de un país determinado producirá en promedio cinco hombres y cinco mujeres, pero es probable que cualquier ensayo dado represente en exceso a un sexo y no al otro. Las técnicas sistemáticas y estratificadas intentan superar este problema "utilizando información sobre la población" para elegir una muestra más "representativa".

Además, el muestreo aleatorio simple puede resultar engorroso y tedioso cuando se toman muestras de una gran población objetivo. En algunos casos, los investigadores están interesados ​​en preguntas de investigación específicas para subgrupos de la población. Por ejemplo, los investigadores podrían estar interesados ​​en examinar si la capacidad cognitiva como predictor del desempeño laboral es igualmente aplicable a todos los grupos raciales. El muestreo aleatorio simple no puede adaptarse a las necesidades de los investigadores en esta situación, porque no proporciona submuestras de la población, y en su lugar se pueden utilizar otras estrategias de muestreo, como el muestreo estratificado.

Muestreo sistemático

Una representación visual de la selección de una muestra aleatoria utilizando la técnica de muestreo sistemático.

El muestreo sistemático (también conocido como muestreo por intervalos) se basa en organizar la población de estudio de acuerdo con algún esquema de ordenamiento y luego seleccionar elementos a intervalos regulares a través de esa lista ordenada. El muestreo sistemático implica un inicio aleatorio y luego procede con la selección de cada k- ésimo elemento a partir de ese momento. En este caso, k = (tamaño de la población / tamaño de la muestra). Es importante que el punto de partida no sea automáticamente el primero de la lista, sino que se elija aleatoriamente desde el primero hasta el k- ésimo elemento de la lista. Un ejemplo simple sería seleccionar cada décimo nombre del directorio telefónico (una muestra 'cada décimo', también conocida como 'muestreo con un salto de 10').

Siempre que el punto de partida sea aleatorio , el muestreo sistemático es un tipo de muestreo probabilístico . Es fácil de implementar y la estratificación inducida puede hacerla eficiente, si la variable por la que se ordena la lista se correlaciona con la variable de interés. El muestreo "cada décimo" es especialmente útil para un muestreo eficiente de las bases de datos .

Por ejemplo, suponga que deseamos tomar muestras de personas de una calle larga que comienza en un área pobre (casa No. 1) y termina en un distrito caro (casa No. 1000). Una simple selección aleatoria de direcciones de esta calle fácilmente podría terminar con demasiadas del extremo superior y muy pocas del extremo inferior (o viceversa), lo que daría lugar a una muestra no representativa. Seleccionar (por ejemplo) cada décimo número de calle a lo largo de la calle asegura que la muestra se distribuya uniformemente a lo largo de la calle, representando todos estos distritos. (Tenga en cuenta que si siempre comenzamos en la casa n. ° 1 y terminamos en n. ° 991, la muestra está ligeramente sesgada hacia el extremo inferior; al seleccionar aleatoriamente el inicio entre la n. ° 1 y la n. ° 10, este sesgo se elimina.

Sin embargo, el muestreo sistemático es especialmente vulnerable a las periodicidades de la lista. Si la periodicidad está presente y el período es un múltiplo o factor del intervalo utilizado, es muy probable que la muestra no sea representativa de la población general, lo que hace que el esquema sea menos preciso que el muestreo aleatorio simple.

Por ejemplo, considere una calle donde las casas con números impares están todas en el lado norte (caro) de la carretera, y las casas con números pares están todas en el lado sur (barato). Bajo el esquema de muestreo dado arriba, es imposible obtener una muestra representativa; o bien las casas muestreadas serán todas del lado caro y de número impar, o todas serán del lado barato y de número par, a menos que el investigador tenga conocimiento previo de este sesgo y lo evite usando un salto que asegure el salto entre los dos lados (cualquier salto de número impar).

Otro inconveniente del muestreo sistemático es que incluso en escenarios en los que es más preciso que el SRS, sus propiedades teóricas dificultan la cuantificación de esa precisión. (En los dos ejemplos de muestreo sistemático que se dan arriba, gran parte del potencial error de muestreo se debe a la variación entre las casas vecinas, pero debido a que este método nunca selecciona dos casas vecinas, la muestra no nos dará ninguna información sobre esa variación).

Como se describió anteriormente, el muestreo sistemático es un método EPS, porque todos los elementos tienen la misma probabilidad de selección (en el ejemplo dado, uno de cada diez). No es un 'muestreo aleatorio simple' porque diferentes subconjuntos del mismo tamaño tienen diferentes probabilidades de selección; por ejemplo, el conjunto {4,14,24, ..., 994} tiene una probabilidad de selección de uno en diez, pero el conjunto {4,13,24,34, ...} tiene probabilidad de selección cero.

El muestreo sistemático también se puede adaptar a un enfoque sin EPS; para ver un ejemplo, consulte la discusión de los ejemplos de PPS a continuación.

Muestreo estratificado

Una representación visual de la selección de una muestra aleatoria mediante la técnica de muestreo estratificado.

Cuando la población abarca varias categorías distintas, el marco puede organizarse por estas categorías en "estratos" separados. Luego, cada estrato se muestrea como una subpoblación independiente, de la cual se pueden seleccionar elementos individuales al azar. La relación entre el tamaño de esta selección (o muestra) aleatoria y el tamaño de la población se denomina fracción de muestreo . Hay varios beneficios potenciales del muestreo estratificado.

Primero, dividir la población en estratos distintos e independientes puede permitir a los investigadores hacer inferencias sobre subgrupos específicos que pueden perderse en una muestra aleatoria más generalizada.

En segundo lugar, la utilización de un método de muestreo estratificado puede conducir a estimaciones estadísticas más eficientes (siempre que los estratos se seleccionen en función de la relevancia para el criterio en cuestión, en lugar de la disponibilidad de las muestras). Incluso si un enfoque de muestreo estratificado no conduce a una mayor eficiencia estadística, tal táctica no resultará en una menor eficiencia que el muestreo aleatorio simple, siempre que cada estrato sea proporcional al tamaño del grupo en la población.

En tercer lugar, a veces se da el caso de que los datos están disponibles más fácilmente para los estratos individuales preexistentes dentro de una población que para la población en general; en tales casos, el uso de un enfoque de muestreo estratificado puede ser más conveniente que la agregación de datos entre grupos (aunque esto puede estar potencialmente en desacuerdo con la importancia previamente señalada de utilizar estratos relevantes para el criterio).

Finalmente, dado que cada estrato se trata como una población independiente, se pueden aplicar diferentes enfoques de muestreo a diferentes estratos, lo que potencialmente permite a los investigadores utilizar el enfoque más adecuado (o más rentable) para cada subgrupo identificado dentro de la población.

Sin embargo, existen algunos posibles inconvenientes en el uso de muestreo estratificado. En primer lugar, la identificación de los estratos y la implementación de un enfoque de este tipo pueden aumentar el costo y la complejidad de la selección de la muestra, además de llevar a una mayor complejidad de las estimaciones de población. En segundo lugar, al examinar varios criterios, la estratificación de variables puede estar relacionada con algunos, pero no con otros, complicando aún más el diseño y reduciendo potencialmente la utilidad de los estratos. Finalmente, en algunos casos (como los diseños con un gran número de estratos, o aquellos con un tamaño de muestra mínimo específico por grupo), el muestreo estratificado puede potencialmente requerir una muestra más grande que otros métodos (aunque en la mayoría de los casos, el tamaño de muestra requerido no sería mayor de lo que se requeriría para un muestreo aleatorio simple).

Un enfoque de muestreo estratificado es más eficaz cuando se cumplen tres condiciones
  1. La variabilidad dentro de los estratos se minimiza
  2. Se maximiza la variabilidad entre estratos
  3. Las variables sobre las que se estratifica la población están fuertemente correlacionadas con la variable dependiente deseada.
Ventajas sobre otros métodos de muestreo
  1. Se centra en subpoblaciones importantes e ignora las irrelevantes.
  2. Permite el uso de diferentes técnicas de muestreo para diferentes subpoblaciones.
  3. Mejora la precisión / eficiencia de la estimación.
  4. Permite un mayor equilibrio del poder estadístico de las pruebas de diferencias entre estratos al muestrear números iguales de estratos que varían ampliamente en tamaño.
Desventajas
  1. Requiere la selección de variables de estratificación relevantes que pueden ser difíciles.
  2. No es útil cuando no hay subgrupos homogéneos.
  3. Puede ser costoso de implementar.
Posestratificación

La estratificación a veces se introduce después de la fase de muestreo en un proceso llamado "posestratificación". Este enfoque se implementa típicamente debido a la falta de conocimiento previo de una variable de estratificación apropiada o cuando el experimentador carece de la información necesaria para crear una variable de estratificación durante la fase de muestreo. Aunque el método es susceptible a las trampas de los enfoques post hoc, puede proporcionar varios beneficios en la situación adecuada. La implementación suele seguir una muestra aleatoria simple. Además de permitir la estratificación en una variable auxiliar, la posestratificación se puede utilizar para implementar la ponderación, lo que puede mejorar la precisión de las estimaciones de una muestra.

Sobremuestreo

El muestreo basado en elecciones es una de las estrategias de muestreo estratificado. En el muestreo basado en elecciones, los datos se estratifican según el objetivo y se toma una muestra de cada estrato para que la clase objetivo poco común esté más representada en la muestra. Luego, el modelo se basa en esta muestra sesgada . Los efectos de las variables de entrada en el objetivo a menudo se estiman con más precisión con la muestra basada en opciones, incluso cuando se toma un tamaño de muestra general más pequeño, en comparación con una muestra aleatoria. Por lo general, los resultados deben ajustarse para corregir el sobremuestreo.

Muestreo de probabilidad proporcional al tamaño

En algunos casos, el diseñador de la muestra tiene acceso a una "variable auxiliar" o "medida de tamaño", que se cree que está correlacionada con la variable de interés, para cada elemento de la población. Estos datos se pueden utilizar para mejorar la precisión en el diseño de muestras. Una opción es utilizar la variable auxiliar como base para la estratificación, como se discutió anteriormente.

Otra opción es el muestreo de probabilidad proporcional al tamaño ('PPS'), en el que la probabilidad de selección para cada elemento se establece para que sea proporcional a su medida de tamaño, hasta un máximo de 1. En un diseño PPS simple, estas probabilidades de selección pueden entonces utilizarse como base para el muestreo de Poisson . Sin embargo, esto tiene el inconveniente de que el tamaño de la muestra es variable, y es posible que diferentes porciones de la población aún estén sobrerrepresentadas o subrepresentadas debido a la variación aleatoria en las selecciones.

La teoría del muestreo sistemático se puede utilizar para crear una probabilidad proporcional al tamaño de la muestra. Esto se hace tratando cada recuento dentro de la variable de tamaño como una única unidad de muestreo. Luego, las muestras se identifican seleccionando a intervalos uniformes entre estos recuentos dentro de la variable de tamaño. Este método a veces se denomina muestreo secuencial o de unidad monetaria PPS en el caso de auditorías o muestreo forense.

Ejemplo: Suponga que tenemos seis escuelas con poblaciones de 150, 180, 200, 220, 260 y 490 estudiantes respectivamente (un total de 1500 estudiantes), y queremos usar la población de estudiantes como base para una muestra de PPS de tamaño tres. Para hacer esto, podríamos asignar los números de la primera escuela 1 a 150, la segunda escuela 151 a 330 (= 150 + 180), la tercera escuela 331 a 530, y así sucesivamente a la última escuela (1011 a 1500). Luego, generamos un comienzo aleatorio entre 1 y 500 (igual a 1500/3) y contamos las poblaciones escolares en múltiplos de 500. Si nuestro comienzo aleatorio fuera 137, seleccionaríamos las escuelas a las que se les han asignado los números 137, 637 y 1137, es decir, la primera, cuarta y sexta escuelas.

El enfoque PPS puede mejorar la precisión para un tamaño de muestra dado al concentrar la muestra en elementos grandes que tienen el mayor impacto en las estimaciones de población. El muestreo PPS se usa comúnmente para encuestas de negocios, donde el tamaño de los elementos varía mucho y la información auxiliar a menudo está disponible; por ejemplo, una encuesta que intente medir el número de noches de huéspedes en hoteles podría usar el número de habitaciones de cada hotel como una variable auxiliar. . En algunos casos, se puede utilizar una medición más antigua de la variable de interés como variable auxiliar cuando se intenta producir estimaciones más actuales.

Muestreo por conglomerados

Una representación visual de la selección de una muestra aleatoria mediante la técnica de muestreo por conglomerados.

A veces es más rentable seleccionar a los encuestados en grupos ('agrupaciones'). El muestreo a menudo se agrupa por geografía o períodos de tiempo. (Casi todas las muestras están en cierto sentido 'agrupadas' en el tiempo, aunque esto rara vez se tiene en cuenta en el análisis). Por ejemplo, si encuestamos hogares dentro de una ciudad, podríamos elegir seleccionar 100 manzanas de la ciudad y luego entrevistar a cada hogar dentro de una ciudad. los bloques seleccionados.

La agrupación en clústeres puede reducir los costos administrativos y de viaje. En el ejemplo anterior, un entrevistador puede hacer un solo viaje para visitar varios hogares en un bloque, en lugar de tener que conducir a un bloque diferente para cada hogar.

También significa que no se necesita un marco de muestreo que enumere todos los elementos de la población objetivo. En su lugar, los grupos se pueden elegir de un marco a nivel de grupo, con un marco a nivel de elemento creado solo para los grupos seleccionados. En el ejemplo anterior, la muestra solo requiere un mapa de la ciudad a nivel de bloque para las selecciones iniciales, y luego un mapa a nivel de hogar de los 100 bloques seleccionados, en lugar de un mapa a nivel de hogar de toda la ciudad.

El muestreo por conglomerados (también conocido como muestreo por conglomerados) generalmente aumenta la variabilidad de las estimaciones de la muestra por encima de la del muestreo aleatorio simple, dependiendo de cómo los conglomerados difieren entre sí en comparación con la variación dentro del conglomerado. Por esta razón, el muestreo por conglomerados requiere una muestra más grande que el SRS para lograr el mismo nivel de precisión, pero los ahorros de costos de la agrupación podrían hacer que esta sea una opción más barata.

El muestreo por conglomerados se implementa comúnmente como muestreo de múltiples etapas . Ésta es una forma compleja de muestreo por conglomerados en la que dos o más niveles de unidades están integrados uno en el otro. La primera etapa consiste en construir los clusters que se utilizarán para muestrear. En la segunda etapa, se selecciona aleatoriamente una muestra de unidades primarias de cada grupo (en lugar de utilizar todas las unidades contenidas en todos los grupos seleccionados). En las siguientes etapas, en cada uno de esos grupos seleccionados, se seleccionan muestras adicionales de unidades, y así sucesivamente. A continuación, se encuesta a todas las unidades finales (individuos, por ejemplo) seleccionadas en el último paso de este procedimiento. Esta técnica, por tanto, es esencialmente el proceso de tomar submuestras aleatorias de muestras aleatorias precedentes.

El muestreo de varias etapas puede reducir sustancialmente los costos de muestreo, cuando sería necesario elaborar la lista completa de la población (antes de que se pudieran aplicar otros métodos de muestreo). Al eliminar el trabajo involucrado en la descripción de conglomerados que no se seleccionan, el muestreo de varias etapas puede reducir los grandes costos asociados con el muestreo de conglomerados tradicional. Sin embargo, es posible que cada muestra no sea completamente representativa de toda la población.

Muestreo por cuotas

En el muestreo por cuotas , la población se segmenta primero en subgrupos mutuamente excluyentes , al igual que en el muestreo estratificado . Luego, se utiliza el juicio para seleccionar los sujetos o unidades de cada segmento en función de una proporción específica. Por ejemplo, se le puede pedir a un entrevistador que muestree a 200 mujeres y 300 hombres entre las edades de 45 y 60.

Es este segundo paso el que convierte a la técnica en una técnica de muestreo no probabilístico. En el muestreo por cuotas, la selección de la muestra no es aleatoria . Por ejemplo, los entrevistadores pueden tener la tentación de entrevistar a aquellos que parecen más útiles. El problema es que estas muestras pueden estar sesgadas porque no todos tienen la oportunidad de ser seleccionados. Este elemento aleatorio es su mayor debilidad y la cuota frente a la probabilidad ha sido motivo de controversia durante varios años.

Muestreo Minimax

En conjuntos de datos desequilibrados, donde la proporción de muestreo no sigue las estadísticas de población, se puede volver a muestrear el conjunto de datos de una manera conservadora llamada muestreo minimax . El muestreo minimax tiene su origen en la relación minimax de Anderson cuyo valor se demuestra que es 0,5: en una clasificación binaria, los tamaños de muestra de clase deben elegirse por igual. Se puede demostrar que esta relación es una relación minimax solo bajo el supuesto de un clasificador LDA con distribuciones gaussianas. La noción de muestreo minimax se desarrolló recientemente para una clase general de reglas de clasificación, denominadas clasificadores inteligentes por clase. En este caso, la razón de muestreo de las clases se selecciona de modo que el peor error del clasificador del caso sobre todas las posibles estadísticas de población para las probabilidades previas de la clase sea el mejor.

Muestreo accidental

El muestreo accidental (a veces conocido como muestreo aleatorio , de conveniencia u oportunidad ) es un tipo de muestreo no probabilístico que implica que la muestra se extrae de la parte de la población que está cerca. Es decir, se selecciona una población porque está fácilmente disponible y es conveniente. Puede ser a través del encuentro con la persona o incluir a una persona en la muestra cuando uno se encuentra con ella o se elige encontrándola a través de medios tecnológicos como internet o por teléfono. El investigador que utiliza una muestra de este tipo no puede hacer generalizaciones científicas sobre la población total de esta muestra porque no sería lo suficientemente representativa. Por ejemplo, si el entrevistador realizara una encuesta de este tipo en un centro comercial temprano en la mañana de un día determinado, las personas a las que podría entrevistar se limitarían a las que se dan allí en ese momento dado, lo que no representaría el problema. opiniones de otros miembros de la sociedad en dicha zona, si la encuesta se realizara en diferentes momentos del día y varias veces a la semana. Este tipo de muestreo es más útil para pruebas piloto. Varias consideraciones importantes para los investigadores que utilizan muestras de conveniencia incluyen:

  1. ¿Existen controles dentro del diseño de la investigación o del experimento que puedan servir para disminuir el impacto de una muestra de conveniencia no aleatoria, asegurando así que los resultados serán más representativos de la población?
  2. ¿Existe una buena razón para creer que una muestra de conveniencia en particular respondería o debería comportarse de manera diferente a una muestra aleatoria de la misma población?
  3. ¿Es la pregunta formulada por la investigación que puede responderse adecuadamente utilizando una muestra de conveniencia?

En la investigación de las ciencias sociales, el muestreo de bola de nieve es una técnica similar, en la que los sujetos de estudio existentes se utilizan para reclutar más sujetos en la muestra. Algunas variantes del muestreo de bola de nieve, como el muestreo impulsado por los encuestados, permiten el cálculo de las probabilidades de selección y son métodos de muestreo probabilístico en determinadas condiciones.

Muestreo voluntario

El método de muestreo voluntario es un tipo de muestreo no probabilístico. Los voluntarios eligen completar una encuesta.

Los voluntarios pueden ser invitados a través de anuncios en las redes sociales. La población objetivo de los anuncios se puede seleccionar por características como ubicación, edad, sexo, ingresos, ocupación, educación o intereses utilizando herramientas proporcionadas por el medio social. El anuncio puede incluir un mensaje sobre la investigación y un enlace a una encuesta. Después de seguir el enlace y completar la encuesta, el voluntario envía los datos para ser incluidos en la población de muestra. Este método puede llegar a una población mundial, pero está limitado por el presupuesto de la campaña. También pueden incluirse en la muestra voluntarios fuera de la población invitada.

Es difícil hacer generalizaciones a partir de esta muestra porque puede que no represente a la población total. A menudo, los voluntarios tienen un gran interés en el tema principal de la encuesta.

Muestreo de intersección de línea

El muestreo de intersección de línea es un método de muestreo de elementos en una región mediante el cual se muestrea un elemento si un segmento de línea elegido, llamado "transecto", interseca al elemento.

Muestreo de panel

El muestreo de panel es el método de seleccionar primero un grupo de participantes a través de un método de muestreo aleatorio y luego pedirle a ese grupo (potencialmente la misma) información varias veces durante un período de tiempo. Por lo tanto, cada participante es entrevistado en dos o más momentos; cada período de recopilación de datos se denomina "ola". El método fue desarrollado por el sociólogo Paul Lazarsfeld en 1938 como un medio para estudiar las campañas políticas . Este método de muestreo longitudinal permite estimar los cambios en la población, por ejemplo, con respecto a enfermedades crónicas, estrés laboral y gastos semanales en alimentos. El muestreo de panel también se puede utilizar para informar a los investigadores sobre los cambios de salud dentro de la persona debido a la edad o para ayudar a explicar los cambios en las variables dependientes continuas, como la interacción conyugal. Se han propuesto varios métodos para analizar datos de panel , incluidos MANOVA , curvas de crecimiento y modelos de ecuaciones estructurales con efectos rezagados.

Muestreo de bolas de nieve

El muestreo de bola de nieve implica encontrar un pequeño grupo de encuestados iniciales y usarlos para reclutar más encuestados. Es particularmente útil en los casos en que la población está oculta o es difícil de enumerar.

Muestreo teórico

El muestreo teórico ocurre cuando las muestras se seleccionan sobre la base de los resultados de los datos recopilados hasta el momento con el objetivo de desarrollar una comprensión más profunda del área o desarrollar teorías. Se pueden seleccionar casos extremos o muy específicos para maximizar la probabilidad de que un fenómeno sea realmente observable.

Reemplazo de unidades seleccionadas

Los esquemas de muestreo pueden ser sin reemplazo ('WOR' - ningún elemento puede seleccionarse más de una vez en la misma muestra) o con reemplazo ('WR' - un elemento puede aparecer varias veces en una muestra). Por ejemplo, si capturamos peces, los medimos y los devolvemos inmediatamente al agua antes de continuar con la muestra, este es un diseño WR, porque podríamos terminar capturando y midiendo el mismo pez más de una vez. Sin embargo, si no devolvemos el pez al agua o etiquetamos y soltamos cada pez después de atraparlo, esto se convierte en un diseño WOR.

Determinación del tamaño de la muestra

Las fórmulas, tablas y gráficos de funciones de potencia son enfoques bien conocidos para determinar el tamaño de la muestra.

Pasos para usar tablas de tamaño de muestra

  1. Postule el tamaño del efecto de interés, α y β.
  2. Consulte la tabla de tamaños de muestra
    1. Seleccione la tabla correspondiente al α seleccionado
    2. Localice la fila correspondiente a la potencia deseada
    3. Busque la columna correspondiente al tamaño del efecto estimado.
    4. La intersección de la columna y la fila es el tamaño mínimo de muestra requerido.

Toma de muestras y recopilación de datos

Una buena recopilación de datos implica:

  • Siguiendo el proceso de muestreo definido
  • Mantener los datos en orden de tiempo
  • Anotar comentarios y otros eventos contextuales
  • Grabación de no respuestas

Aplicaciones del muestreo

El muestreo permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, se producen alrededor de 600 millones de tweets todos los días. No es necesario mirar todos ellos para determinar los temas que se discuten durante el día, ni es necesario mirar todos los tweets para determinar el sentimiento sobre cada uno de los temas. Se ha desarrollado una formulación teórica para muestrear datos de Twitter.

En la fabricación, los diferentes tipos de datos sensoriales, como la acústica, la vibración, la presión, la corriente, el voltaje y los datos del controlador, están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario observar todos los datos, pero una muestra puede ser suficiente.

Errores en encuestas por muestreo

Los resultados de la encuesta suelen estar sujetos a algún error. Los errores totales pueden clasificarse en errores de muestreo y errores ajenos al muestreo. El término "error" incluye aquí tanto los sesgos sistemáticos como los errores aleatorios.

Errores y sesgos de muestreo

El diseño muestral induce errores y sesgos de muestreo. Incluyen:

  1. Sesgo de selección : cuando las verdaderas probabilidades de selección difieren de las asumidas al calcular los resultados.
  2. Error de muestreo aleatorio : variación aleatoria en los resultados debido a que los elementos de la muestra se seleccionan al azar.

Error de no muestreo

Los errores ajenos al muestreo son otros errores que pueden afectar las estimaciones finales de la encuesta, provocados por problemas en la recopilación, el procesamiento o el diseño de la muestra de datos. Dichos errores pueden incluir:

  1. Cobertura excesiva: inclusión de datos ajenos a la población
  2. Subcobertura : el marco muestral no incluye elementos de la población.
  3. Error de medición : por ejemplo, cuando los encuestados malinterpretan una pregunta o les resulta difícil responder
  4. Error de procesamiento : errores en la codificación de datos
  5. Sesgo de no respuesta o participación : falta de obtención de datos completos de todas las personas seleccionadas

Después del muestreo, se debe realizar una revisión del proceso exacto seguido en el muestreo, en lugar del previsto, para estudiar los efectos que las divergencias pudieran tener en el análisis posterior.

Un problema particular implica la falta de respuesta . Existen dos tipos principales de falta de respuesta:

  • falta de respuesta de la unidad (falta de finalización de alguna parte de la encuesta)
  • no respuesta al ítem (envío o participación en la encuesta pero no completar uno o más componentes / preguntas de la encuesta)

En el muestreo de la encuesta , muchas de las personas identificadas como parte de la muestra pueden no estar dispuestas a participar, no tener tiempo para participar (costo de oportunidad) o los administradores de la encuesta pueden no haber podido comunicarse con ellos. En este caso, existe el riesgo de diferencias entre los encuestados y los no encuestados, lo que lleva a estimaciones sesgadas de los parámetros de la población. Esto a menudo se aborda mejorando el diseño de la encuesta, ofreciendo incentivos y realizando estudios de seguimiento que hacen un intento repetido de contactar a los que no responden y caracterizar sus similitudes y diferencias con el resto del marco. Los efectos también pueden mitigarse ponderando los datos (cuando se dispone de referencias de población) o imputando datos basados ​​en las respuestas a otras preguntas. La falta de respuesta es un problema particular en el muestreo de Internet. Las razones de este problema pueden incluir encuestas diseñadas incorrectamente, encuestas en exceso (o fatiga de la encuesta) y el hecho de que los participantes potenciales pueden tener varias direcciones de correo electrónico, que ya no usan o no revisan con regularidad.

Pesos de la encuesta

En muchas situaciones, la fracción de la muestra puede variar por estrato y los datos deberán ponderarse para representar correctamente la población. Así, por ejemplo, una muestra aleatoria simple de individuos en el Reino Unido podría no incluir a algunos de las islas escocesas remotas cuya muestra sería excesivamente costosa. Un método más económico sería utilizar una muestra estratificada con estratos urbanos y rurales. La muestra rural podría estar subrepresentada en la muestra, pero ponderada adecuadamente en el análisis para compensar.

De manera más general, los datos deberían ponderarse normalmente si el diseño de la muestra no da a cada individuo la misma posibilidad de ser seleccionado. Por ejemplo, cuando los hogares tienen las mismas probabilidades de selección pero se entrevista a una persona dentro de cada hogar, esto les da a las personas de hogares grandes una menor probabilidad de ser entrevistadas. Esto se puede explicar mediante ponderaciones de encuestas. De manera similar, los hogares con más de una línea telefónica tienen una mayor probabilidad de ser seleccionados en una muestra de marcación de dígitos aleatorios, y las ponderaciones pueden ajustarse para esto.

Los pesos también pueden servir para otros propósitos, como ayudar a corregir la falta de respuesta.

Métodos de producción de muestras aleatorias.

Historia

El muestreo aleatorio por lotes es una idea antigua, mencionada varias veces en la Biblia. En 1786, Pierre Simon Laplace estimó la población de Francia utilizando una muestra, junto con un estimador de razón . También calculó estimaciones probabilísticas del error. Estos no se expresaron como intervalos de confianza modernos , sino como el tamaño de la muestra que se necesitaría para lograr un límite superior particular en el error de muestreo con probabilidad 1000/1001. Sus estimaciones utilizaron el teorema de Bayes con una probabilidad previa uniforme y asumieron que su muestra era aleatoria. Alexander Ivanovich Chuprov introdujo las encuestas por muestreo en la Rusia imperial en la década de 1870.

En los EE. UU., La predicción de 1936 Literary Digest de una victoria republicana en las elecciones presidenciales salió muy mal, debido a un severo sesgo [1] . Más de dos millones de personas respondieron al estudio con sus nombres obtenidos a través de listas de suscripción a revistas y directorios telefónicos. No se apreció que estas listas tuvieran un fuerte sesgo hacia los republicanos y la muestra resultante, aunque muy grande, tenía muchos defectos.

Ver también

Notas

El libro de texto de Groves et alia proporciona una descripción general de la metodología de la encuesta, incluida la literatura reciente sobre el desarrollo de cuestionarios (informada por la psicología cognitiva ):

  • Robert Groves y otros. Metodología de la encuesta (2010 2ª ed. [2004]) ISBN  0-471-48348-6 .

Los otros libros se centran en la teoría estadística del muestreo de encuestas y requieren algunos conocimientos de estadística básica, como se analiza en los siguientes libros de texto:

El libro de primaria de Scheaffer et alia usa ecuaciones cuadráticas del álgebra de la escuela secundaria:

  • Scheaffer, Richard L., William Mendenhal y R. Lyman Ott. Muestreo de encuestas elementales , Quinta Edición. Belmont: Duxbury Press, 1996.

Se requieren más estadísticas matemáticas para Lohr, para Särndal et alia y para Cochran (clásico):

Los libros de importancia histórica de Deming y Kish siguen siendo valiosos para los científicos sociales (en particular sobre el censo de EE. UU. Y el Instituto de Investigación Social de la Universidad de Michigan ):

Referencias

Otras lecturas

Estándares

YO ASI

  • Serie ISO 2859
  • Serie ISO 3951

ASTM

  • Práctica estándar ASTM E105 para muestreo probabilístico de materiales
  • ASTM E122 Práctica estándar para calcular el tamaño de la muestra para estimar, con un error tolerable especificado, el promedio para la característica de un lote o proceso
  • ASTM E141 Práctica estándar para la aceptación de evidencia basada en los resultados del muestreo de probabilidad
  • Terminología estándar ASTM E1402 relacionada con el muestreo
  • Práctica estándar ASTM E1994 para el uso de planes de muestreo AOQL y LTPD orientados a procesos
  • ASTM E2234 Práctica estándar para muestrear un flujo de producto por atributos indexados por AQL

ANSI, ASQ

  • ANSI / ASQ Z1.4

Estándares federales y militares de EE. UU.

enlaces externos