TEMA 3 MUESTREO

1- INTRODUCCIÓN

A quien carece de conocimientos estadísticos les resulta difícil comprender como se puede proyectar a toda una población la información recogida en un grupo relativamente reducido de la misma.

Sin embargo, una buena parte de los juicios y actitudes de la gente dependen de la práctica consciente o inconsciente del muestreo.

Así son ejemplos de inferencia por muestreo tanto el médico que basa su diagnóstico en el análisis de unas pocas gotas de sangre del paciente, como la persona que después del examen de los precios de unos cuantos artículos en un tienda la recomienda a sus amistades por creer que es barata.

Por lo tanto en la práctica el muestreo, como procedimiento intuitivo, es anterior a la propia Estadística, pero ésta reemplaza la intuición por la inducción (método lógico que permite concluir características del todo a través del estudio de lo particular).

La finalidad del muestreo es inferir a partir de los resultados obtenidos con una muestra, características o propiedades de la población entera.

El problema con el que nos encontraremos es que las muestras no siempre son representativas y perfectas.

 

 

2- UTILIDAD DEL MUESTREO: CRITERIO PRÁCTICO

Si bien un censo completo de la población es lo más aconsejable en algunas situaciones, por ejemplo cuando la población es muy pequeña o el coste del error resulta excesivo, el muestreo tiene varias ventajas:

a- el muestreo es mucho menos caro, aunque si está bien hecho aporta resultados que tienen la misma precisión que el censo.

b- en muchos casos el tiempo requerido para efectuar un censo completo será tan elevado que invalidará cualquier conclusión, por lo que la rapidez de la muestra es también una ventaja importante.

c- el muestreo es, en muchos casos, el único medio de obtener información.

Esto ocurre tanto en el caso de poblaciones infinitas o cuando el estudio implica la destrucción del objeto investigado (test de duración, de resistencia o consumo).

d- otra ventaja parte de la relación exactitud-coste .

Siendo la realización de un censo mucho más caro, muchas veces es preferible invertir los fondos en la obtención de una muestra más pequeña y representativa.

A estos efectos deberíamos introducir los conceptos de error en el análisis estadístico, distinguiendo entre:

-error muestral : el que aparece debido al hecho de que estudiamos una muestra y no un censo .

-error no muestral : estimación inexacta en los parámetros poblaciones, que puede presentarse aunque no hayamos utilizado muestras en nuestro estudio.

Pueden ser debidos, entre otras causas, a:

-preguntas mal redactadas

-encuestadores inexpertos

-falta de respuesta al cuestionario

-errores de tabulación y cálculo, o manipulación de datos, etc.

Así es posible, en relación a los errores, concluir lo siguiente:

-en el censo no existe error muestral

-en las muestras pueden existir tanto errores muestrales como no muestrales.

-cuanto mayor sea la muestra menor será el error muestral.

-el error total (suma de errores muestrales y no muestrales) suele ser mayor en el censo que utilizando muestras, siempre que ésta cumpla con determinados criterios de representatividad).

Mejorando la selección y capacitación del personal encuestador, incentivando a los encuestados para disminuir la falta de respuesta, seleccionando cuidadosamente la muestra, podríamos, incluso, obtener una muestra que resulte más "exacta" que un censo y sin duda más conveniente.

 

3-UTILIDAD DEL MUESTREO : CRITERIO TÉCNICO

No toda muestra es válida, las hay más o menos representativas de la población de la que son un subconjunto.

La bondad de la muestra, y consiguientemente del proceso de muestreo usado en su determinación se miden estadísticamente mediante lo que se ha dado en llamar criterio de tolerancia y de confianza de la muestra.

criterio de tolerancia : máximo error, en defecto o en exceso, que consideramos aceptable en la medición de la característica investigada en una muestra, en comparación con el resultado que hubiéramos obtenido si dicha característica hubiera sido medida en toda la población de la que forma parte la muestra.

O lo que es lo mismo: el máximo error aceptable en el estadístico con respecto al parámetro.

criterio de confianza : el grado de certidumbre de que los estadísticos calculados con la muestra escogida en nuestro caso particular serían los mismos que los obtenidos con otra posible muestra del mismo tamaño.

Queda claro que, en principio y a igualdad de proceso de muestreo utilizado, tolerancia y confianza serán mejores cuanto mayor sea el tamaño de la muestra.

Las técnicas estadísticas nos proporcionan métodos para saber el tamaño de la muestra que necesitamos para conseguir determinados grados de confianza y tolerancia, o lo que es lo mismo el grado de tolerancia y confianza de determinada muestra partiendo de su tamaño.

Estos dos conceptos se aclararán mejor por medio del siguiente ejemplo:

Supongamos que el objeto de nuestro estudio es determinar la edad promedio de los trabajadores de cierto sector industrial, para lo cual queremos utilizar una muestra cuyo error muestral (tolerancia) no exceda del 5% y con nivel de confianza del 95%.

Lo anterior supone una muestra de tamaño tal que :

-la edad promedio que se obtenga de la muestra no debe discrepar en más de un 5% a la edad promedio que obtendríamos si averiguáramos y computáramos la edad de cada uno de los elementos de la población.

-la edad promedio obtenida de la muestra en cuestión, con el margen de error tolerado, fuera la misma que obtendríamos del estudio de, cuando menos, el 95% de todas las posibles muestras, iguales en tamaño a la nuestra, que podríamos obtener de la población de referencia.

 

4-EL PROCEDIMIENTO MUESTRAL

Suponiendo que se haya optado por tomar una muestra en lugar de hacer un censo completo de la población, podemos proceder a examinar los pasos que intervienen en el proceso de muestreo.

Sintéticamente sería estos:

a -determinar población y variable o atributo a estudio

b -escoger el marco apropiado de muestreo

c -escoger entre muestreo probabilístico y no probabilístico

d -escoger un método de muestreo

e -escoger el tamaño de muestra necesario

f -seleccionar la muestra y reunir la información

g -analizar los datos y presentar los resultados

a -determinar población y variable o atributo a estudio

La población debe definirse siempre atendiendo a que sea fácilmente distinguida por los investigadores de campo encargado de la obtención de las muestras. Debe estar perfectamente definida.

Así si establecemos como población los enfermos del área metropolitana de Barcelona, deberá quedar claro si nos referimos a enfermos crónicos o no, hospitalizados o no etc.

También es necesario definir la variable o atributo de la población que tratamos de medir. Esta definición ha de ser lo más detallada posible. Ciertas variables son relativamente sencillas (propiedad, en su caso y en qué número de televisores en color); otras requieren definiciones más precisas (marca preferida de cerveza -la que más le gusta o la que consume habitualmente).

b -escoger el marco apropiado de muestreo

Se entiende por ello disponer de la población marco sobre la que se va efectuar el muestreo; por desgracia casi nunca contamos con una población marco ideal o lista completa de todos los elementos de la población.

El listín de teléfonos es un marco de referencia de uso común, aunque en él no figuran todas las familias de determinado municipio.

c -escoger entre muestreo probabilístico y no probabilístico

Baste decir, por el momento, a la espera de definirlos y desarrollar ambos métodos más adelante, que el primero permite el cálculo del error muestral, no así el segundo.

d -escoger un método de muestreo

En esta fase del proceso deberemos decidir de que manera seleccionaremos a los integrantes de la muestra, es decir, exactamente que procedimiento probabilístico o no probabilístico utilizaremos.

e -escoger el tamaño de muestra necesario

Relacionado con el grado de confianza y de tolerancia ya estudiados.

f -seleccionar la muestra y reunir la información

En esta etapa, siguiendo las reglas de acción establecidas previamente, individualizaremos los elementos que integrarán la muestra y obtendremos los datos objeto de estudio, por medio de entrevistas, cuestionarios por correo u otros sistemas que se estudiarán en preguntas posteriores.

g -analizar los datos y presentar los resultados

Última fase, consistente en la tabulación de los datos, confección de las distribuciones de frecuencias, cálculo de los estadísticos, representaciones gráficas y obtención de las conclusiones que se desprendan de los mismos.

5- TIPOS DE MUESTREOS: MUESTREO PROBABILÍSTICO Y MUESTREO NO PROBABILÍSTICO

Las muestras probilísticas exigen métodos de selección en que los elementos de la muestra se escojan aplicando un proceso aleatorio. La característica más notable de este tipo de muestras consiste en que cada miembro de la población tiene alguna probabilidad conocida (no tiene porqué ser igual para todos ellos) de ser incluido en la muestra.

No se debe confundir aleatoriedad con azar o falta de criterio, muy al contrario los métodos probabilísticos son muy rigurosos en el cumplimiento de las reglas de selección que no admiten ni la subjetividad ni la arbitrariedad de juicio por parte del entrevistador.

Las muestras no probabilísticas no brindan la oportunidad de determinar la posibilidad de que determinado elemento de la población hubiera podido ser incluido en la muestra. Por ello no podemos estar seguros de que la muestra sea representativa de la población.

En este tipo de muestreos interviene, como se verá, la discreccionalidad del entrevistador y, por tanto, depende de su suerte y buen hacer.

Resumiendo, las ventajas del proceso probabilístico son :

-se conoce la probabilidad de cada elemento de la población de pertenecer a la muestra.

-es posible estimar el grado de error muestral.

-poder determinar matemáticamente el tamaño de la muestra para un grado de confianza y tolerancia dados.

Sus desventajas son el mayor tiempo empleado, su mayor costo y mayor complejidad que los métodos no probabilísticos.

Asimismo estos últimos permiten, con cierto presupuesto y plazo, conseguir una muestra de mayor tamaño del que sería posible con las técnicas probabilísticas, con lo que, a lo mejor, obtendríamos una muestra no probabilística más representativa que la más pequeña que habríamos podido obtener utilizando métodos probabilísticos.

Los métodos de muestreo no son exclusivos, de tal forma que es posible usarlos de forma conjunta, empleando a la vez dos o más en función de la especificidad de la población y de la característica a estudio.

 

6-MUESTREO NO PROBABILÍSTICO

6-1 MUESTRA BASADA EN LA COMODIDAD DEL INVESTIGADOR

En este tipo de muestras los elementos se seleccionan atendiendo fundamentalmente a la comodidad del investigador; "Porque se cuenta con ellas" es la expresión que mejor las caracteriza.

Son por ejemplo las encuestas realizadas por reporteros de T.V. en determinada calle, preguntando a los individuos que pasean por allí, o las encuestas realizadas por determinados programas de televisión o radio a partir de las llamadas efectuadas por los oyentes.

En este tipo de muestreo los resultados obtenidos, por grande que sea la muestra no serán representativos de la población, ya que parten de métodos de muestreo viciados de origen, los estadísticos obtenidos son sesgados, no tienen porque ser ni remotamente parecidos a los parámetros poblacionales.

 

6-2 MUESTRA SELECCIONADA CON FINES ESPECIALES

En estas muestras se escogen los elementos que la forman siempre que cumplan con unos criterios previamente establecidos que se consideran importantes.

Pueden ser interesantes aunque se sepa de antemano que la muestra no es representativa de la población; además en estos casos la muestra suele estar también basada en la comodidad del entrevistador.

Ejemplo de este tipo de muestra sería el caso de un fabricante de calculadoras que las somete, antes de terminar un nuevo proyecto, a la opinión de un grupo de expertos (p.e. ingenieros) para conocer sus reacciones.

 

6-3 MUESTRA POR CUOTAS

Sistema muy usado que trata de garantizar de forma sistemática que la muestra se parezca a la población.

Para ello se divide la población en categorías y posteriormente se escogen los elementos de la muestra de cada una de las categorías establecidas, en función de cuotas, de tal forma que la composición de la muestra sea proporcionalmente semejante a cada una de las categorías de la población.

La categorización usada puede ser unidimensional (por ejemplo, por edades), bidimensional (por sexo y edades), tridimensional (sexo, edad y estado civil), etc. .

El problema de este tipo de muestreo es que si se definen mal las categorías y el porcentaje que cada una de ellas representa sobre el total de la población, la muestra obtenido no será representativa aunque lo sea con respecto a las categorías definidas.

 

6-4 MUESTRA DE JUICIO

Las muestras de juicio son aquellas cuyos elementos vienen determinados por el juicio del entrevistador.

Es él quien escoge los elementos, en función de lo que él cree como muestra significativa.

De tal manera que la muestra representará o no a la población dependiendo directamente de la opinión y el trabajo realizado por el investigador.

Este tipo de muestreo puede provocar errores muy sonados como la encuesta de intención de voto en las elecciones presidenciales americanas de 1936.

 

7-MUESTREO PROBABILÍSTICO

 

7-1 MUESTREO ALEATORIO SIMPLE

Es el sistema más conocido y usado de obtener una muestra probabilística. En él cada elemento de la población tiene igual probabilidad de formar parte de la muestra.

Teóricamente es muy sencillo: equivale a convertir cada miembro de la población en un número y escoger, aleatoriamente , tantos cuantos queremos formen el tamaño de la muestra.

El concepto "aleatorio" equivale a "azar", pero no significa "de cualquier modo", en realidad, significa cualquier cosa menos de cualquier modo; tampoco quiere decir seleccionados según los caprichos y manías del investigador.

Supone la existencia de un plan previo de selección cuidadosamente elaborado, que se haya preparado para garantizar que todos los elementos de la población tienen la misma probabilidad de aparecer en la muestra.

El instrumento que se usa para determinar los números escogidos para formar parte de la muestra es la tabla de números aleatorios.

El muestreo aleatorio simple es especialmente útil en caso de poblaciones pequeñas, de la que se disponga de listas adecuadas (sean conocidos y tabulados sus miembros) y cuando la dispersión geográfica de los elementos muestrales no constituya un problema; por ejemplo no sería útil para hacer sondeos electorales.

En el caso particular de las poblaciones teóricamente infinitas -como los procesos de producción- , la propia producción constituye un proceso aleatorio y cualquier muestra (un lote cualquiera de la producción) es de por sí una muestra aleatoria.

Ejemplo de tabla de números aleatorios

 

7-2 MUESTREO SISTEMÁTICO

Muy parecido al anterior, aunque de más fácil aplicación, consiste en seleccionar, de los elementos ordenados de la población un punto de partida aleatorio, escogiendo después cada k-ésimo elemento de la lista.

Por ejemplo si tenemos una lista de 5.000 nombres y queremos escoger una muestra aleatoria de 100 personas , K se determina como: K = 5.000/100 = 50.

A continuación se selecciona un número aleatorio entre 1 y 50, y a continuación a cada uno que haga 50 más.

 

7-3 MUESTREO ESTRATIFICADO

Este sistema parte de la determinación de una serie de estratos en la población (mismo concepto que el visto en el muestreo por cuotas), de tal forma que crearemos una serie de subpoblaciones diferentes entre sí y compuestas individualmente por elementos con características comunes.

-homogeneidad dentro de los estratos.

-heterogeneidad entre estratos.

La diferencia con el muestreo por cuotas es que dentro de cada estrato los elementos que componen la muestra se determinan mediante un muestreo aleatorio simple, sistemático u otra técnica de muestreo probabilístico.

Las bases para crear los estratos pueden, como en el muestreo por cuotas, ser unidireccionales, bidireccionales, etc.

El número de estratos se definirá en función de la conveniencia del estudio a realizar.

¿Cuántos elementos formarán parte de la muestra en representación de cada estrato?.

En principio debería ser proporcional al estrato; así si hemos creado un estrato definido como personas casadas, que representa el 20% de la población, el 20% de los elementos de la muestra deberían ser casados.

En ocasiones es más interesante la estratificación no proporcional cuando determinado estrato es muy uniforme y otros muy variables. Los estratos uniformes no deberían ser muestrados tan exhaustivamente como los variables.

 

7-4 MUESTREO POR CONGLOMERADOS

Este tipo de muestreo supone un método de trabajo opuesto al estratificado.

Con lo que las subpoblaciones serán similares entre sí (homogéneas) y dentro de ellas serán una representación en pequeño de la población (por lo que en su interior serán heterogéneas).

Por ejemplo, si deseamos realizar un estudio estadístico entre los empleados de una gran empresa usando el muestreo por conglomerados, el primer paso sería enumerar los diversos departamentos en el seno de la empresa y posteriormente seleccionaríamos aleatoriamente varios departamentos y dentro de cada uno de los seleccionados y también aleatoriamente determinados trabajadores; o realizar un censo en cada uno de los departamentos elegidos.

El muestreo por conglomerados produce muestras no tan eficientes como el aleatorio simple, aunque tiene menor costo; con lo que por un coste dado permite generar muestras más amplias que aquel.

 

7-5 MUESTREO POR ÁREAS

Es una forma de muestreo por conglomerados en el que las áreas geográficas sirven de base para determinar los estratos de la población.

Uno de los problemas del muestreo por áreas es que las personas que son similares respecto a las características demográficas como ingresos o escolaridad tienden a vivir en el mismo barrio, lo cual merma la eficacia estadística del método en comparación con una muestra aleatoria simple del mismo tamaño.

La ventaja del método es su menor coste en relación al aleatorio simple.