Estadística

Estadística

Ciclo 5

Estudio Estadístico

Estudio Estadístico

Tue, Jul 18, 2023 11:18 AM

Preparación de un estudio estadístico

Las probabilidades de que tu profesor de probabilidades y estadística te pida un proyecto de recolección de datos son altas. No te preocupes, nosotros te ayudaremos con eso.
Este tipo de proyectos, generalmente, sigue el mismo patrón. A continuación, te dejamos los pasos que debes seguir:

 Haz una pregunta.

Crea una hipótesis. 

Recolecta los datos. 

Analiza los datos.

 Plantea los datos. 

Llega a una conclusión.

 

¿Cómo se hace una buena pregunta?

Para comenzar, debes tener un buen "tema" para preguntar. Elige algo que te interese. Puedes realizar preguntas de seguimiento para desarrollar completamente tu proyecto. También deberás saber qué tipo de datos vas a recolectar. 

Por ejemplo: ¿Serán datos numéricos o serán respuestas con palabras? ¿Necesitarás ambas?

A continuación, te damos algunos ejemplos de buenas preguntas para estudios estadísticos:
a) ¿La opinión política de los padres influye en la posición política de los estudiantes en la secundaria de Shmoople Hills?
b) Los estudiantes de 8vo grado de mi escuela, ¿deberían tener menos tareas?
¿Por qué son buenas preguntas las anteriores?
a) Porque son interesantes.
b) Porque están orientadas específicamente hacia un público en particular.
 

Ejemplos de preguntas no tan buenas para estudios estadísticos:


a) ¿Nadar es más popular que el hockey sobre hielo?
b) ¿Quiénes son más altos, los chicos o las chicas?
  Si no especificas el grupo que vas a medir, todo se complica ¿Quieres comparar a todos los chicos y las chicas del mundo? Eso puede llegar a ser realmente complicado. Además, en general, las comparaciones de popularidad no revelan ninguna correlación interesante en los estudios estadísticos.

Después de elegir el tema, necesitarás diseñar las preguntas específicas. Las buenas preguntas son imparciales, es decir, que no tratarán de influenciar a la persona encuestada hacia una respuesta en particular. Digamos que quieres reducir la cantidad de tarea que los profesores asignan y haces las siguientes preguntas:


a) En promedio, ¿cuánto tiempo pasas cada noche haciendo la tarea?
b) Muchos chicos están preocupados porque no tienen suficiente tiempo libre ¿estás de acuerdo?
¿Qué pregunta es parcializada, a ó b? Si respondiste b, es probable que estés prestando atención. La pregunta b influye al entrevistado para que esté de acuerdo con tu punto de vista. Las mejores preguntas son concisas, específicas, directas y neutrales (no influyen).


Preparación de un estudio de muestra


Shmoop quiere saber cómo los estudiantes de San Francisco usan dos redes sociales ficticias llamadas FaceSpace y MyBook.
Para hacerlo más interesante (que no sea un simple sondeo de popularidad), queremos ver si hay diferencias en la forma en que los chicos y chicas responden a las preguntas de nuestra encuesta.
En nuestra encuesta de mentira, les preguntamos a 50 chicos y a 50 chicas de una escuela media, las siguientes preguntas:

¿Usas FaceSpace, MyBook o ambos?

¿Cuánto tiempo al día le dedicas a estas páginas?

¿Tienes "agregados" a tus padres?

¿Sabes si tus padres monitorean el uso que les das a estas páginas?

También puedes crear un cuestionario de fácil uso que puede ser rellenado con las respuestas tanto por el entrevistador como por el entrevistado. Nuestro cuestionario ficticio fue una tabla parecida a la que verás a continuación (para las chicas). Para los chicos hicimos una parecida.

 

Niñas

MyBook (s/n)

FaceSpace (s/n)

Tiempo (horas)

¿Tus padres están agregados a tus amigos? (s/n)

¿Tus padres te monitorean? (s/n)

1

         

2

         

3

         

4

         

5

         

6

         

7

         

8

         

 

Al usar esta tabla podemos rápidamente escribir las respuestas de cada entrevistado.
 

Formulación de una hipótesis
Ahora que sabes qué vas a estudiar, debes predecir qué demostrarán tus resultados. Esto se llama formulación de hipótesis; adivinar cómo resultarían las generalizaciones y por qué serían de esa manera.

 Para nuestro estudio, esperamos encontrar que las chicas usen más MyBook y FaceSpace y dediquen más tiempo a estas páginas que los chicos. Además, creemos que los padres estarán más inclinados a monitorear a sus hijas que a sus hijos.

Recolección de muestras


Estás a punto de recolectar tus datos, pero lee esta parte con mucho cuidado antes de continuar. Para llevar a cabo un estudio preciso, es importante saber a quiénes entrevistar. Lo más seguro es que no puedas encuestar a toda la población que te interesa estudiar, sino que tendrás que tomar solo una muestra de esa población. No podemos preguntarles a todos los estudiantes de las escuelas medias del mundo sus hábitos en las redes sociales, así que elegimos una muestra de 50 chicas y 50 chicos.

La muestra tiene que ser elegida de forma aleatoria para que el resultado sea estadísticamente significativo. Si quieres saber cuál es la película favorita de los estudiantes en tu escuela media y les preguntas a tus amigos, no estarías tomando una muestra representativa de todos los estudiantes, ya que tus amigos probablemente compartan los mismos intereses y gustos. 

Aun cuando te pares fuera del salón de ciencias y les hagas las preguntas a los primeros 30 chicos que salgan, esa tampoco sería una muestra aleatoria. Es probable que les preguntes a los de tu mismo grado y seguramente quienes responderán serán también amigos tuyos.

A continuación, mira algunas formas de obtener una muestra realmente aleatoria en tu escuela:

 

    1. Escribe los nombres de todos los estudiantes en papelitos, mételos en una caja y aleatoriamente (como una lotería) saca papelitos.

 

    1. Coloca un cuestionario en cada quinto locker de tu escuela.

 

    1. Elige aleatoriamente a 10 profesores y pídeles que pasen el cuestionario a sus alumnos.

 

Análisis de resultados


Ahora que has diseñado un estudio, creado un cuestionario y encuestado a una muestra aleatoria, es momento de ver los números, sumar, restar, multiplicar y dividir. El primer paso es simplemente sumar los números de tu encuesta. Luego, calcula el porcentaje para cada categoría y ponlos en una tabla.


Imaginemos que este fue el resultado de nuestro estudio de las redes sociales, como si en realidad hubiéramos entrevistado a 50 chicas y 50 chicos de escuelas media en San Francisco.

Resultados de redes sociales (% que respondió sí a las preguntas)

Chicas

Chicos

MyBook

86%

66%

FaceSpace

30%

36%

Ambos

24%

22%

Ninguno

8%

20%

Padres "agregados" a amigos

66%

50%

Monitoreados por sus padres

54%

30%

Promedio de tiempo que pasa en estas páginas

2.20 hr/día

1.01 hr/día


Aunque sean solo los porcentajes básicos, igual indican una tendencia. Basado en nuestra encuesta de mentira, las chicas pasan significativamente más tiempo en las redes sociales que los chicos, y los padres tienden a monitorear a sus hijas más que a sus hijos.

 
Evaluación de datos y hacer conjeturas

Ok. Hasta el momento hemos ejercitado bastante con los datos en las páginas anteriores. Hemos totalizado cifras en bruto, calculado promedios, y graficado diagramas e histogramas para expresar nuestros datos. Ahora solo necesitamos asegurarnos de que entendemos lo que todo esto quiere decir. Retrocedamos un poco a nuestra encuesta de mentira acerca de las redes sociales, y rápidamente revisemos de nuevo el tema y los datos.


Les hicimos a 50 chicos y 50 chicas de la escuela media las siguientes preguntas:

    1. ¿Usas FaceSpace, MyBook o ambos?
    2. ¿Cuánto tiempo al día le dedicas a estas páginas?
    3. ¿Tienes "agregados" a tus padres? 
    4. ¿Sabes si tus padres monitorean el uso que le das a estas páginas?

Y este fue el resultado que obtuvimos*:

 Resultados de redes sociales (% que respondió sí a las preguntas)

Chicas

Chicos

 MyBook

86%

66%

 FaceSpace

30%

36%

 Ambos

24%

22%

 Ninguno

8%

20%

 Padres "agregados" a amigos

66%

50%

 Monitoreados por sus padres

54%

30%

 Promedio de tiempo que dedica a estas páginas

2.20 hr/día

1.01 hr/día

 

 

  Tiempo dedicado a las redes sociales (horas/día) 

Chicas

Chicos

 Media

2.20

1.01

 Mediana

2.17

0.98

 Rango

3.75

1.88


Tanto la media como la mediana de las chicas son significativamente más altas. De hecho, la mediana de las chicas es mayor que el cuartil mayor de los chicos (Q3). Además, las chicas generalmente tienen a sus padres "agregados" a sus amigos, y, en consecuencia, sus padres las monitorean más. *No son datos reales.
Basándonos en todos estos datos, es evidente que las chicas de escuela media de San Francisco dedican más tiempo en las redes sociales que los chicos. 

Nuestro estudio no comprueba que nuestra hipótesis sea verdadera, pero sugiere que es muy probable.
Basándonos en estos resultados, nos podemos preguntar ¿Por qué los padres monitorean más a sus hijas que a sus hijos? ¿Por qué las chicas usan tanto de su tiempo libre para socializar? ¿Qué hacen los chicos en su tiempo libre?
Finalmente también nos debemos preguntar si existe algo que se nos escape, alguna pregunta que no nos hemos hecho. Por ejemplo, podríamos extender la encuesta fuera de las fronteras de San Francisco. 

Podríamos intentar dividir los datos por edades: en general ¿Los chicos de 13 años pasan más tiempo en las redes sociales que los de 12?


Media, mediana, modo y rango
La estadística más usada es el promedio, y hay tres formas de medirlo: la media, la mediana y la moda.
¿Por qué tres? Buena pregunta. Cada una te dará una forma diferente de ver los datos; dependiendo de la pregunta que quieras responder (o el argumento que quieras defender), cualquiera de las tres podría probar algo.


La media es la medida más usada para encontrar el promedio. De hecho, la gente siempre utiliza la palabra "promedio" para referirse a la "media." Encontrarla es simple: solo suma todos los números en los datos y divídelos por la cantidad de números.

La mediana es el número del medio en un grupo de datos. Sin embargo, los datos deben estar ordenados numéricamente (de mayor a menor o de menor a mayor) antes de encontrar este promedio. Si el número del medio está entre dos números, entonces encuentra la media entre esos dos (súmalos y divídelos entre 2).


Mediana: el número del medio en un grupo de datos.
La moda es probablemente la forma menos común de encontrar el promedio, y en la mayoría de los casos es la menos útil. Para encontrar la moda, solo encuentra el número que más se repite. Puede haber más de una moda, o ninguna.


Moda = número que más se repite.
Finalmente tenemos el rango. El rango NO es una medida de promedio; sin embargo, a menudo se utiliza como el promedio, porque es otra manera de medir un grupo de datos. El rango mide la "extensión" de los datos, qué tan alejados se encuentran el menor del mayor. Para encontrar el rango, resta el valor más pequeño del más grande.


Rango = valor más pequeño – valor más grande
Pero todo esto tendrá mucho más sentido si vemos algunos ejemplos. En nuestra encuesta de redes sociales, encontramos la mediana, la media y el rango de tiempo que cada grupo pasa en las páginas sociales por día.

 


 

 Tiempo dedicado a las redes sociales (horas/día)

Chicas

Chicos

 Media

2.20

1.01

 Mediana

2.17

0.98

 Rango

3.75

1.88

 

Como lo habíamos dicho, en promedio las chicas pasan al menos una hora más al día en estas páginas que los chicos. Tanto la media como la mediana para las chicas fue significativamente mayor a las de los chicos.

 
Ejemplo de diagramas de caja con otro caso:


¿Qué es una gráfica de caja?
Una gráfica de caja es un resumen gráfico de la distribución de una muestra en la que se aprecia su forma, tendencia central y variabilidad.

 

Partes de una gráfica de caja

A: valor atípico (*): observación que se encuentra más allá del bigote superior o inferior

B: bigote superior: representa el 25% superior de la distribución (excluyendo los valores atípicos)

C: caja de rango intercuartil: el 50% medio de los datos

D: bigote inferior representa el 25% inferior de la distribución (excluyendo los valores atípicos)

Las gráficas de caja pueden ayudarle a comprender su distribución. Por ejemplo, la gráfica de caja anterior podría representar los valores de tiempo durante los cuales los clientes son colocados en espera durante sus llamadas al departamento de atención al cliente. El valor atípico en el extremo superior y el bigote superior más largo indican una asimetría positiva, lo cual tiene sentido porque en el extremo inferior de la distribución ninguno de los tiempos de espera puede ser menor que cero.

Actividad

Actualmente estamos enfrentando un reto mundial de salud, realizar la investigación sobre los estudios estadísticos que arrojan los resultados de propagación del coronavirus en 3 países del mundo y determine cantidad y porcentaje de: número de población de cada país, número de personas contagiadas, número de personas recuperadas y número de personas muertas. Igualmente, este valor especifique el porcentaje de la población total a la que corresponde cada grupo usando la fórmula de frecuencia relativa.

 

Hi = fi/n x 100