MUESTREO

1DPTO. MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA UNIVERSIDAD DE GRANADA AMPLIACIÓN DE TÉCNICAS CUANTITATIVAS TEORÍA, EJERCICIOS Y PRÁCTICAS 2 3 INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . . APUNTES: 1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . 1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . . 2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . . 3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 6 11 11 12 13 13 15 16 16 16 17 18 18 19 19 23 23 24 25 27 30 38 38 39 42 43 43 44 44 50 52 63 63 64 65 68 69 70 71 72 72 74 4 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . . 7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . . 7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . . 7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . . 8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . . 8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . . 8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . . 8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . . 9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . . 9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . . 9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. Contrastes 2 χ de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Contrastes 2 χ de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . 10.2 Contrastes 2 χ de independencia. . . . . . . . . . . . . . . . . . . . . . . . 10.3 Contrastes 2 χ de homogeneidad. . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 82 82 84 86 88 89 92 92 92 92 97 98 108 108 109 110 112 112 114 117 117 117 117 119 123 126 126 128 130 130 131 132 134 136 137 143 143 147 150 152 5 11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . . 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . . 11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EJERCICIOS: Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PRÁCTICAS: Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . . 162 162 165 168 176 178 179 181 190 196 207 217 220 230 234 236 240 248 259 276 279 286 293 311 317 320 327 330 333 337 351 366 381 6 INFORMACIÓN GENERAL Licenciatura: Economía Carácter: Obligatoria Créditos: 4,5 Periodo lectivo: Segundo curso. Segundo cuatrimestre. Departamento: Métodos Cuantitativos para la Economía y la Empresa Objetivos de la Asignatura: o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e informáticas necesarias para poder abordar la resolución de supuestos prácticos. o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de los conceptos, la capacidad de elección del método en la resolución de los problemas prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo Excel y el paquete estadístico SPSS, así como la interpretación de los resultados. o Una hora de clase a la semana será en el aula de informática donde se utilizarán los programas Excel y SPSS. Sistema de Evaluación: • En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con ordenador (valorada como máximo en el 40% de la calificación), siendo necesario superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha información se facilitará por internet y/o en la fotocopiadora del centro. También se permite el uso de calculadora no programable en la prueba escrita. • Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria oficial de Junio. La superación de este examen o parte del mismo eximirá de la realización de todo el examen final (escrito y ordenador) o de alguna de las partes en esa convocatoria. 7 TEMARIO 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 8 5.4 Determinación del tamaño muestral. 6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral. 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 9. Medidas de localización espacial. 9.1 Introducción. 9.2 Cocientes de localización y especialización. 9.3 Coeficientes de localización sectorial. 9.4 Coeficientes de especialización regional. 9.5 Coeficientes de diversificación. 10. Contrastes 2 χ de Pearson. 10.1 Contrastes 2 χ de bondad de ajuste. 10.2 Contrastes 2 χ de independencia. 10.3 Contrastes 2 χ de homogeneidad. 11. Inferencia no paramétrica. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. 11.3 Contraste de Mann-Whitney. 11.4 Test de las rachas. 11.5 Test de los signos. 11.6 Test de Wilcoxon de los signos-rangos. 9 BIBLIOGRAFÍA SCHEAFFER, R.; MENDENHALL, W.; y OTT, L. (2006). Elementos de muestreo. International Thomson Editores. PALACIOS, F. y CALLEJÓN, J. (2004). Técnicas Cuantitativas para el Análisis Regional. Editorial Universidad de Granada. MANZANO, V.G.; ROJAS, A.J. y FERNÁNDEZ, J.S. (1996). Manual para Encuestadores. Ed. Ariel. MARTÍN-GUZMÁN, P. y MARTÍN PLIEGO, F. J. (1993). Curso básico de estadística económica. AC. Madrid. CASAS SÁNCHEZ, J.M. (1996). Inferencia Estadística para Economía y Administración de Empresas. Ed. Centro de Estudios Ramón Areces, S. A. LOHR, S.L. (1999). Muestreo: Diseño y Análisis. International Thomson Editores. SACHS, L. (1978). Estadística Aplicada. Ed. Labor s.a. Información en la WEB: En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a los alumnos sobre: ¾ Profesores que imparten la asignatura, despacho, correo electrónico, horario de tutorías... ¾ Programa de la asignatura ¾ Bibliografía ¾ Apuntes de clase ¾ Relaciones de ejercicios ¾ Prácticas de ordenador ¾ Sistema de evaluación ¾ Fechas de exámenes ¾ Calificaciones ¾ Revisión de exámenes ¾ Cualquier otra información que los profesores consideren importante. 10 11 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base en la información contenida en una muestra representativa. La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente tomadas sobre la base de la información de encuestas por muestreo. 1.1 Definiciones básicas En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las características de toda la población. Una buena muestra reproduce las características de interés que existen en la población de la manera más cercana posible. Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes que apoyarán a un determinado candidato Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no al candidato. La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe contener: una descripción de los elementos que serán incluidos, y una especificación de las mediciones que se van a considerar. 12 Una muestra es un subconjunto de la población. El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un candidato en una votación, la información disponible para el muestreo puede ser el censo de residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona muestreada es un votante censado o no. La población muestreada es la colección de todos los elementos posibles que podrían seleccionarse para la muestra. Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que cubren la población completa. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las familias sirven como unidades de muestreo y los elementos son los individuos que viven en una familia. El marco de muestreo es la lista de las unidades de muestreo. Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño como para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. 1.2 Selección de la muestra Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de información contenida en una muestra se controla por medio del número de datos muestrales y por el método usado para seleccionar los datos muestrales. Veamos algunos métodos: 1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo. Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base de otros diseños de muestreo. 2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se pueden dividir en grupos con diferentes opiniones sobre un determinado candidato. Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se 13 divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria simple de cada grupo. A la muestra resultante se le llama muestra aleatoria estratificada. 3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que componen una población se reúnen en unidades de muestreo de mayor tamaño, llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar de votantes individuales. En este caso las familias forman los conglomerados y los miembros de las familias son las unidades de muestreo. 4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos. 1.3 Fuentes de error 1.3.1 Errores de muestreo El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso de la muestra. Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la audiencia televisiva una determinada noche, la intención de voto de una región,.... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. Denotando por θ ˆ a un estimador de la característica θ , definimos el error de estimación como θ θ - ˆ estimación de error = Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso ocurre con una determinada probabilidad ˆ 1 , 0 1 P B θ θ α α ( − ≤ = − < < ¸ ¸ donde Límite para el Error de Estimación (LEE) con nivel de confianza 1 Cota para el error de estimación con nivel de confianza 1- Error de estimación máximo con nivel de confianza 1- B α α α − ¦ ¦ = ´ ¦ ¹ 14 A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador: 1. θ ˆ es un estimador insesgado de θ y tiene una distribución Normal ( ) ( ) θ σ θ θ ˆ , ˆ N → . Dado que ( ) θ σ θ θ ˆ , 0 ˆ N → − , entonces ˆ ˆ ˆ ˆ 1 P B P B B B B P Z θ θ θ θ θ θ α σ σ ( ( − ≤ = − ≤ − ≤ ¸ ¸ ¸ ¸ ( = − ≤ ≤ = − ( ( ¸ ¸ donde (0,1) Z N θ θ θ σ − = → . Por tanto, 2 1 ˆ α θ σ − = z B (podemos obtenerlo en una tabla de probabilidades de la N(0,1)) y el límite del error de estimación es θ α σ ˆ 2 1− = z B . Como se puede observar, el límite del error de estimación dependerá del nivel de confianza y de la desviación típica del estimador (esto último dependerá de la variabilidad de la muestra y del tipo de muestreo). Tomando una confianza del 95% el límite del error de estimación será: θ θ θ σ σ σ ˆ ˆ ˆ 975 , 0 2 96 , 1 ≅ = = z B . Entonces ˆ ˆ 2 0, 95 P θ θ θ σ ( − ≤ = ¸ ¸ Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la desviación típica del estimador. (En muchos textos se denomina error típico a la desviación típica del estimador) 2. θ ˆ es un estimador insesgado de θ con desviación típica (error típico) θ σ ˆ . Por la desigualdad de Tchebyshev: ( ) ˆ 2 1 ˆ ˆ 1 , 1 P E k k k θ θ θ σ ( − ≤ ≥ − ≥ ( ¸ ¸ Dado que el estimador es insesgado y tomando 2 = k , ˆ 2 1 ˆ 2 1 0, 75 2 P θ θ θ σ ( − < ≥ − = ¸ ¸ Luego, con una confianza mayor del 75%, el límite del error de estimación es dos veces la desviación típica del estimador. Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador con una confianza del 95% si el estimador tiene distribución Normal y con una confianza 15 mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30, los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud del Teorema central del límite. La expresión ˆ 1 P B θ θ α ( − ≤ = − ¸ ¸ tiene una segunda lectura. Dado que ˆ ˆ ˆ ˆ 1 P B P B B P B B θ θ θ θ θ θ θ α ( ( ( − ≤ = − ≤ − ≤ = − ≤ ≤ + = − ¸ ¸ ¸ ¸ ¸ ¸ el verdadero valor del parámetro se encuentra entre los extremos del intervalo ( ) B B + − θ θ ˆ , ˆ con una confianza de α − 1 . 1.3.2 Errores de no muestreo Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa encuesta puede ser despreciable en comparación con los errores que no son de muestreo. Los errores de no muestreo más comunes son: 1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no está en la población muestreada. Una muestra así obtenida no es representativa de la población objetivo. 2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren del valor verdadero. La obtención de respuestas precisas en las encuestas es fundamental pero esto a veces no se consigue por diversos motivos: - A veces, las personas no dicen la verdad. - Las personas no siempre comprenden las preguntas. - Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera equivocada. - La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas obtenidas. 3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección. Puede ocurrir que las personas que respondan no representen a la población bajo estudio. Los errores de no muestreo pueden controlarse con las siguientes acciones: 1. Reentrevistas. 16 2. Recompensas e incentivos. 3. Entrevistadores adiestrados. 4. Verificación de datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.4 Métodos de recolección de datos También el método de recolección de datos es fundamental en la reducción de los errores de no muestreo. Destacamos como métodos más habituales: (A) Entrevista personal. (B) Entrevista por teléfono. (C) Cuestionarios autoaplicados. (D) Observación directa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.5 Diseño del cuestionario Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son los siguientes: - Decidir lo que se quiere descubrir. - Verificar las preguntas antes de realizar la encuesta. - Elaborar las preguntas de manera sencilla y clara. - Prestar atención al orden de las preguntas. - Decida si desea utilizar preguntas abiertas o cerradas. - Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar. - Utilice preguntas de opción forzosa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.6 Planificación de la encuesta Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse en cuenta en la planificación de una encuesta: 1. Establecer objetivos. 2. Población objetivo. 17 3. El marco. 4. Diseño del muestreo. 5. Método de recolección de datos. 6. Instrumentos de recolección de datos. 7. Selección y preparación de investigadores de campo. 8. Prueba piloto. 9. Organización del trabajo de campo. 10. Organización de la administración de datos. 11. Análisis de los datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.7 Razones para el uso del muestreo Entre otras muchas razones, destacamos: (a) Evitar la destrucción de la población. En algunos casos, una unidad de observación debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la población. Por ejemplo el muestreo en el control de calidad. (b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se pueden publicar de una manera programada. Por ejemplo las elecciones. (c) Economía y precisión. El muestreo puede proporcionar información fiable con costes mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus respectivas muestras son, con frecuencia, más precisas que las basadas en un censo, pues los investigadores pueden tener más cuidado al reunir los datos. Un censo completo necesita, por lo regular, de una gran organización administrativa e implica a muchas personas en la recolección de los datos. Con tal complejidad administrativa y la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores en la elaboración del censo. En una muestra, se puede dedicar más atención a la calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no contestan la encuesta. 18 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así seleccionada se le llama muestra aleatoria simple. En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da lugar a variables aleatorias independientes e idénticamente distribuidas. El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla la hipótesis de independencia. Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior distinción es irrelevante. En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin reemplazamiento. En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más, estas tablas de números aleatorios son sustituidas por la generación de números aleatorios mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan sencillo. Una alternativa a la formación de una lista numerada para la selección mediante números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según 19 este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra. Veamos cómo se aplicaría este método con un sencillo ejemplo: Se ha seleccionado el número aleatorio 11071032, las dos primeras cifras (11) indican el distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el número de la calle, la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica, sobretodo si la entrevista es por teléfono, así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página. Otros tipos de muestreo que se utilizan con cierta frecuencia son: Muestreo causal, usamos nuestro criterio para seleccionar aleatoriamente la muestra. Muestreo por cuotas (o representativo), seleccionamos una muestra que consideramos representativa de la población, respetando el tamaño relativo de los grupos que la integran. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres, tomamos una muestra que respete esos tamaños. Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo), la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números aleatorios. EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA. 2.2 Muestreo aleatorio simple en poblaciones infinitas. Supongamos que la característica en estudio de la población está representada por la variable Y (con media µ y varianza σ 2 ), una muestra aleatoria simple de tamaño n estará representada por n variables: Y 1 ,..., Y n , independientes e idénticamente distribuidas (i.i.d.). (Observaciones en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos conducen a variables i.i.d.) 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. Como estimador de la media de la población, µ, se utiliza la media muestral, y . 20 1 1 n i i y y n = = ∑ Un valor aislado y del estimador revela poco acerca de la media poblacional, deberíamos evaluar también su bondad. Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza ( ) ( ) 2 E y V y n σ µ = = Como estimador de la varianza de la población, 2 σ , se utiliza la cuasivarianza muestral, 2 S . ( ) 2 2 1 1 1 n i i S y y n = = − − ∑ que también tiene la propiedad de ser insesgado ( ) 2 2 E S σ = de forma que la varianza de la media muestral se estima de forma insesgada por 2 ( ) S V y n = Cuando las variables Y, Y 1 , ..., Y n son dicotómicas, sólo toman dos valores (0 y 1), su media µ representa una proporción y se nota como p y el estimador de la misma, la proporción muestral, por p 1 1 , 0, 1 n i i i p y y n = = = ∑ Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas antes. La varianza de la población es en este caso 2 pq σ = , donde q=1-p. Como antes, el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a 2 1 n S pq n = − Si conocemos más características de las variables aleatorias Y, Y 1 ,..., Y n , conoceremos más propiedades de la media muestral, aparte de las mencionadas. Así, si 2 2 ( , ) Y N conocida µ σ σ → (0,1) y N n µ σ − → 21 si 2 2 ( , ) Y N desconocida µ σ σ → 1 (0,1) ( , ) n y t N en la práctica para n 30 S n µ − − → ≈ > si Y →cualquier distribución (por el Teorema Central del Límite) cuando n →∞ (0,1) y y N S n n µ µ σ − − ≈ → (en la práctica, para n>30) un caso particular del anterior es cuando (1, ) Y B p → , donde p y p µ = = (0,1) 1 1 p p p p p p N pq n pq pq n n n n − − − ≈ = → − − (en la práctica, para n>30) Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas, y , o dicotómicas, p ) sigue o se puede aproximar, si el tamaño de la muestra es suficientemente grande, por una distribución normal. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada, siendo válido lo que sigue también para las otras) 1, 96 1, 96 0, 95 y P n µ σ ( ( − − ≤ ≤ = ( ( ( ¸ ¸ o en un caso más general 2 2 1 y P Z Z n α α µ α σ ( ( − − ≤ ≤ = − ( ( ( ¸ ¸ α=nivel de significación 1-α=nivel de confianza Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1,96≈2 De las probabilidades anteriores se puede hacer dos lecturas. La primera: 2 2 0, 95 2 0, 95 P y P y n n n σ σ σ µ µ ( ( − ≤ − ≤ = ⇒ − ≤ = ( ( ¸ ¸ ¸ ¸ 22 En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0,95= nivel de confianza del 95%. y µ − = error de estimación o diferencia entre la estimación que hacemos, y , y el verdadero valor del parámetro que se quiere estimar, µ. 2 n σ = cota o límite para el error de estimación, es el máximo error de estimación que se puede estar cometiendo, con una confianza del 95%. En la práctica se estima por 2 S n . La segunda lectura: 2 2 0, 95 P y y n n σ σ µ ( − ≤ ≤ + = ( ¸ ¸ expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre entre los extremos del intervalo 2 , 2 y y n n σ σ | | − + | \ . . Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande, n>30. Pero qué ocurre si no es así. En ese caso la desigualdad de Tchebychev nos da la respuesta. La desigualdad de Tchebychev dice que si X es una variable aleatoria con media ( ) E X µ = y varianza 2 ( ) V X σ = , entonces 2 1 1 P X k k µ σ − ≤ ( ≥ − ¸ ¸ Aplicando lo anterior, en particular, a la media muestral para k=2 se obtiene 1 2 1 0, 75 4 P y n σ µ ( − ≤ ≥ − = ( ¸ ¸ resultado parecido al que obteníamos anteriormente 2 0, 95 P y n σ µ ( − ≤ = ( ¸ ¸ salvo que en este caso lo más que podemos asegurar es que la probabilidad de que 2 y n σ µ − ≤ es mayor de 0,75. 23 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado, hacemos una estimación puntual. Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza), hablamos de intervalo de confianza. Por ejemplo, utilizando muestras grandes, el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es 2 , 2 S S y y n n | | − + | \ . En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un determinado valor, por ejemplo, se quiere contrastar la hipótesis nula 0 0 : H µ µ = con un nivel de significación del 5%. Lo anterior equivale a comprobar si 0 2 , 2 S S y y n n µ | | ∈ − + | \ . en cuyo caso se aceptaría la hipótesis nula, rechazándose en caso contrario. 2.2.3 Determinación del tamaño muestral. En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación, 2 B n σ = . La cantidad de información necesaria para conseguir lo anterior depende del tamaño de la muestra según la siguiente expresión 2 2 2 2 2 2 4 , 4 4 B B n D B n D σ σ σ = ⇒ = = = El caso de la proporción es análogo al de la media, teniendo en cuenta que 2 pq σ = 2 , 4 pq B n D D = = Ejemplo 2.1. (ejercicio 13, relación tema 2) Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. 24 b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a) 1 1 35 0,175 200 1 0,175 0, 825 ( ) 0, 000726 200 1 n i i pq p y n q V p n n = = = = = = − = = = − ∑ ( ) 2 ( ) 0, 0539 12,11%, 22, 89% B V p p = = ∈ b) 2 0, 03 0, 000225 641, 6 642 4 B pq B D n D = = = = = ≈ c) 2 0, 03 0, 000225 0, 5 1111,1 1112 4 B pq B D p q n D = = = = = = = ≈ d) 1 1 5600 35 160€ 35 n i i n y y n = = = = = ∑ 2 2 625 625 ( ) 17, 8571 2 ( ) 8, 45€ 35 S S V y B V y n = = = = = = 2.3 Muestreo aleatorio simple en poblaciones finitas. Suponemos que la población es finita, tiene N elementos, y además que la muestra se selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo aleatorio simple en poblaciones infinitas con variables i.i.d.) 25 2.3.1 Estimación de la media, proporción y total poblacionales. (A) Estimación de la media poblacional. Para estimar la media poblacional, µ, se utiliza la media muestral 1 1 n i i y y n µ = = = ∑ Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra ( ) ( ) 2 1 N n E y V y n N σ µ − | | = = | − \ . En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población ( ) 2 2 2 2 1 1 N N E S E S N N σ σ − | | = = | − \ . De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por ( ) 2 2 1 1 1 N N n S N n V y S N n N n N − − − | | | | | | = = | | | − \ . \ . \ . expresión igual a la del caso de poblaciones infinitas, 2 ( ) S V y n | | = | \ . , salvo el coeficiente N n N − | | | \ . que se denomina coeficiente corrector para poblaciones finitas (c.p.f.). En la práctica el coeficiente c.p.f. suele despreciarse si 0, 95 N n N − | | ≥ | \ . o lo que es equivalente si 1 5% 20 n N N ≤ = . En muchos casos N no está claramente definido o se desconoce, pero si N se supone suficientemente grande el c.p.f. se omite, 1 N n N − | | ≅ | \ . . Para calcular el límite para el error de estimación , con un 95% de confianza, se halla 2 ( ) V y . Igual que en el caso de poblaciones infinitas, se habla de un nivel de confianza del 95% cuando trabajamos con el coeficiente 1,96≈2. Pero en algunos casos, según la desigualdad de Tchevychev, sólo se puede asegurar que este nivel es mayor de un 75%. 26 (B) Estimación del total poblacional. Para estimar el total poblacional, τ, dado que N N τ µ τ µ = ⇒ = utilizaremos el estimador 1 n i i N N y y n τ = = = ∑ . Para hallar su varianza, recordemos las propiedades de la varianza 2 ( ) ( ) V kX k V X = ( ) ( ) ( ) ( ) V X Y V X V Y X e Y incorreladas + = + Varianza estimada de τ 2 2 2 2 ( ) ( ) ( ) ( ) S N n S V V N y N V y N N N n n N n τ − = = = = − Como en el caso de la media, el límite para el error de estimación con una confianza del 95% está dado por 2 ( ) V τ . Valiendo comentarios análogos a los hechos anteriormente. En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo, omitiéndose, para no repetirnos más, la referencia al límite para el error de estimación. Ejemplo 2.2. (ejercicio 1, relación tema 2) Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue 1.040€ y = y la varianza muestral (“cuasivarianza”) es S 2 =45.000€ 2 . Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución: 2 1 45000 1000 300 ( ) 105 300 1000 n S N n V y n N − − − = = = 2 ( ) 2 105 20, 49€ V y = = ( ) ( ) 1.040 20, 49 1.019, 51 , 1.060, 49 = ∓ 1000 1040 1.040.000€ N y τ = = × = 2 ( ) 2 ( ) 1000 20, 49 20.490€ ( 20.493, 9) V N V y valor exacto τ = = × = ( ) ( ) 1.040.000 20.490 1.019.510 , 1.060.490 = ∓ (C) Estimación de la proporción poblacional. Para estimar la proporción poblacional p , dado que se trata de una media usaremos la media muestral que tiene la siguiente notación en este caso 27 1 1 , 0, 1 n i i i p y y n = = = ∑ su varianza estimada, teniendo en cuenta que 2 1 n pq S n = − , es igual a 2 ( ) 1 S N n pq N n V p n N n N − − = = − Para estimar el total poblacional de una variable dicotómica usamos N p τ = 2 ( ) ( ) ( ) ( ) 1 pq V V N p N V p N N n n τ = = = − − 2 ( ) 2 ( ) V N V p τ = Ejemplo 2.3. (ejercicio 2, relación tema 2) Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro. • La proporción de ellos que tienen algún tipo de trabajo. Sean , ( 1,...,100) i i y z i = las respuestas del i-ésimo estudiante seleccionado ( 0 i y = cuando responden NO, 1 i y = cuando responden SI, análogamente para i z ). Según la muestra 100 100 1 1 70 25 i i i i y z = = = = ∑ ∑ Usando los datos de la muestra, estime 1 p (proporción de estudiantes que votarán a un determinado representante) 2 p (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Solución: 100 100 1 1 1 2 0, 70 (70%) 0, 25 (25%) 100 100 i i i i y z p p = = = = = = ∑ ∑ 1 1 2 2 1 2 ( ) 0, 0018855 ( ) 0, 0016835 1 1 p q p q N n N n V p V p n N n N − − = = = = − − 1 2 2 ( ) 0, 0868 (8, 68%) 2 ( ) 0, 0821 (8, 21%) V p V p = = 2 2 2 900 0, 25 225 2 ( ) 900 0, 0821 73, 89 N p V τ τ = = × = = × = 2.3.2 Determinación del tamaño muestral. El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 ( ) V y B = 28 ( ) 2 2 ( ) 4 B V y B V y D = ⇔ = = 2 2 2 ( ) 1 ( 1) N n N V y D n n N N D σ σ σ − = = ⇒ = − − + Para estimar el total poblacional con un límite para el error de estimación B, dado que 2 ( ) 2 ( ) V N V y B τ = = , se llega a la misma expresión de n pero con 2 2 4 B D N = En la práctica la varianza poblacional 2 σ es desconocida. Si disponemos de 2 S de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión 2 σ por 2 S , 2 2 1 aunque la estimación insesgada de es N S N σ − | | | \ . . Si no se dispone de información previa para estimar la varianza podemos usar que en variables normales el rango de la muestra es aproximadamente cuatro veces su desviación típica 2 2 4 16 R R σ σ ≅ ⇔ ≅ La proporción poblacional p es la media µ de una variable dicotómica ( (1, ) B p , ( ) E X p = , ( ) V X pq = ), luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo 2 σ por pq, obteniéndose ( 1) Npq n N D pq = − + 2 ( ) 4 B D proporcion = 2 2 ( ) 4 B D total N = En la práctica p se desconoce. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. Si no se cuenta con información anterior, suponiendo 1 2 p = se obtiene un tamaño muestral conservador (mayor que el requerido para obtener la cota del error de estimación prefijada). Ejemplo 2.4. (ejercicio 3, relación tema 2) Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). 29 Solución: 2 2 2 2 2 10.000 25 4 800 200 40.000 4 4 1.000 B D N σ σ σ = = = ≅ ⇒ ≅ ⇒ ≅ × 2 2 615, 62 616 ( 1) N n N D σ σ = = ≈ − + Si se realizan dos preguntas (o más) a cada elemento de la muestra, se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites. Ejemplo 2.5. (ejercicio 4, relación tema 2) Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: 1 p = proporción de estudiantes que prefieren los exámenes en sábado. 2 2 1 1 (0,10) 0, 0025 4 4 B D = = = 1 1 1 1 1 1 3.000 0, 60 0, 40 93, 05 94 ( 1) (2.999 0, 0025) (0, 60 0, 40) Np q n N D p q × × = = = ≈ − + × + × 2 p =proporción de estudiantes que apoyan al equipo decanal. 2 2 2 2 (0, 05) 0, 000625 4 4 B D = = = 2 2 2 2 2 2 3.000 0, 50 0, 50 353, 04 354 ( 1) (2.999 0, 000625) (0, 50 0, 50) Np q n N D p q × × = = = ≈ − + × + × para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de 1 p disminuiría (con un 95% de confianza) hasta: 1 1 1 0, 60 0, 40 3.000 354 2 ( ) 2 2 0, 0489 ( 4, 9%) 1 353 3.000 p q N n V p n N − × − = = = ≅ − o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor 30 1 2 2 2 ( ) 0,10 0, 02445 0,10 4, 09 Z V p Z Z α α α = ⇒ = ⇒ = buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel, ...) la probabilidad comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prácticamente del 100%. EJERCICIOS RESUELTOS 1. (Ejercicio 19, relación tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en € 33,5 32 52 43 40 41 45 42,5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a) 33, 5 ... 39 40, 89 € 9 y µ + + = = = ( ) ( ) ( ) 2 2 2 1 33, 5 40, 89 ... 39 40,89 35, 67 9 1 S = − + + − = − ( ) ( ) 2 3, 963 2 3, 98 € S V y B V y n = = = = ( ) ( ) 40, 89 3, 98 ; 40, 89 3, 98 36, 91; 44, 87 − + = b) No, porque ( ) 45 36, 91; 44, 87 ∉ c) 2 2 2 2 35, 67 35, 67 36 1 4 4 S n compras B B σ = ≅ = = ≈ 2. (Ejercicio 17, relación tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? 31 SOLUCIÓN: 655 0, 655 65, 5% 1.000 p p = = ⇒ = 0, 655 (1 0, 655) ( ) 0, 0002262012 1 999 pq V p n × − = = = − 2 ( ) 0, 0301 3, 01% V p = ⇒ (65, 5% 3, 01%, 65, 5% 3, 01%) (62, 49%, 68, 51%) − + = (62, 49%, 68, 51%) 50% p p sí se puede afirmar que la mayoría de los habitantes están en contra ∈ ⇒ > ⇒ 3. (Ejercicio 18, relación tema 2) El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN: i R 4 i i R σ ≈ 2 i σ 2.200-1.200=1000 1.700-500=1.200 250 300 62.500 90.000 2 2 1 1 1 2 2 1 1 62.500 62.500 25 10.000 100 4 4 4 n B D σ σ = = = = = 2 2 2 2 2 2 2 2 2 90.000 90.000 25 14.400 120 4 4 4 n B D σ σ = = = = = 1 2 50 n n n = + = 4. (Ejercicio 14, relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 32 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: 2.000 N = 2 11.000 1.200 9.800 2450 6.002.500 4 R R σ σ = − = ⇒ ≅ = ≅ 2 2 400 40.000 4 4 B D = = = 2 2 139, 65 140 ( 1) N n N D σ σ = = ≈ − + 2 2 0.05 0, 000625 4 4 B D = = = 0, 5 333, 47 334 ( 1) Npq p q n N D pq = = = = ≈ − + Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334. 334 n = . 5. (Ejercicio 15, relación tema 2) Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: 2 110 1.800 1.500 300 75 5625 4 R N R σ σ = = − = ⇒ ≅ = ≅ 2 2 10 25 4 4 B D = = = 2 2 74,1 75 ( 1) N n N D σ σ = = ≈ − + 2 2 0.02 0, 0001 4 4 B D = = = 33 0, 5 105, 4 106 ( 1) Npq p q n N D pq = = = = ≈ − + 6. (Ejercicio 16, relación tema 2) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. SOLUCIÓN: a) 25 5 N n = = 2 14 2,8 70 5 12, 7 ( ) ( ) 25 20 1270 5 2 ( ) 71, 2741 y N y S V N N n n B V τ τ τ = = ⇒ = = = − = × = = = Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. Véase ejercicio 10 de la relación del capítulo 6) b) 2 0, 4 10 5 0, 24 ( ) ( ) 25 20 30 1 4 2 ( ) 10, 9545 p N p pq V N N n n B V τ τ τ = = ⇒ = = = − = × = − = = 7. (Ejercicio 21, relación tema 2) El consumo medio de combustible de los taxis de una ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se 34 toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.4 6 6.3 11 3.6 16 5.4 2 5.5 7 5.4 12 6.7 17 4.8 3 6.9 8 5 13 5.2 18 4.7 4 3.9 9 4.5 14 5.1 19 5.8 5 4.5 10 4.4 15 5.4 20 6.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km, por tanto 15 0' 75 20 p = = 0' 75 0' 25 580 ( ) 0' 00954 1 19 600 pq N n V p n N − × = = = − 2 ( ) 0'1953 V p = ( ) ( ) 0' 75 0'1953 , 0' 75 0'1953 0' 5547 , 0' 9453 − + = ( ) 55' 47%, 94' 53% b) ( ) 2 0'10 0'10 0' 0025 4 B D = = = ( ) ( ) 600 0' 75 0' 25 66' 77 67 ( 1) 599 0' 0025 0' 75 0' 25 Npq n N D pq × × = = = ≈ − + × + × 8. (ejercicio 1, práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 Estime el total del dinero adeudado y establezca un límite para el error de estimación. 35 SOLUCIÓN: i y 2 i y 35,50 32,00 43,00 41,00 44,00 42,50 1260,25 1024,00 1849,00 1681,00 1936,00 1806,25 1 238,00 n i i y = = ∑ 2 1 9556,50 n i i y = = ∑ 1 100 238=3966,6 6 n i i N N y y n τ = = = = ∑ ( ) 2 2 1 2 2 2 1 1 1 1 238 9556,50 23,1667 1 1 5 6 n i n i i n i i i y y n S y y n n = = = | | | \ . − | | = − = = − = | − − \ . ∑ ∑ ∑ 2 23,1667 2 ( ) 2 ( ) 2 100(100 6) 381, 02 6 S V N N n n τ = − = − = Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas 2 1 n n x x x x x s S σ σ − = = ∑ ∑ de forma inmediata. 1 n n x x s desviación típica S cuasidesviación típica σ σ − = = = = 9. (Ejercicio 16, relación tema 2) En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 36 SOLUCIÓN: N=5000, n=300 51 0,17 1 0,83 ( ) 0, 00044359197 2 ( ) 0, 0421 300 1 pq N n p q p V p V p n N − = = = − = = = = − ( ) ( ) 25% 17% 4, 21% 12, 79%, 21, 21% ∉ = ∓ luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 10. (Ejercicio 8, relación tema 2) El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: ( ) con las funciones del modo SD de la calculadora N=45, n=5 ( ) 2 2 1 1 1 1 5, 26 2, 563 1 n n i i i i y y S y y n n = = = = = − = − ∑ ∑ ( ) 2 ( ) 0, 4556 2 ( ) 1, 35 . . : 3, 91min., 6, 61min. S N n V y V y INTERV CONF n N − = = = Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis. 11. (Ejercicio 11, relación tema 2) Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 2 1 1 1.450; 54.496 i i i i Y Y = = = = ∑ ∑ ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700, n=50 2 2 1 2 1 1 1 1450 29 254 50 1 n i n i i n i i i y y n y y S n n = = = | | | \ . − = = = = = − ∑ ∑ ∑ 37 2 20.300 ( ) ( ) 2.311.400 2 ( ) 3.040, 66 S N y V N N n B V n τ τ τ = = = − = = = ( ) ( ) 20.300 3.040, 66 17.259, 34 , 23.340, 66 = ∓ Previsión más optimista: 23.340 ; previsión más pesimista: 17.259 38 3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 3.1 Selección de una muestra aleatoria estratificada. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección, llamados estratos, y la selección posterior de una muestra aleatoria simple en cada estrato. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste (en tiempo y/o dinero) de la muestra. Además de las estimaciones para toda la población, este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos. Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población, a la derecha para la muestra): L = número de estratos N = tamaño de la población n = tamaño de la muestra i N = tamaño del estrato i n =tamaño de la muestra del estrato i 1 L i i N N = = ∑ 1 L i i n n = = ∑ i µ = media poblacional del estrato i i y = media muestral del estrato i i τ = total poblacional del estrato i 39 2 i σ =varianza poblacional del estrato i 2 i S = varianza muestral del estrato i i p = proporción poblacional del estrato i i p = proporción muestral del estrato i i c =coste de una observación del estrato i 3.2 Estimación de la media, proporción y total poblacionales. En cada estrato se ha realizado un muestreo aleatorio simple, sabemos que en cada estrato i i N y es un estimador insesgado del total i τ , parece razonable estimar 1 L i i τ τ = = ∑ por 1 L st i i i N y τ = = ∑ y la media poblacional N τ µ = mediante 1 1 L i st i i y N y N = = ∑ NOTA: st y y ≠ en general ( y = media muestral de las n observaciones) st τ τ ≠ en general ( N y τ = = estimador del total según un M.A.S.) Varianza estimada de st y 2 2 2 2 2 1 1 1 1 ( ) ( ) L L i i i i i st i i i i i S N n V y N V y N N N n N = = − = = ∑ ∑ (se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2) Varianza estimada de st τ 2 2 2 1 ( ) ( ) L i i i st i st i i i S N n V N V y N n N τ = − = = ∑ En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación vistas en el capítulo anterior. Estimador de la proporción poblacional p 1 1 L i st i i p N p N = = ∑ Varianza estimada de st p 2 2 2 2 1 1 1 1 ( ) ( ) 1 L L i i i i i i st i i i i i p q N n V p N V p N N N n N = = − = = − ∑ ∑ Estimador del total poblacional τ 1 L st i st i i N p N p τ = = = ∑ 40 Varianza estimada de st τ 2 2 1 ( ) ( ) 1 L i i i i st i st i i i p q N n V N V p N n N τ = − = = − ∑ Ejemplo 3.1. (Ejercicio 1, práctica 3) Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en la siguiente tabla: BARRIO A BARRIO B BARRIO C 36 39 38 28 29 34 38 37 41 37 26 32 29 35 41 20 30 14 41 39 25 14 15 21 20 24 22 17 11 14 Estime el tiempo medio que se ve la televisión, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato 2 2 2 1 2 3 1 2 3 2 34, 67 / 28,17 / 17, 56 / 23, 24 112, 57 19, 28 28, 23 92, 74 y horas semana y h s y h s S S S y S = = = = = = = = A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones 1 2 3 1 2 3 210 84 126 420 N N N N N N N = = = = + + = 1 2 3 1 2 3 15 6 9 30 n n n n n n n = = = = + + = 41 2 2 2 3 3 3 1 1 1 2 2 2 1 2 3 1 1 2 2 3 3 ( ) 1, 44 ( ) 17, 42 ( ) 1, 99 S N n S N n S N n V y V y V y n N n N n N − − − = = = = = = 1 2 3 2 ( ) 2, 40 / 2 ( ) 8, 35 / 2 ( ) 2, 82 / V y h s V y h s V y h s = = = Para el conjunto de todos los hogares el estimador de la media es 3 1 1 28, 23 / i st i i y N y h s N = = = ∑ y la varianza de este estimador la podemos calcular basándonos en las varianzas de los estimadores de la media en cada estrato mediante 3 2 2 1 1 ( ) ( ) 1, 24 i st i i V y N V y N = = = ∑ o, si se prefiere, utilizando 2 3 2 2 1 1 ( ) i i i i st i i i S N n V y N N n N = − = ∑ el error para la estimación de la media para todos los hogares está dado por 2 ( ) 2, 22 / st V y h s = Ejemplo 3.2. (Ejercicio 2, práctica 3) En el caso anterior, también se desea saber qué proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO NO SI NO SI NO SI NO SI SI NO NO NO SI NO SI SI SI SI NO SI SI NO SI SI SI SI NO Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato 1 2 3 7 5 6 0, 4667 0,8333 0, 6667 15 6 9 p p p = = = = = = La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 3 1 1 0, 60 i st i i p N p N = = = ∑ la varianza y error de estimación asociados son 3 2 2 1 1 ( ) 0, 00748 2 ( ) 0,173 1 i i i i i st st i i i p q N n V p N V p N n N = − = = = − ∑ y el intervalo de confianza expresado en porcentajes es 42 ( ) ( ) 60% 17, 3% 42, 7%, 77, 3% = ∓ 3.3 Determinación del tamaño muestral. El tamaño muestral para conseguir un límite para el error de estimación de la media, B, viene dado por 2 ( ) st V y B = donde 2 2 2 1 1 ( ) 1 L i i i i st i i i N n V y N N n N σ = − = − ∑ . No podemos despejar el valor de todos los i n de una sola ecuación a menos que conozcamos la relación entre los i n y n . Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos i i n nω = (problema de la asignación de la muestra que estudiaremos más adelante) , sustituyendo lo anterior en ( ) st V y se puede despejar n en función de los i ω obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B (aproximado porque se hacen algunas modificaciones como 1 i i N N − ≅ , ... para resolver la anterior ecuación). 2 2 1 2 2 1 L i i i i L i i i N n N D N σ ω σ = = = + ∑ ∑ 2 4 B D = y la misma expresión vale para el total tomando 2 2 4 B D N = . Al igual que en el M.A.S. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las observaciones dentro de cada estrato. En el caso de variables dicotómicas se obtiene una expresión similar, teniendo en cuenta que en este caso particular 2 i i i p q σ = 2 1 2 1 L i i i i i L i i i i N p q n N D N p q ω = = = + ∑ ∑ 2 4 B D = (para estimar p) y la misma expresión vale para el total tomando 2 2 4 B D N = . 43 3.4 Asignación de la muestra. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto, pequeño error de estimación) al menor coste posible. El mejor esquema de asignación está influido por: • El número total de elementos en cada estrato. • La variabilidad de las observaciones en cada estrato. • El coste de obtener una observación en cada estrato. 3.4.1 Asignación óptima. La asignación que minimiza el coste para un límite para el error de estimación fijado se denomina asignación óptima y está dada por 1 j j j j L i i i i N c N c σ ω σ = = ∑ sustituyendo los j ω en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación óptima 1 1 2 2 1 L L i i i i i i i i L i i i N N c c n N D N σ σ σ = = = = + ∑ ∑ ∑ En el caso dicotómico las anteriores expresiones toman los valores 1 j j j j j L i i i i i p q N c p q N c ω = = ∑ 1 1 2 1 L L i i i i i i i i i i L i i i i p q N p q c N c n N D N p q = = = = + ∑ ∑ ∑ En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste fijo de obtención de la muestra, en este caso la asignación óptima también es la respuesta y la elección de n viene dada por 44 1 1 L i i i i L i i i i N C c n N c σ σ = = = ∑ ∑ donde C representa el coste total de obtención de la muestra (véase ejemplo 3.3). Análogamente para el caso dicotómico sustituyendo i i i p q σ = . 3.4.2 Asignación de Neyman. Cuando los costes de observación de cada estrato son los mismos, las expresiones de la asignación óptima se simplifican y transforman en: Caso numérico 1 j j j L i i i N N σ ω σ = = ∑ 2 1 2 2 1 ( ) L i i i L i i i N n N D N σ σ = = = + ∑ ∑ Caso dicotómico 1 j j j j L i i i i N p q N p q ω = = ∑ 2 1 2 1 ( ) L i i i i L i i i i N p q n N D N p q = = = + ∑ ∑ A este tipo de asignación se le denomina de Neyman, que como acabamos de decir coincide con la asignación óptima cuando los costes de observación son iguales en todos los estratos. Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún cuando los costes de observación no son idénticos, a veces, sencillamente porque no se conocen. 3.4.3 Asignación proporcional. Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las expresiones de la asignación óptima se simplifican y reducen a 45 Caso numérico j j N N ω = 2 1 2 1 1 L i i i L i i i N n ND N N σ σ = = = + ∑ ∑ Caso dicotómico j j N N ω = 1 1 1 L i i i i L i i i i N p q n ND N p q N = = = + ∑ ∑ La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato, por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación proporcional el estimador st y coincide con la media muestral de toda la muestra, st y y = (análogamente para st p y el total). Cuando se toma más de una medición en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. En la práctica se usa la asignación proporcional cuando se observan varias variables porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos distintas asignaciones para cada variable que se mide. Con la asignación proporcional y tomando como n el máximo de los valores encontrados para cada estimación, estaremos utilizando estimadores, en muchos casos, con un límite para el error mucho más pequeño que el establecido. Aclarémoslo con un ejemplo. En la asignación óptima y en la de Neyman los i ω dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: 1 1 2 2 100 0,10 10 0, 90 90 n n n ω ω = = ⇒ = = ⇒ = 2ª estimación: 1 1 2 2 40 0, 50 20 0, 50 20 n n n ω ω = = ⇒ = = ⇒ = 46 Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. En la asignación proporcional no ocurre lo anterior pues los j j N N ω = son iguales para todas las variables al no depender de sus varianzas, así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: 1 1 2 2 100 0, 30 30 0, 70 70 n n n ω ω = = ⇒ = = ⇒ = 2ª estimación: 1 1 2 2 40 0, 30 12 0, 70 28 n n n ω ω = = ⇒ = = ⇒ = tomando como n el máximo de los dos (o de los k si hay k variables que se observan), se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. Ejemplo 3.3 (Ejercicio 1, práctica 3) Continuando con el ejemplo 3.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). c) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). Solución: a) Podemos comprobar que se cumple que i i n N i n N = ∀ 15 210 6 84 9 126 0, 5 0, 2 0, 3 30 420 30 420 30 420 = = = = = = luego la asignación utilizada ha sido la proporcional. b) Según los datos anteriores estimaremos las varianzas de cada estrato por 2 2 2 2 2 2 1 2 3 1 2 3 23, 24 112, 56 19, 28 S S S σ σ σ = = = = = = 47 i N i σ i c i i i N c σ i i i N c σ 2 i i Nσ 210 84 126 4,8208 10,6094 4,3909 1 3 2 1012,368 2673,5688 1106,5068 1012,368 297,0632 276,6267 4880,4 9455,04 2429,28 420 4792,4436 1586,0579 16764,72 2 1 0, 25 4 4 B D = = = ( ) 3 3 1 1 3 2 2 2 1 4792, 4436 1586, 0579 124,89 420 0, 25 16764, 72 i i i i i i i i i i i N N c c n N D N σ σ σ = = = × = = = × + + ∑ ∑ ∑ 1 1 1 1 2 3 3 1 0, 6383 0,1873 0,1744 i i i i N c N c σ ω ω ω σ = = = = = ∑ 1 1 2 2 3 3 79, 71 80 23, 39 24 21, 78 22 n n n n n n ω ω ω = = ≈ = = ≈ = = ≈ 80 24 22 126 n = + + = c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio 3 1 3 1 600 600 1586, 0679 198, 57 4792, 4436 i i i i i i i i N c n N c σ σ = = × = = = ∑ ∑ y los tamaños de la muestra en cada estrato están dados por la asignación óptima 1 2 3 0, 6383 126, 75 126 0,1873 37,19 37 0,1744 34, 63 34 n n n n n n = = ≈ = = ≈ = = ≈ 126 37 34 197 n = + + = o bien resolviendo la ecuación 1 1 2 2 3 3 600 c n c n c n + + = donde i i n n ω = 1 1 2 2 3 3 600 c n c n c n ω ω ω + + = 1 1 2 2 3 3 600 600 198, 57 3, 0216 n c c c ω ω ω = = = + + A partir de n se obtienen los i i n n ω = según la asignación óptima. 48 Ejemplo 3.4 (Ejercicio 2, práctica 3) Continuando con el ejemplo 3.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa. Solución: a) i N i p i q i i i N p q i i i N p q 210 84 126 0,4667 0,8333 0,6667 0,5333 0,1667 0,3333 52,2671 11,6685 27,9986 104,7669 31,3075 59,3955 420 91,9342 195,4699 2 2 0, 05 0, 000625 4 4 B D = = = ( ) 2 3 2 1 3 2 2 1 195, 4699 188, 98 420 0, 000625 91, 9342 ( ) i i i i i i i i N p q n N D N p q = = = = = × + + ∑ ∑ 1 1 1 1 1 3 1 104, 7669 188, 98 101, 29 102 195, 4699 i i i i N p q n n n N p q ω = = = = = ≈ ∑ análogamente 2 3 30, 27 31 57, 42 58 102 31 58 191 n n n = ≈ = ≈ ⇒ = + + = b) i N i p i q i i i N p q 210 84 126 0,5 0,5 0,5 0,5 0,5 0,5 52,5 21 31,5 420 105 ( ) 1 1 105 204, 878 105 1 420 0, 000625 420 L i i i i L i i i i N p q n ND N p q N = = = = = × + + ∑ ∑ 1 210 204, 878 102, 439 103 420 n = = ≈ análogamente 2 3 40, 98 41 61, 46 62 n n = ≈ = ≈ 103 41 62 206 n = + + = 49 El muestreo estratificado no siempre conduce a un estimador con menor error de estimación, esto suele ocurrir cuando los estratos no incluyen datos homogéneos. Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo, en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. Este problema queda bien ilustrado con el siguiente ejemplo. Ejemplo 3.5 (Ejercicio 1, relación tema 3) Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a 1 1 20 0, 20 4 N n n N = = × = de forma similar 2 3 4 6 5 5 n n n = = = . Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550 490 500 470 520 550 500 540 480 500 470 470 450 560 460 440 580 2 1 1 507, 5 1091, 67 y S = = 2 2 2 505 750 y S = = 2 3 3 492 870 y S = = 2 4 4 498 4420 y S = = Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Solución: 3 1 2 4 0, 20 0, 30 0, 25 0, 25 N N N N N N N N = = = = ( ) ( ) ( ) ( ) 4 4 1 1 1 0, 20 507, 5 0, 30 505 0, 25 492 0, 25 498 500, 5€ i i st i i i i N y N y y N N = = = = = × + × + × + × = ∑ ∑ Obsérvese que cuando se utiliza la asignación proporcional st y y = , efectivamente 20 1 1 10010 500, 5€ 20 i i y y n = = = = ∑ 50 En la siguiente expresión consideramos los c.p.f. en cada estrato iguales a la unidad 2 2 2 2 2 4 4 2 2 2 2 1 1 1 1 ( ) i i i i i i i i st i i i i i i i S N n N S N S V y N N n N N n N n = = = | | − = = = = | \ . ∑ ∑ ∑ 2 2 2 2 1091, 67 750 870 4420 0, 20 0, 30 0, 25 0, 25 88, 29 4 6 5 5 | | | | | | | | = + + + = | | | | \ . \ . \ . \ . 2 ( ) 18, 79 € st V y = Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es 20 1 1 500, 5 € i i y y n = = = ∑ que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente, pero la varianza estimada y error de estimación asociados toman los valores (se omite el c.p.f.): 2 1 1520, 79 n S − = 2 1 1520, 79 ( ) 76, 04 20 n S N n V y n N − − = = = 2 ( ) 17, 44 € V y = Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple, esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares, esto es, colocando los hogares pequeños en un estrato, los medianos en otro, ... 3.5 Estratificación después de seleccionar la muestra. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.e. estratos según sexo y entrevista telefónica). Supóngase una muestra aleatoria simple de n personas para una encuesta. La muestra puede ser dividida en 1 n masculinos y 2 n femeninos después de que ha sido realizada. Entonces en lugar de usar y para estimar µ , podemos usar st y siempre que i N N sea conocido para todo i. Obsérvese que en esta situación los i n son aleatorios, ya que varían de una muestra a otra aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido, 51 pero si i N N es conocido y 20 i n ≥ i ∀ , entonces este método de estratificar después de la selección es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. Si i N N se desconoce o no se puede tener una buena aproximación de su valor, este método no debe usarse. Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0,60=60/100) está muy alejada de la proporción verdadera (0,30), es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple. Además el procedimiento se justifica pues tanto 1 n como 2 n superan 20. 1 2 5730 2080 95, 5€ 52€ 60 40 y y = = = = 2 2 1 1 1 (0, 30 95, 5) (0, 70 52) 65, 05€ i i st i i i i N y N y y N N = = = = = × + × = ∑ ∑ 2 2 2 2 2 2 2 2 1 1 1 ( ) i i i i i i i i st i i i i i i S N n N S N n V y N N n N N n N = = − − = = ∑ ∑ omitiendo el coeficiente corrector por poblaciones finitas se tiene 2 2 2 2 2 2 2 2 2 2 2 1 1 200 90 ( ) 0, 30 0, 70 159, 225 60 40 i i i i st i i i i N S N S V y N n N n = = | | | | | | = = = + = | | | \ . \ . \ . ∑ ∑ 2 ( ) st V y =25,24€ A veces este método de estimación se utiliza para ajustar por no respuesta. Por ejemplo, si muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la proporción de varones en la muestra va a ser pequeña, y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. 52 Así, en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza m.a.s. y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: 5730 2080 7810 78,10€ 60 40 100 y + = = = + EJERCICIOS RESUELTOS 1. (Ejercicio 10, relación tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. SOLUCIÓN: a. i N i n i y 2 i S i i N y i i i N n N − 2 2 i i i i i i S N n N n N − 164 186 24 36 972 463 202,396 96,721 159.408 86.118 0,854 0,806 193.699,13 74.925,32 350 245.526 268.624,45 1 1 245.526 701, 50 350 L i st i i y N y N = = = = ∑ 2 2 2 2 1 1 268.624, 45 ( ) 2,19 350 L i i i i st i i i S N n V y N N n N = − = = = ∑ 2 2,19 2, 96 = 53 b. 2 463 y = 2 2 2 2 2 2 2 96, 721 186 36 ( ) 2,17 36 186 S N n V y n N − − = = = 2 2,17 2, 94 = 2. (Ejercicio 11, relación tema 3) Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: 1 1 1 1 1 1 1 1 20.000 3.028, 624 1784, 81 33.937, 726 L L L L i i i i i i i i i i i i i L L L L i i i i i i i i i i i i i N N N N C C C C c c c c n N c N c N c N c σ σ σ σ σ σ = = = = = = = = × = = = = = = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ 1 1 2 2 1 2 1.784,81 0, 9397 1677, 2 1677 1.784, 81 0, 0603 107, 59 107 1784 n n n n n n n ω ω = = × = ≈ = = × = ≈ = + = O bien 1 1 2 2 1 1 2 2 20.000 20.000 9, 397 1, 809 11, 206 20.000 20.000 1.784, 8 11, 206 c n c n c n c n n n n n ω ω + = + = + = = = = Y a partir de n se obtienen n 1 y n 2 como antes. i N i c i i N c i i N c i ω 9.000 1.000 10 30 2.846,05 182,574 28.460,5 5.477,226 2.846,05/3.028,624=0,9397 182,574/3.028,624=0,0603 10.000 3.028,624 33.937,726 1,0000 54 3. (Ejercicio 12, relación tema 3) Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos i n ∑ = n i i y 1 2 i S 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. SOLUCIÓN: 1 2 3 239 174 78 9, 56 9,16 4,87 25 19 16 y y y = = = = = = ( ) ( ) ( ) 1 1 1 0, 425 9, 56 0, 30 9,16 0, 275 4, 87 8,15 L L i i st i i i i N y N y y N N = = = = = × + × + × = ∑ ∑ 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 1 1 1 ( ) 60, 77 63, 01 78, 24 0, 425 0, 30 0, 275 1,107 25 19 16 L L L L i i i i i i i i i i i i st i i i i i i i i i i N n S N n S N S N S Si V y N N N N n N N n N n N n = = = = − − | | = ⇒ = = = = = | \ . | | | | | | = + + = | | | \ . \ . \ . ∑ ∑ ∑ ∑ 2 1,107 2,1 = 4. (Ejercicio 6, relación tema 3) Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 i N 240 190 350 220 i n 25 25 25 25 i y 3,5 3,6 3,9 3,8 i S 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) 55 SOLUCIÓN: a) 2 2 2 1 1 1 1 1 1000 3, 725 ( ) 0, 00973 L L L i i i i i i st i st i i i i i S N n N N y N y V y N N N n N = = = − = = = = = = ∑ ∑ ∑ ( ) 2 ( ) 0,1973 3, 5277 , 3, 9223 st B V y µ = = ∈ b) 3 3 3 3 4 1 350 1, 2 100 100 (240 0, 8) (190 0, 9) (350 1, 2) (220 0, 7) 100 0, 4482 44,82 45 i i i N n n N σ ω σ = × = = = = × + × + × + × = × = ≈ ∑ 5. (Ejercicio 20, relación tema 3) Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de empresa Número de empresas Costes de observación Gastos de reparación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación óptima. Usamos que R≈4σ y por tanto estimamos que 4 R σ ≈ . i N i c i c i R i σ i i i N c σ i ω 100 500 700 16 9 4 4 3 2 600-400 360-240 130-70 50 30 15 1250 5000 5250 0’1087 0’4348 0’4565 11500 1 600 = 16n 1 + 9n 2 + 4n 3 ( n i = ω i n ) 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n 56 n = 600/7’4784 = 80’231 n 1 = ω 1 n = 8’72 ≈ 8 n 2 = ω 2 n = 34’88 ≈ 34 n 3 = ω 3 n = 36’63 ≈ 36 C = (16×8) + (9×34) + (4×36) = 578 < 600 pero C’ = (16×9) + (9×35) + (4×37) = 607 > 600 6. (Ejercicio 13, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES i N 2.500 2.700 i n 100 400 i y 120 250 2 i S 9.000 16.000 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: i N i n i y 2 i S i i N y i i i N n N − 2 2 i i i i i i S N n N n N − 2.500 2.700 100 400 120 250 9.000 16.000 300.000 675.000 0,96 0,85185 540.000.000 248.399.460 5.200 500 975.000 788.399.460 1 1 975.000 187, 5 5.200 L i st i i y N y N = = = = ∑ 2 2 2 2 1 1 788.399.460 ( ) 29,16 5.200 L i i i i st i i i S N n V y N N n N = − = = = ∑ 2 29,16 10, 8 = 7. (Ejercicio 14, relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante 57 una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. SOLUCIÓN: 1 2 12 130 0, 24 0, 52 1 50 250 i i p p q p = = = = = − ( ) ( ) 1 1 1 0, 50 0, 24 0, 50 0, 52 0, 38 38% L L i i st i i st i i N p N p p p N N = = = = = × + × = ⇒ = ∑ ∑ 2 2 2 2 2 2 2 1 1 1 1 2 2 1 1 1 ( ) 1 1 1 1 0, 24 0, 76 0, 52 0, 48 0, 50 0, 50 0, 0011812146 49 249 i i i L L L L i i i i i i i i i i i i i i st i i i i i i i i i N n Si N p q p q p q p q N n N N V p N N N n N N n N n N n = = = = − = ⇒ − | | = = = = = | − − − − \ . × × | | | | = + = | | \ . \ . ∑ ∑ ∑ ∑ 2 ( ) 0, 0687 6, 87% st V p = ⇒ 8. (Ejercicio 15, relación tema 3) Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros Técnicos Administrativos 2 i S 36 25 9 i N 132 92 27 58 SOLUCIÓN: i N i i S σ ≈ i i Nσ i ω 132 92 27 6 5 3 792 460 81 792 0, 5941 1.333 = 460 0, 3451 1.333 = 81 0, 0608 1.333 = 1.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: 1 j j j L i i i N N σ ω σ = = ∑ 1 2 3 40 0, 5941 23, 8 24 40 0, 3451 13, 8 14 40 0, 0608 2, 4 2 40 n n n n = × = ≈ = × = ≈ = × = ≈ = 9. (Ejercicio 16, relación tema 3) Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. SOLUCIÓN: i N i c i p i q i i p q i i i i N p q c i ω 5.000 2.000 3.000 3 5 4 0,90 0,55 0,70 0,10 0,45 0,30 0,3 0,4975 0,45826 500 199 343,695 500 0, 4795 1.042, 695 = 199 0,1909 1.042, 695 = 343, 695 0, 3296 1.042, 695 = 1.042,695 1 Donde se ha aplicado la asignación óptima: 1 j j j j j L i i i i i p q N c p q N c ω = = ∑ 1 2 3 200 0, 4795 95, 9 96 200 0,1909 38, 2 38 200 0, 3296 65, 9 66 200 n n n n = × = ≈ = × = ≈ = × = ≈ = 10. (Ejercicio 19, relación tema 3) La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación. Omita el coeficiente corrector por población finita. 59 SOLUCIÓN: Estrato i N i n i p 1 i i i p q n − A B 0.40 N × 0.60 N × 67 133 2/67=0.030 6/133=0.045 0.000441 0.000326 N 200 ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 0.40 0.030 0.60 0.045 0.40 0.030 0.60 0.045 0.039 3.9% p N N N = × × + × × = × + × = ( ) ( ) ( ) ( ) 2 2 2 2 2 1 0.40 0.000441 0.60 0.000326 V p N N N = × × + × × = ( ) ( ) ( ) 2 2 0.40 0.000441 0.60 0.000326 0.000188 = × + × = ( ) 2 0.000188 0.0274 2.74% B = = 11. (Como ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 3 son defectuosos. De entre las piezas muestreadas de la operación B, 13 son defectuosas. Estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. SOLUCIÓN ( ) 1 1 1 3 13 0, 60 0, 40 0,155 15, 5% 20 80 L L i i st i i i i N p N p p N N = = | | | | = = = + = | | \ . \ . ∑ ∑ 2 2 2 2 2 1 1 1 1 ( ) 1 1 1 L L L i i i i i i i i i i i st i i i i i i i p q p q p q N n N N V p N N n N N n N n = = = | | − = = = = | − − − \ . ∑ ∑ ∑ ( ) ( ) 2 2 0,15 0,85 0,1625 0, 8375 0, 60 0, 40 0, 00267 19 79 × × = + = ( ) 2 ( ) 0,103 10, 3% st V p = 12. (Ejercicio 18, relación tema 3) Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando 60 Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. SOLUCIÓN: Peso en gramos ( ) con las funciones del modo SD de la calculadora 12, 14, 12, 15, 12 2 1 1 1, 4142 2 S S = = 16, 22, 24, 20, 20, 18 2 2 2 2,8284 8 S S = = 30, 33, 31, 34 2 3 3 1, 8257 3, 3333 S S = = i N i σ 2 i σ i i Nσ 2 i i Nσ 1 j j j L i i i N N σ ω σ = = ∑ 71, 66 i i n ω = 300 500 200 1,4142 2,8284 1,8257 2 8 3,3333 424,26 1414,2 365,14 600 4000 666,66 0,1925 0,6418 0,1657 13, 79 14 ≈ 45, 99 46 ≈ 11,87 12 ≈ 1000 N = 2203,6 5266,66 1 72 n = 2 2 250.000 0, 0625 4 4.000.000 B D N = = = 2 1 2 2 1 71, 66 ( ) L i i i L i i i N n N D N σ σ = = = = + ∑ ∑ 13. (Ejercicio 3, relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. 61 b. Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a. 18 0,18 (18%) 100 p = = ( ) 0, 001491 1 pq V p n = = − ( ) 2 ( ) 0, 0772 7, 72% V p = b. ( ) 1 1 1 2 16 0, 60 0, 40 0,14 14% 20 80 L L i i st i i i i N p N p p N N = = | | | | = = = + = | | \ . \ . ∑ ∑ 2 2 2 2 2 1 1 1 1 ( ) 1 1 1 L L L i i i i i i i i i i i st i i i i i i i p q p q p q N n N N V p N N n N N n N n = = = | | − = = = = | − − − \ . ∑ ∑ ∑ ( ) ( ) 2 2 0,10 0, 90 0, 20 0, 80 0, 60 0, 40 0, 00203 19 79 × × = + = ( ) 2 ( ) 0, 0901 9, 01% st V p = c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( 2 0, 20 p = ) frente al de A ( 1 0,10 p = ). En el apartado b. este hecho se corrige dando a 1 p y 2 p las ponderaciones 0,60 y 0,40 respectivamente para estimar p. 14. (Ejercicio 4, relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: 1 1 2 2 3 3 21, 2 12 13, 3 11 26,1 9 y S y S y S = = = = = = a. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. 62 b. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. SOLUCIÓN: a. 1 1 3834 19,17 / 200 L i st i i y N y pedidos semana N = = = = ∑ 2 2 2 1 1 ( ) 6, 2965 2 ( ) 5, 02 / L i i i i st st i i i S N n V y N V y pedidos semana N n N = − = = = ∑ b. i N i σ 2 i σ i i Nσ 2 i i Nσ 1 j j j L i i i N N σ ω σ = = ∑ 43, 52 i i n ω = 100 70 30 12 11 9 144 121 81 1200 770 270 14400 8470 2430 0,5357 0,3438 0,1205 23, 31 24 ≈ 14, 96 15 ≈ 5, 24 6 ≈ 200 N = 2240 25300 1 45 n = 2 9 2, 25 4 4 B D = = = 2 1 2 2 1 43, 52 ( ) L i i i L i i i N n N D N σ σ = = = = + ∑ ∑ 63 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 4.1 Introducción. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende estimar el total sin conocer el número de elementos de la población y sí el valor total de la variable que proporciona la información auxiliar Denotemos por → Y Variable bajo estudio → X Variable que proporciona la información auxiliar Y supongamos que tenemos una muestra constituida por n pares: ( ) ) , ( ,..., , 1 1 n n y x y x A través de los datos muestrales se puede estimar la relación existente entre ambas variables. Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar. Aquí suponemos que el muestreo que se emplea es el aleatorio simple Ejemplo 4.1. Ya que existe una fuerte relación entre renta y ahorro, se puede estimar el valor total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la décima parte del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el número de empleados de la empresa. Dependiendo de la relación entre las variables X e Y utilizaremos: • Estimadores de razón ( ) y bx = 64 • Estimadores de regresión ( ) y a bx = + • Estimadores de diferencia ( ) y a x = + Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una fuerte relación lineal positiva ( 2 1 > xy r ). 4.2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y , se define la razón como el cociente: x y R τ τ = Es decir, la proporción del total de Y respecto del total de X . Puesto que y y Nµ τ = y x x Nµ τ = , obtenemos X Y R µ µ = De estas definiciones se deduce que x y x y R R µ µ τ τ = = Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R r = ): ˆ ˆ y x y x r r τ τ µ µ = = Puesto que la razón R es el cociente entre las medias poblacionales, tomando una muestra aleatoria simple: ( ) ( ) n n x y x y , ,..., , 1 1 , podemos estimar R tomando el cociente entre las medias muestrales: • ESTIMADOR DE LA RAZÓN: 1 1 1 1 1 1 n n i i i i n n i i i i y y y n r x x x n = = = = = = = ∑ ∑ ∑ ∑ • VARIANZA ESTIMADA DE r : 2 2 1 ˆ ( ) r x S N n V r n N µ − | | = | \ . , ( ) ∑ = − − = n i i i r rx y n S 1 2 2 1 1 65 4.2.1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal, donde X es la variable explicativa e Y la explicada, pasa por el origen, ( ) , y bx en este contexto se nota b r dado su significado = = • ESTIMADOR DE LA MEDIA: x y rµ µ = ˆ • VARIANZA ESTIMADA DE y µˆ : ( ) | . | \ | − = = N n N n S r V V r x y 2 2 ) ( ˆ ˆ ˆ µ µ • ESTIMADOR DEL TOTAL: x y rτ τ = ˆ Observemos que no es necesario conocer el tamaño de la población N. • VARIANZA ESTIMADA DE y τˆ : | . | \ | − = = N n N n S r V V r x x x y 2 2 2 2 ) ( ˆ ) ˆ ( ˆ µ τ τ τ Comentarios sobre el uso de estos estimadores: • Cuando N es desconocido y si estimamos que N n % 5 ≤ (el tamaño poblacional es más de 20 veces el tamaño de la muestra), es decir que 95 , 0 ≥ − N n N , entonces 1 ≅ − N n N . (Véase ejercicio resuelto 4) • De la relación N x x τ µ = , conociendo dos de esos elementos se puede calcular el tercero. • A la hora de obtener ( ) y V τˆ ˆ , si x µ es desconocida y no podemos utilizar la relación anterior entonces x x ≅ µ . Sin embargo, para estimar y µˆ necesitamos conocer el verdadero valor de x µ . • Son estimadores sesgados. • A la hora de estimar el total, aún conociendo el tamaño de la población, cuando existe una fuerte correlación entre las variables se comporta mejor el muestreo con información auxiliar ( ) x y rτ τ = ˆ que el m.a.s ( ) y N = τˆ . Ejemplo 4.2 (Ejercicio 2, relación tema 4, apartado (a)) Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 66 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 Estime la producción media y total mediante los estimadores de razón y m.a.s., calcule sus respectivos límites para el error de estimación y compárelos. Solución " producción (toneladas, tm)" X "superficie plantada (hectáreas, ha)" Y = = i x i y 2 i x 2 i y i i x y 3,7 12 13,69 144 44,4 4,3 14 18,49 196 60,2 4,1 11 16,81 121 45,1 5 15 25 225 75 5,5 16 30,25 256 88 3,8 12 14,44 144 45,6 8 24 64 576 192 5,1 15 26,01 225 76,5 5,7 18 32,49 324 102,6 6 20 36 400 120 3 8 9 64 24 7 20 49 400 140 5,4 16 29,16 256 86,4 4,4 14 19,36 196 61,6 5,5 18 30,25 324 99 67 5 15 25 225 75 5,9 18 34,81 324 106,2 5,6 17 31,36 289 95,2 5 15 25 225 75 7,2 22 51,84 484 158,4 TOTALES 105,2 320 581,96 5398 1770,2 Del enunciado y de la tabla anterior obtenemos 20 750 socios 3.840 ha x n N τ = = = 2 2 1 1 1 1 1 105, 2 320 581, 96 5398 1770, 2 n n n n n i i i i i i i i i i i x y x y x y = = = = = = = = = = ∑ ∑ ∑ ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 105, 2 1 1 581, 96 5, 26 5, 26 1, 4304 20 20 n n n i x i i i i i x x s x x x x n n n = = = = = = = − = − = − = ∑ ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 320 1 1 5398 16 16 13, 9 20 20 n n n i y i i i i i y y s y y y y n n n = = = = = = = − = − = − = ∑ ∑ ∑ ( )( ) ( ) 1 1 1 1 1770, 2 5, 26 16 4, 35 20 n n xy i i i i i i s x x y y x y x y n n = = = − − = − = − × = ∑ ∑ Si queremos calcular las cuasivarianzas, a partir de las varianzas se tiene: 2 2 2 2 20 20 1, 4304 1, 5057 13, 9 14, 6316 1 19 1 19 x x y y n n S s S s n n = = = = = = − − y hallando las raíces cuadradas obtenemos las desviaciones ( ) , x y s s y cuasidesviaciones típicas ( ) , x y S S . Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas 2 1 n n x x x x x s S σ σ − = = ∑ ∑ de forma inmediata. 1 n n x x s desviación típica S cuasidesviación típica σ σ − = = = = La relación entre las variables es alta 4, 35 0, 9756 1,196 3, 728 xy xy x y s r s s | | = = = | | × \ . . Esto junto con la información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón. Por otra parte, dado el contexto, es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). 68 20 1 20 1 320 3, 042 tm/ha 105, 2 ˆ 3, 042 3.840 11.680, 6 tm i i i i y x y r x r τ τ = = = = = = = × = ∑ ∑ 3840 5,12 / 750 x ha socio x N τ µ = = = ˆ 3, 042 5,12 15, 57 tm/socio y x r µ µ = = × = ( ) 20 20 20 20 2 2 2 2 2 1 1 1 1 1 1 2 0, 706 1 1 r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ ( ) ( ) 2 ˆ ˆ ˆ ˆ 0, 0344 2 0, 37 tm/socio r y y S N n V B V n N µ µ µ − | | = = ⇒ = = | \ . 2 2 2 2 2 ˆ ˆ ˆ ˆ ( ) 19.326, 75 2 ( ) 278, 04 tm x r r y y x S N n S N n V N B V n N n N τ τ τ τ µ − − | | | | = = = ⇒ = = | | \ . \ . o 750 750 0, 37 277, 5 B B tm τ µ = × = × = (no coinciden los dos procedimientos por los errores de redondeo en el valor de B µ ). A continuación lo estimaremos utilizando muestro aleatorio simple. ( ) 2 320 14, 63 750 20 ˆ 16 / 0, 712 20 20 750 S N n y tm socio V y n N − − | | | | = = = = = | | \ . \ . 2 0, 712 1, 69 / B tm socio µ = = 320 ˆ 750 12.000 20 Ny tm τ = = = ( ) 400.539,47 750 20 750 20 63 , 14 750 ˆ ˆ 2 2 2 = | . | \ | − = | . | \ | − = N n N n S N V τ 2 400.539, 47 1.265,76 B tm τ = = o 750 B B τ µ = × Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando estimadores de razón. 4.2.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error de magnitud B ND N n r r + = 2 2 σ σ 69 donde para estimar: • la razón: 4 2 2 x B D µ = • la media: 4 2 B D = • el total: 2 2 4N B D = Comentarios: • 2 r σ se estima utilizando una muestra previa (tamaño ' n ): 2 2 ˆ r r S = σ . • Si x µ es desconcocido, 2 2 ˆ x x = µ Ejemplo 4.3 (Ejercicio 2, relación tema 4, apartado (b)) Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a 0,25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución MEDIA: 2 2 2 2 750 0, 706 0, 25 0, 706 750 4 42, 6 43 socios 4 r r N n B N σ σ × = | | + × | \ . = = ≅ + TOTAL: 2 2 2 2 2 2 2 2 750 0, 706 37, 7 38 socios 200 0, 706 4 4 4 750 r r r r N N n B B N N N σ σ σ σ × = = = = ≅ | | + + + | × \ . Necesitamos al menos 43 socios para cumplir con ambos niveles de error. 4.3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. En el modelo lineal simple bX a Y + = , el método de mínimos cuadrados permite estimar a y b de la siguiente forma: 70 ( )( ) ( ) 1 2 2 2 1 ˆ ˆ ˆ n i i xy xy i n x x i i y y x x s S b s S x x a y bx = = − − = = = − = − ∑ ∑ donde ( ) ( ) ( )( ) ( )( ) 2 2 2 2 1 1 1 1 1 1 1 ; 1 1 1 1 1 n n x i x i i i n n n xy i i xy i i i i i i i S x x s x x n n S x x y y s x x y y x y x y n n n = = = = = = − = − − = − − = − − = − − ∑ ∑ ∑ ∑ ∑ 4.3.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: ( ) ˆ ˆ ˆ ˆ ˆ ˆ yL x x x a b y bx b y b x µ µ µ µ = + = − + = + − • VARIANZA ESTIMADA DE yL µˆ : ( ) | . | \ | − = N n N n S V L yL 2 ˆ ˆ µ siendo 2 L S la varianza residual en el modelo lineal simple: ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 1 1 ˆ 1 2 2 2 n xy L i i y y xy i x s n n S y y b x x s s r n n s n = | | = − + − = − = − | | − − − \ . ∑ • ESTIMADOR DEL TOTAL: yL yL Nµ τ ˆ ˆ = • VARIANZA ESTIMADA DE ˆ yL τ : ( ) ( ) yL yL V N V µ τ ˆ ˆ ˆ ˆ 2 = Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población N. No se puede estimar como x yL b a τ τ ˆ ˆ ˆ + = ya que la recta de regresión no pasa por el punto ( ) y x τ τ , . Ejemplo 4.4 (Ejercicio 3, relación tema 4, apartado (a)) Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 71 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión. Obtenga el límite para el error de estimación. Solución Denotamos (euros)" publicidad en diarios gastos " ; (euros)" diaria ventas " = = X Y Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: 18 establecimientos 1.000 establecimientos 5€ x n N µ = = = 5, 0556€ 138, 889€ x y = = 2 1, 6375 2, 6814 x x s s = ⇒ = 2 2 2 20, 314 412, 654 436, 928 1 y y y y n s s S s n = ⇒ = = = − 27, 7284 xy s = La relación entre las variables es fuerte: 0, 8336 xy r = . ( ) 2 ˆ ˆ 27, 7284 ˆ 10, 341 2, 6814 ˆ ˆ ˆ 138, 314€ 138.314€ yL x xy x yL yL yL y b x s b s N µ µ µ τ µ = + − ↓ = = = = = = ( ) 2 2 2 1 1 141, 6 2 L y xy n S S r n − = − = − ( ) 2 ˆ ˆ 7, 73 L yL S N n V n N µ − | | = = | \ . ( ) ˆ ˆ 2 5, 56 yL B V µ µ = = 1.000 5, 56 5.560€ B N B τ µ = × = × = 4.3.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere la magnitud B 72 ND N n L L + = 2 2 σ σ donde para estimar: • la media: 4 2 B D = • el total: 2 2 4N B D = 2 L σ se estima utilizando una muestra previa (tamaño ' n ): 2 2 ˆ L L S = σ Ejemplo 4.5 (Ejercicio 3, relación tema 4, apartado (b)) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución 2 2 2 2 2 2 1000 141, 6 361, 6 362 1000 141, 6 1000 4 4 1000 L L N n B N N σ σ × = = = ≅ | | + + | × \ . establecimientos. 4.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno. ( ) ( ) y a x ó y y x x a y x d = + = + − = − = Comúnmente se emplea en procedimientos de auditoría. 4.4.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: ( ) d x y x x yD + = − + = µ µ µˆ x y d − = • VARIANZA ESTIMADA DE yD µˆ : ( ) | . | \ | − = N n N n S V D yD 2 ˆ ˆ µ ( ) ( ) ( ) ∑ ∑ = = − − = + − − = n i i n i i i D d d n d x y n S 1 2 1 2 2 1 1 1 1 , donde i i i x y d − = , por tanto 2 D S es la cuasivarianza de los i d . • ESTIMADOR DEL TOTAL: yD yD Nµ τ ˆ ˆ = 73 • VARIANZA ESTIMADA DE YD τˆ : ( ) ( ) yD yD V N V µ τ ˆ ˆ ˆ ˆ 2 = Ejemplo 4.6 (Ejercicio 4, relación tema 4, apartado (a)) Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. (Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de diferencia) Solución Denotamos "gasto diario (euros)" " "ingresos diarios (euros) Y X = ¦ ´ = ¹ Tal y como se explicó en la resolución del ejemplo 4.2 obtenemos: 2 2 2 10 establecimientos 200 establecimientos 500€ 516€ 453, 5€ 115, 797 13.409 115, 738 13.395, 3 14883, 7 13.396, 5 x x x y y y xy n N x y s s s s S s µ = = = ¦ ¦ = = ¦ ¦ = ⇒ = ¦ ´ = ⇒ = ¦ ¦ = ¦ ¦ = ¹ La relación entre las variables es muy fuerte: 2 0, 99958 0, 99916 xy xy r r = = . MUESTREO ALEATORIO SIMPLE 2 2 y 14883, 7 ˆ ˆ 453, 5€ 90.700€ S ˆ ˆ ˆ ˆ V( ) 1.413,94 B 2 V( ) 75,20€ B 200 B =15.040,97€ y S y Ny N n n N µ τ µ µ τ µ µ = = = = = − | | = = = = = × | \ . 74 ESTIMADORES DE RAZÓN ˆ ˆ 0, 879 200 100.000 87.900€ 439, 5€ x x y x y x y r r r x τ µ τ τ µ µ = = = = = = = = ( ) 2 2 2 2 2 1 1 1 1 1 1 2 227, 717 1 1 n n n n r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ ( ) 2 ˆ ˆ 21, 63 9, 3€ r y S N n V B n N µ µ − | | = = ⇒ = | \ . =1.860€ B N B τ µ = × ESTIMADORES DE REGRESIÓN ( ) 2 ˆ ˆ 13.396, 5 ˆ 0, 99907 13.409 ˆ ˆ ˆ 437, 515€ 87.503€ yL x xy x yL yL yL y b x s b s N µ µ µ τ µ = + − ↓ = = = = = = ( ) ( ) 2 2 2 2 1 1 14, 05 2 ˆ ˆ 1, 33 2, 3104€ 462, 09€ L y xy L yL n S S r n S N n V B B NB n N µ τ µ µ − = − = − − | | = = ⇒ = = = | \ . ESTIMADORES DE DIFERENCIA ˆ 62, 5 ˆ ˆ ˆ 437, 5€ 87.500€ yD x yD yD yD d d N µ µ µ τ µ = + ↓ = − = = = (con la calculadora hallamos 1 n σ − sobre las diferencias i d y lo elevamos al cuadrado) ( ) 2 2 1 1 12, 5 1 n D i i S d d n = = − = − ∑ ( ) ( ) 2 ˆ ˆ ˆ ˆ 1,1875 2 2,179 435, 8899 D yD yD S N n V B V B NB n N µ τ µ µ µ − | | = = = = = = | \ . 4.4.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales ND N n D D + = 2 2 σ σ 75 donde para estimar: • la media: 4 2 B D = • el total: 2 2 4N B D = 2 D σ se estima utilizando una muestra previa (tamaño ' n ): 2 2 ˆ D D S = σ Ejemplo 4.7 (Ejercicio 4, relación tema 4, apartado (b)) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución 2 2 2 2 2 200 12, 5 20 establecimientos 300 12, 5 4 4 200 D D N n B N N σ σ × = = = + + × EJERCICIOS RESUELTOS 1. (ejercicio 9, relación tema 4) En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000 Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. SOLUCIÓN (trabajaremos en cientos de euros) i x i y 2 i x 2 i y i i x y 240 310 200 360 125 150 100 175 57.600 96.100 40.000 129.600 15.625 22.500 10.000 30.625 30.000 46.500 20.000 63.000 1110 550 323.300 78.750 159.500 76 1 1 550 500 4 0, 4955 0, 4955 150.000 74.325 € 1110 n i i y x n i i y N n r r cientos de x τ τ = = = = = = = = = × = ∑ ∑ 7.432.500 € y τ = ( ) 2 2 2 2 2 1 1 1 1 1 1 62, 2 2 20, 73 1 1 3 n n n n r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = = | − − \ . ∑ ∑ ∑ ∑ 2 ( ) ( ) 1.285, 4667 2 ( ) 2.267, 568 r y y S V N N n V n τ τ = − = = ( ) 72.057, 432 ; 76.592, 568 € y en cientos de τ ∈ Para expresarlo en € hay que multiplicarlo por cien. 2. (Ejercicio 17, relación tema 4) Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: 25 25 25 2 2 1 1 1 9,1; 2, 6; 2240; 169; 522 i i i i i i i x y x y x y = = = = = = = = ∑ ∑ ∑ Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) 2 2 2 1 1 275 25 3, 5 . / . 2, 6 6, 76 n i i y n i i x x N n r pers hab y y y µ = = = = = = = ≅ = = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 27, 34375 1 1 n n n n r i i i i i i i i i i S x ry x r y r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 1 ( ) ( ) 0,1471 2 ( ) 0, 767 r y N n S V r V r N n µ − = = = 3. (Ejercicio 12, relación tema 4) Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla 3 m 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 77 Estime la media de 3 m /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. SOLUCIÓN: y = consumo de 3 m litros de agua, x = tamaño de la parcela en hectáreas X Y x 2 y 2 xy 50 600 2500 360000 30000 150 1800 22500 3240000 270000 60 750 3600 562500 45000 70 900 4900 810000 63000 100 1100 10000 1210000 110000 120 1400 14400 1960000 168000 80 950 6400 902500 76000 60 700 3600 490000 42000 90 1000 8100 1000000 90000 60 720 3600 518400 43200 840 9920 79600 11053400 937200 3 1 1 9920 11' 81 / 840 n i i n i i y r m hectarea x = = = = = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 1 1 n n n n r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ ( ) 1 11053400 11102297' 56 22136664 2114' 84 9 = + − = 840 84 10 x x µ = = = 2 2 2 1 1 240 2114' 84 ( ) 0' 02877 84 250 10 r x N n S V r N n µ − = = = 2 ( ) 0' 3392 V r = 4. (Ejercicio 1, relación del tema 4) Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 78 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. Obtenga el límite para el error de estimación. SOLUCIÓN: Denotemos por " consumo mensual" X "ingresos mensuales" Y = = De la información muestral obtenemos ∑ ∑ = = = = = 12 1 12 1 euros 46 , 629 . 22 euros 808 . 16 12 i i i i x y n y como información auxiliar sabemos que 1.502.530 x τ = euros. Podemos comprobar que el coeficiente de correlación lineal es alto ( 9677 , 0 = = y x xy xy s s s r ). Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar, en concreto utilizaremos estimadores de razón. 12 1 1 2 1 0, 7 4 27 ˆ 1 . 1 1 6. 0 0 2, 0 7 € i i i i y x y r x r τ τ = = = = = = ∑ ∑ 2 2 2 ˆ ˆ ( ) x r Y x S N n V n N τ τ µ − | | = | \ . ( ) 12 i 1 No conocemos , pero en la ciudad hay muchos hogares, observando < 5% i x N x τ = ↓ ∑ ( ) estimamos que < 5% 1 N n n N N − ↓ ⇒ ≅ 1.885, 79€ x x µ ↓ = = ( ) 12 12 12 12 2 2 2 2 2 1 1 1 1 1 1 2 16.479, 7 1 1 r i i i i i i i i i i S y rx y r x r x y n n = = = = | | ↓ = − = + − = | − − \ . ∑ ∑ ∑ ∑ ˆ ˆ ˆ ˆ ( ) 871.825.002, 67 2 ( ) 59.053, 37€ Y Y V B V τ τ = ⇒ = = 79 5 (Ejercicio 10, relación tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. SOLUCIÓN: N=250, n=5, 12764 x µ = , X=gastos, Y=ingresos ( ) con las funciones del modo SD de la calculadora : 2 632 4095, 5 D d S = = 13396 € yD x d µ µ = + = 3349000 € yD yD N τ µ = = ( ) 2 2 2 2 ( ) 50169875 € 2 ( ) 14166,14 € D D yD yD N n S S V N N N n V N n n τ τ − = = − = = 6. (Ejercicio 6, relación del tema 4) Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. SOLUCIÓN: N=123, n=5, 128200 € x τ = , X=del año anterior, Y=del año actual ( ) con las funciones del modo SD de la calculadora : 5 5 2 1 1 5 5 2 1 1 882 4410 4495700 924 4620 4961400 i i i i i i i i x x x y y y = = = = = = = = = = ∑ ∑ ∑ ∑ i i x y 335500 561600 2400000 1050600 372000 5 1 4719700 i i i x y = = ∑ 80 1 1 1, 047619 n i i n i i y y r x x = = = = = ∑ ∑ 134304, 76 € y x r τ τ = = ( ) 5 5 5 5 2 2 2 2 2 1 1 1 1 1 1 2 1640, 25 1 1 r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ ( ) 2 ( ) 4761314, 071 2 ( ) 4364, 09 r y y S V N N n V n τ τ = − = = ( ) 129940, 67 , 138668, 85 y τ ∈ 7. (Como ejercicio 7, relación del tema 4) Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de la campaña Ventas actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios, determine el tamaño de la muestra para estimar Y τˆ con un límite para el error de estimación de 2.000€, cuando se utiliza el estimador de razón. SOLUCIÓN: N=452, n’=5, X=ventas antes, Y=ventas actuales ( ) con las funciones del modo SD de la calculadora : 5 5 2 1 1 5 5 2 1 1 331, 6 1658 587146 355, 6 1778 671034 i i i i i i i i x x x y y y = = = = = = = = = = ∑ ∑ ∑ ∑ 5 1 5 1 1, 072376 i i i i y y r x x = = = = = ∑ ∑ i i x y 49712 171200 207680 71484 127413 5 1 627489 i i i x y = = ∑ 81 ( ) 5 5 5 5 2 2 2 2 2 1 1 1 1 1 1 2 109, 4775 ' 1 ' 1 r i i i i i i i i i i S y rx y r x r x y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 4, 8947 4 B D N = = 2 2 109, 4775 r r S σ = = 2 2 21, 3 22 r r N n ND σ σ = = ≈ + 82 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 5.4 Determinación del tamaño muestral. 5.1 Selección de una muestra sistemática. Usos. Ventajas. En el muestreo aleatorio simple, la selección de los elementos se efectúa con total aleatoriedad, todas las muestras posibles son igualmente probables y, para ello, se enumeran los N elementos de la población y después se seleccionan al azar los n elementos que han de formar la muestra. Esto, en general, complica el proceso de selección de la muestra. En el muestreo sistemático los elementos de la población se enumeran, o se ordenan. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k elementos de la población. 2. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . En general, k se toma como el número entero menor o igual que el cociente n N : n N k ≤ Nos podemos encontrar con las siguientes situaciones: 1. n N k = entero. Entonces se obtienen exactamente n observaciones. Por ejemplo si 100 = N y 5 = n , entonces 20 = k y aún tomando la ultima observación del primer intervalo (20º), obtenemos 5 observaciones: 20º, 40º,…, 100º. 2. n N no es entero. Veámoslo con un ejemplo. Por ejemplo si 103 = N y 5 = n , entonces 6 , 20 = n N y tomamos 20 = k . Según el punto inicial nos podemos encontrar con estas situaciones: a. Si elegimos, por ejemplo, el 2º como punto inicial, obtendríamos: 2º, 22º, 42º, 62º, 82º, ... 83 Al dividir la población en 5 intervalos de 20 elementos, sobran 3. Si no hay problema de coste podríamos elegir también el 102º y la muestra sería de tamaño 6. b. Si se elige, por ejemplo, la observación 18º como la inicial obtendríamos una muestra de tamaño 5: 18º, 38º, 58º, 78º, 98º 3. N es desconocido. En este caso, la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. N se estima por defecto, así k será menor de lo necesario y, por tanto, el tamaño muestral será mayor o igual de lo requerido. Ventajas del muestreo sistemático frente al aleatorio simple: • En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. (En el m.a.s. se nos juntaría el trabajo si dos números aleatorios fueran consecutivos o muy próximos). Por ejemplo, sería difícil escoger una m.a.s. de 50 personas entre las que pasan por la esquina de una calle, porque no se conoce el tamaño poblacional N hasta que no pasen todas las personas; entonces seleccionaríamos n elementos al azar menores o iguales a N. Pero sí sería fácil, por ejemplo, coger 1 de cada 20 personas que pasen hasta completar la muestra ( 50 = n ) • Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población, mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una zona y descuide otras. Por ejemplo, supongamos que en una fábrica los primeros 500 tubos de escape se fabrican correctamente y los últimos 500 son defectuosos por un problema en la maquinaria. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo, dando una mala estimación de la proporción de defectuosos. El muestreo sistemático, en cambio, selecciona el mismo número de tubos de ambos grupos, dando una estimación mejor. En este caso, donde en cierta medida hay un orden en la población, el muestreo sistemático es mejor que el m.a.s. 84 Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de calidad dentro del proceso de fabricación, los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. 5.2 Estimación de la media, proporción y el total poblacionales • ESTIMADOR DE LA MEDIA POBLACIONAL: ( 1) 1 1 ˆ n sy i j k j y y n µ + − = = = ∑ • VARIANZA ESTIMADA DE sy y : ( ) | . | \ | − = N n N n S y V sy 2 ˆ Comentarios. - Si se desconoce el tamaño poblacional por su gran magnitud, entonces . 1 ≅ − N n N - Cuando N no es múltiplo exacto de n , el estimador es sesgado. Como se puede observar la varianza estimada del estimador de la media es igual que en el muestreo aleatorio simple (véase 5.3 Comparación con el muestreo aleatorio simple). Esto no implica que las varianzas reales sean iguales: ( ) 1 2 − − = N n N n y V σ y ( ) ( ) | | ρ σ 1 1 2 − + = n n y V sy donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática. El tamaño poblacional se desconoce en muchas situaciones prácticas, en las que se sugiere el uso del muestreo sistemático. Cuando N es conocida, podemos estimar el total poblacional. • ESTIMADOR DEL TOTAL POBLACIONAL: sy y N = τˆ • VARIANZA ESTIMADA DE τˆ : ( ) ( ) | . | \ | − = = N n N n S N y V N V sy 2 2 2 ˆ ˆ ˆ τ Ejemplo 5.1 (Ejercicio 3, relación tema 5) Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, los 85 funcionarios decidieron obtener estos datos cada diez días. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día Nº personas que visitan el museo 3 160 13 350 23 225 173 290 ∑ ∑ = = = = 18 1 18 1 2 450 . 321 . 1 ; 868 . 4 i i i i y y Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado. Establezca un límite para el error de estimación. Solución 680 . 48 18 868 . 4 180 ˆ = = = sy y N τ visitantes ( ) ( ) ( ) 2 2 2 2 S N n ˆ ˆ V N n N N 180 4868 1.321.450 n S 289, 79 n 1 ˆ ˆ V 469.461,18 τ τ − | | = | \ . ↓ = | | − | | \ . ↓ = = − = B 1.370, 34 τ = Como en el muestreo aleatorio simple, las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: • ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: ( 1) 1 1 ˆ , 0, 1 n sy i j k i j p y y n + − = = = ∑ • VARIANZA ESTIMADA DE sy pˆ : ( ) | . | \ | − − = N n N n q p p V sy sy sy 1 ˆ ˆ ˆ ˆ Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Esto no quiere decir que las varianzas reales lo sean. Ejemplo 5.2 (Ejercicio 2 (a), relación tema 5) La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. Use los datos de la tabla adjunta para estimar la proporción de 86 conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil Respuesta 1 1 8 1 15 0 2794 1 ∑ = = 400 1 324 i i y Solución 81 , 0 400 324 ˆ = = = sy sy y p ( ) 0364 , 0 B 2 0,00033061 800 . 2 400 800 . 2 1 400 ) 81 , 0 1 ( 81 , 0 1 ˆ ˆ ˆ ˆ = ⇒ = | . | \ | − − − = | . | \ | − − = N n N n q p p V sy sy sy Si la estratificación de la población fuese ventajosa, el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del m.a. simple, aplicándose las fórmulas del m.a. estratificado análogamente a como se han utilizado las del m.a. simple para aproximar el comportamiento del muestreo sistemático. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del m.a. simple. Según las expresiones ( ) 1 2 − − = N n N n y V σ y ( ) ( ) | | ρ σ 1 1 2 − + = n n y V sy éstas serán similares cuando 1 1 N n N − ≅ − y 0 ρ ≅ , pero en otros casos no. Distinguimos los siguientes casos: A. Población ordenada ( ) 0 ≤ ρ Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo con los valores, crecientes o decrecientes, de una determinada característica. En este caso es preferible el uso del muestreo sistemático, ya que la muestra se extiende uniformemente a lo largo de la población: 87 ( ) ( ) y V y V sy ≤ Por ejemplo, en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad, las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el m. sistemático). B. Población aleatoria ( ) 0 ≅ ρ Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que ( ) ( ) y V y V sy ≅ . Por ejemplo, en una lista de estudiantes por orden alfabético, la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante. C. Población periódica ( ) 0 ≥ ρ Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. En este caso es preferible el muestreo aleatorio simple dado que ( ) ( ) y V y V sy > . Por ejemplo: a. Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. b. Ventas diarias de un supermercado con 7 = k Para evitar este problema, el investigador puede cambiar varias veces el punto de inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria, en cuyo caso el uso de las expresiones del m.a.s. en el m. sistemático estaría justificado. 88 5.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene despejando el tamaño muestral de la ecuación: ( ) 2 sy V y B = Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones del muestreo aleatorio simple. Lo anterior conduce a obtener muestras más grandes de las necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no tendremos problemas. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación 2 2 ) 1 ( σ σ + − = D N N n con 2 2 2 B para estimar la media 4 D B para estimar el total 4N ¦ ¦ ¦ ¦ = ´ ¦ ¦ ¦ ¹ Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación Npq n (N 1)D pq = − + con 2 2 2 B para estimar p 4 D B para estimar el total 4N ¦ ¦ ¦ ¦ = ´ ¦ ¦ ¦ ¹ Ejemplo 5.3 (Ejercicio 2 (b), relación tema 5) En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. Solución 0, 81 1 0,19 p q p = = − = ( ) 2 2 5.000 0,81 (1 0, 81) 1.176, 97 1.177 0, 02 ( 1) (5.000 1) 0,81 (1 0, 81) 4 4 Npq n automóviles B N pq × × − = = = ≅ | | − + − + × − | \ . 4, 25 N k n ≤ = 89 Si tomáramos k=5 5000 1000 5 n ⇒ = = . Tomando k=4 5000 1250 1177 4 n ⇒ = = ≥ . EJERCICIOS RESUELTOS 1. (Ejercicio 7, relación tema 5) La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado muestreado Respuesta 3 1 13 0 23 1 1993 1 200 1 110 i i y = = ∑ Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN 2 110 0, 05 2.000 0, 55 1 0, 45 0, 000625 200 4 N p q p D = = = = − = = = 330, 7 331 6, 04 6 ( 1) Npq N n k k N D pq n = = ≈ ≤ = ⇒ = − + 2. (Ejercicio 8, relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. SOLUCIÓN 2 2 2 2 2 21.000 1.000.000 1.000 21.000 27.562.500 250.000 4 4 1.000 N R D σ = = ≅ = = = × 2 2 99, 39 100 10 ( 1) N N n k N D n σ σ = = ≈ = = − + 90 3. (Ejercicio 5 (a), relación tema 5) La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. SOLUCIÓN 1 1 1 ˆ 11.561.610 1.926.935 6 n sy i i y y n µ = = = = = ∑ ( ) ( ) 957,85 4.860.693. ˆ .871,20 37.913.412 años 26 ˆ 2 2 = = ↓ = ↓ | . | \ | − = sy sy y V S N N n N n S y V 139.437,35 B = 4. (Como ejercicio 1, relación tema 5) La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas. Cantidad de llenado en cl 33 32,5 33,5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0,42 cl, considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. SOLUCIÓN: N=1800, n’=6, ( ) con las funciones del modo SD de la calculadora : 2 2 2 ' 1 ' 1 0, 8 n n S S σ − − = = 2 0, 0441 4 B D = = 2 2 1800 17, 97 18 100 ( 1) 18 N n k N D σ σ = = ≈ = = − + 91 5. (Ejercicio 9, relación tema 5) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). SOLUCIÓN: N=650, n’=65, 47 0, 7231 1 0, 7231 0, 2769 65 p q = = = − = 2 0, 05 0, 000625 4 B B D = = = 650 214, 8 215 3, 02 3 ( 1) 215 Npq n k k N D pq = = ≈ ≤ = = − + 92 6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral. 6.1 Necesidad y ventajas del muestreo por conglomerados. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: Es complicado disponer de una lista de los elementos de la población, mientras que es fácil lograr un marco que liste los conglomerados. (Alumnos que asisten a clase = elemento, aulas = conglomerados) El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos. 6.2 Formación de los conglomerados. Conglomerados y estratos. Lo primero que debemos hacer es especificar los conglomerados apropiados. Si los elementos dentro de un conglomerado presentan características similares, entonces tomar muchas observaciones dentro de un conglomerado sería un trabajo no productivo. Sin embargo, si los elementos de un conglomerado son diferentes entre sí, una muestra con pocos conglomerados recogería gran cantidad de información sobre un parámetro poblacional. Nótese que los estratos deben ser tan homogéneos como sea posible, pero un estrato debe diferir tanto como se pueda de otro con respecto a la característica que está siendo medida. Los conglomerados, por otro lado, deben ser tan heterogéneos dentro de ellos como sea posible y un conglomerado debe ser muy similar a otro para que el muestreo por conglomerados esté indicado. Una vez especificados los conglomerados, se selecciona una muestra aleatoria simple de conglomerados. 6.3 Estimación de la media, proporción y total poblacionales. Vamos a utilizar la siguiente notación: N = conglomerados en la población. n =conglomerados en la muestra. 93 i m = elementos en el conglomerado i i y = suma de las observaciones en el conglomerado i 1 N i i M m = = = ∑ elementos en la población (con frecuencia es desconocido) 1 n i i m m = = = ∑ elementos en la muestra 1 1 N i i M m N = = = ∑ tamaño medio de los conglomerados de la población (con frecuencia es desconocido). 1 1 n i i m m n = = = ∑ tamaño medio de los conglomerados de la muestra (se utililza para estimar M . (A) Estimación de la media. El estimador de la media poblacional µ es la media y , 1 1 1 1 n i n i i n i i i y y y m m µ = = = = = = ∑ ∑ ∑ La media y tiene la forma de un estimador de razón, por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón. 2 2 1 ( ) c S N n V y N n M − = donde ( ) 2 2 1 1 1 n c i i i S y ym n = = − − ∑ ( M puede ser estimado por m, si se desconoce) La varianza estimada es sesgada y sería un buen estimador de ( ) V y si n es grande ( 20 n ≥ ). El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( 1 2 ... N m m m = = = ) Notas: • La expresión de 2 2 1 ( ) c S N n V y N n M − = no se suele simplificar pues como ocurre en el ejercicio 4, relación del tema 6, a veces N no se conoce y en otras ocasiones como en este último ejemplo porque M es desconocido y M debe ser estimada por m. 94 • Si la variable que estamos estudiando es dicotómica, hablaremos de la proporción poblacional p y de la proporción muestral p . En este caso al número total de elementos en el conglomerado i que poseen la característica de interés se nota como i a en lugar de i y como es habitual en variables numéricas. Así tendremos que 1 1 n i i n i i a p y m = = = = ∑ ∑ Salvo esta diferencia en la notación, todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. (B) Estimación del total. De la relación entre la media y el total poblacional M τ µ = se sigue que M τ µ = , siendo el estimador del total poblacional τ M y τ = y la varianza estimada del mismo 2 2 ( ) ( ) ( ) c S V M V y N N n n τ = = − (sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque sí al valor del estimador del total) (C) Estimación del total cuando se desconoce el tamaño de la población. Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del total M y τ = , debemos construir un estimador del total que no dependa de M . La cantidad 1 1 n i t i y y n = = ∑ , es el promedio de los totales de los conglomerados de la muestra y por tanto un estimador insesgado del promedio de los N totales de los conglomerados de la población. Por el mismo razonamiento empleado en el muestreo aleatorio simple, t N y es un estimador insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total poblacional τ . 95 En resumen t t N y τ = 2 2 ( ) ( ) ( ) t t t S V N V y N N n n τ = = − donde 2 ( ) t t S N n V y N n − = , ( ) 2 2 1 1 1 n t i t i S y y n = = − − ∑ Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados, la varianza de t N y es generalmente mayor que la varianza de M y . Esto es debido a que el estimador t N y no usa la información proporcionada por los tamaños de los conglomerados y por ello puede ser menos preciso. Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden, además el estimador de la media, y , es un estimador insesgado de la media poblacional, µ , y también es insesgado el estimador de su varianza, ( ) V y (lo mismo se extiende al total). Ejemplo 6.1 (como ejercicio 13, relación tema 6, pero con menos datos) En una urbanización ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. 96 SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación a i en lugar de y i , utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados i m i y 2 i m 2 i y i i m y 8 2 64 4 16 7 2 49 4 14 9 3 81 9 27 6 3 36 9 18 5 3 25 9 15 35 13 255 35 90 a) 1 1 13 0, 3714 37,14% 35 n i i n i i y p y p m = = = = = = = ∑ ∑ ( ) 2 2 2 2 1 1 1 1 2 3, 3222 n n n n i i i i i i i i i i y ym y y y m y m = = = = − = − + = ∑ ∑ ∑ ∑ 2 2 1 1 1 35 255 90 n n n i i i i i i i y m y m = = = = = = ∑ ∑ ∑ ( ) 2 2 1 1 3, 3222 0, 8306 1 4 n c i i i S y ym n = = − = = − ∑ Ya que M es desconocido, M debe ser estimada por m 1 1 35 7 / 5 n i i m m hogares manzana n = = = = ∑ 2 2 1 ( ) 0, 003305 c S N n V y N n M − = = 2 ( ) 0,115 11, 5% V y = b) 1 1 13 2, 6 5 n i t i y y n = = = = ∑ 520 t t N y τ = = ( ) 2 2 2 1 1 2 1 1 0, 3 1 1 n n n i i i t i i i t y y y y n S n n = = = | | − − | \ . = = = − − ∑ ∑ ∑ 2 ( ) ( ) 2.340 t t N N n S V n τ − = = 2 ( ) 96, 75 t V τ = ( ) 423, 25 , 616, 75 c) 557,14 M y τ = = 1500 7, 5 200 M = = 2 2 1 ( ) 0, 0028795 c S N n V y N n M − = = 97 2 ( ) ( ) 6478, 8 V M V y τ = = 2 ( ) 160, 98 V τ = ( ) 396,16 , 718,12 Como puede observarse, el límite para el error de estimación es más pequeño en b) que en c), debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( 2 0, 08 my r = ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. 6.4 Determinación del tamaño muestral. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B 2 2 c c N n ND σ σ = + donde 2 c σ se estima mediante ( ) 2 2 1 1 1 n c i i i S y ym n = = − − ∑ de una muestra previa, siendo 2 2 4 B M D = para la estimación de la media y 2 2 4 B D N = para la estimación del total. Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. Cuando se utiliza t N y para estimar el total, el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por 2 2 t t N n ND σ σ = + 2 2 4 B D N = y 2 t σ se estima mediante ( ) 2 2 1 1 1 n t i t i S y y n = = − − ∑ de una muestra previa (o a partir de una estimación del rango de los valores de i y como 2 2 16 t R σ = ). Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 98 SOLUCIÓN 2 0, 8306 c S = 1 1 35 7 5 n i i M m m n = ≅ = = = ∑ 2 2 2 2 0, 01 7 0, 001225 4 4 B M D × = = = 2 2 154, 4 155 c c N n ND σ σ = = ≈ + EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. SOLUCIÓN i m i y 2 i m 2 i y i i m y 10 8 11 7 13 9 15 8 100 64 121 49 169 81 225 64 130 72 165 56 36 45 334 539 423 2 1 2 1 6.200 700 1, 25 0, 01 4 n i i n i i y B M N y D N m = = = = = = = = ∑ ∑ ( ) 2 2 2 2 2 2 1 1 1 1 1 1 2 1,125 1 1 n n n n c c i i i i i i i i i i S y ym y y m y m y n n σ = = = = | | ≅ = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 96, 92 97 c c N n ND σ σ = = ≈ + manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 99 2. (Ejercicio 2, relación tema 6 pero con menos datos) Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. SOLUCIÓN: a) 57 5 N n = = i m i y 2 i m 2 i y i i m y 51 62 49 73 101 42 53 40 45 63 2601 3844 2401 5329 10201 1764 2809 1600 2025 3969 2142 3286 1960 3285 6363 336 243 24376 12167 17036 1 1 243 0, 7232 72, 32% 336 n i i n i i y p p m = = = = = ⇒ = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 68, 7 1 1 n n n n c i i i i i i i i i i S y pm y p y m p m n n = = = = | | = − = − + = | − − \ . ∑ ∑ ∑ ∑ 2 2 2 336 4515,84 5 M m | | ≈ = = | \ . 2 2 1 ( ) 0, 00278 c S N n V p N n M − = = 2 ( ) 0,1054 10, 54% V p = ⇒ b) 2 2 2 2 2 0, 05 4515, 84 2,8224 4 4 c c B M D S σ × = = = ≈ 2 2 17, 06 18 c c N n ND σ σ = = ≈ + 100 3. (Ejercicio 7, relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (m i ) Ingreso total por conglomerado en € (y i ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 151 residentes 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. 101 NOTA: Repetir este ejemplo con todos los i m iguales (por ejemplo, 6 i m i = ∀ , supongamos conocido 6 415 2.490 M = × = ) y estime el total por los dos métodos estudiados ( ) t t M y N y τ τ = = . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta por la dificultad de trabajar con cantidades muy grandes) 1 1 1.329.000 8.801, 32 € / 151 n i i n i i y y residente m µ = = = = = = ∑ ∑ ( ) 2 2 2 2 1 1 1 1 2 n n n n i i i i i i i i i i y ym y y y m y m = = = = − = − + ∑ ∑ ∑ ∑ 2 2 1 96.000 ... 82.039.000.000 n i i y = = + = ∑ 2 2 1 8 ... 1.047 n i i m = = + = ∑ ( ) 1 96.000 8 ... 8.403.000 n i i i y m = = × + = ∑ ( ) 2 2 1 1 15.227.502.247 634.501.213, 40 1 24 n c i i i S y ym n = = − = = − ∑ Ya que M es desconocido, M debe ser estimada por m 1 1 151 6, 04 / 25 n i i m m residente bloque n = = = = ∑ 2 2 1 ( ) 653.785,19 c S N n V y N n M − = = 2 ( ) 1.617,14€ V y = b) 1 1 1.329.000 53160 € / 25 n i t i y y bloque n = = = = ∑ 22.061.400 € t t N y τ = = 102 ( ) 2 2 2 2 1 1 1 1 1 82.039.000.000 (1.329.000) 11.389.360.000 25 n n n i i i t i i i y y y y n = = = | | − = − = − = | \ . ∑ ∑ ∑ ( ) 2 1 ( ) ( ) 3.072.279.860.000 1 n i t i t y y N N n V n n τ = − − = = − ∑ 2 ( ) 3.505.584, 04 € t V τ = c) 2500 415 25 6, 0241 415 N n M = = = = 22.003.311, 26€ M y τ = = 2 2 2 1 634.501.213, 40 ( ) 657.240, 9482 c c S N n S V y N n M − = = = 2 ( ) ( ) 4.107.755.926.250 V M V y τ = = 2 ( ) 4.053.519, 92 V τ = ( ) 17.949.791, 34€ , 26.056.831,18€ Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con los totales de los conglomerados en este ejemplo ( 2 0, 0919 my r = ). En otras palabras, los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados. d) 2 634.501.213, 40 c S = 2 2 2 2 500 6, 04 2.280.100 4 4 B M D × = = = 2 2 166, 58 167 c c N n ND σ σ = = ≈ + 4. (Ejercicio 10, relación tema 6) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si 103 (a) Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite del error de estimación. (b) Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población, por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas. i y ( ) 2 i t y y − 1 2 9 0 2 0 1 0 4 6 2.25 0.25 42.25 6.25 0.25 6.25 2.25 6.25 2.25 12.25 25 80.5 25 2.5 / 10 t y bajas empresa = = 85 2.5 212.5 t bajas τ = × = 2 2 80.5 85 10 8.94 8.94 ( ) 0.7892157 ( ) 85 ( ) 5702.08 9 85 10 t t t t S V y V V y τ − | | = = ⇒ = = ⇒ = = | \ . 2 5702.08 151.024 B bajas τ = = b) 4 0.40 (40%) 10 p = = 85 10 0.4 0.6 ( ) 0.02353 85 10 1 V p − × = = − 2 0.02353 0.3068 (30.68%) B = = 5. (Como ejercicio 3, relación tema 6) Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 104 Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. SOLUCIÓN: i i m y 121550 143400 153090 1 418040 n i i i m y = = ∑ 2 1 1 2 1 1 3600 60 3 60 178 10594 60 7030 16501100 n n i i i i n n i i i i N n M m m y y = = = = = = = = = = = = ∑ ∑ ∑ ∑ 1 1 39, 49 € n i i n i i y y m µ = = = = = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 2612, 04 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 1 ( ) 0, 23 2 ( ) 0, 96 € c N n S V y V y N n M − = = = 6. (Como ejercicio 4, relación del tema 6) En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33,5 32,5 31 34 2 32,5 32 33 32,5 3 30,5 33 33 33,5 Estime el volumen medio de los envases y la cota del error de estimación. SOLUCIÓN: N=40, n=3, ( ) con las funciones del modo SD de la calculadora : 3 3 2 1 1 4 12 48 i i i i M m m m = = = = = = ∑ ∑ i m i y i i m y 4 4 4 131 130 130 524 520 520 3 1 1564 i i i m y = = ∑ 105 5 5 2 1 1 130, 33 391 50961 i i t i i y y y = = = = = ∑ ∑ 5 1 5 1 32, 5833 i i t i i y y y cl m m µ = = = = = = ∑ ∑ ( ) 3 3 3 3 2 2 2 2 2 1 1 1 1 1 1 2 0, 3333 1 1 c i i i i i i i i i i S y ym y y m y m y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 1 ( ) 0, 006423 2 ( ) 0,1603 c S N n V y V y cl N n M − = = = 7. (Como ejercicio 1, relación del tema 6) Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. SOLUCIÓN: N=100, n=5, ( ) con las funciones del modo SD de la calculadora : 2 1 1 6, 4 32 264 n n i i i i M m m m = = = = = = ∑ ∑ i i m y 150 770 2530 1260 120 1 4830 n i i i m y = = ∑ 106 2 1 1 118 590 90700 n n i i t i i y y y = = = = = ∑ ∑ 5 1 5 1 18, 4375 € i i t i i y y y m m µ = = = = = = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 584, 57 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ 2 2 1 ( ) 2, 7116 2 ( ) 3, 2934 € c S N n V y V y N n M − = = = 8. (Como ejercicio 5, relación del tema 6) Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A, en una elección estatal. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa, se utiliza muestreo por conglomerados, con distritos como conglomerados. Se selecciona una muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: Nº votantes Nº votantes A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. SOLUCIÓN: N=495, n=5, i i m y 877200 738270 399000 1514700 651832 1 4181002 n i i i m y = = ∑ 107 ( ) con las funciones del modo SD de la calculadora : 2 1 1 2 1 1 1260, 2 6301 8270161 638, 6 3193 2183195 n n i i i i n n i i t i i M m m m y y y = = = = = = = = = = = ∑ ∑ ∑ ∑ ( ) 5 1 5 1 0, 506745 50, 67% i i t i i y y p m m µ = = = = = = ∑ ∑ ( ) 2 2 2 2 2 1 1 1 1 1 1 2 17372, 505 1 1 n n n n c i i i i i i i i i i S y ym y y m y m y n n = = = = | | = − = + − = | − − \ . ∑ ∑ ∑ ∑ ( ) 2 2 1 ( ) 0, 00216573 2 ( ) 0, 0930748 9, 31% c S N n V p V y N n M − = = = 108 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 7.1 Estimación del tamaño de la población usando muestreo directo En el muestreo directo se realizan los siguientes pasos: 1. Se selecciona una muestra aleatoria de tamaño t , se marcan y se devuelven a la población. 2. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de antemano) de la misma población y se observa cuántos de ellos están marcados ( s =número de elementos marcados en esta 2ª muestra) Sea p = proporción de elementos marcados en la población, N t p = , p t N = , pero p es desconocido. Entonces estimamos p mediante la proporción muestral: n s p = ˆ = proporción de elementos marcados en la 2ª muestra Por tanto, • ESTIMADOR DE N : s nt n s t p t N = = = / ˆ ˆ | | . | \ | = = aleatoria constantes , s t n • VARIANZA ESTIMADA DE N ˆ : ( ) 3 2 ) ( ˆ ˆ s s n n t N V − = Comentarios s = número de elementos marcados en la 2ª muestra, ha de ser mayor que 0 para que las fórmulas estén bien definidas. Si en la segunda muestra no aparece ningún elemento marcado, se aumenta el tamaño muestral. N ˆ no es un estimador insesgado de N : | | N nt t N N N N E ≠ − + = ) ( ˆ Cuanto mayor sean n y t menor será el sesgo ( ) N t N nt − . 109 N ˆ tiende a sobreestimar el valor real de N . Ejemplo 7.1 (Ejercicio 1, relación tema 7) Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días se atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado que ya hubiera sido marcado se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución 120 100 ˆ 444, 4 27 nt N s × = = = ( ) 2 2 3 3 ( ) 100 120(120 27) ˆ ˆ 5.669, 87 27 t n n s V N s − × − = = = ( ) ˆ ˆ 2 150, 60 B V N = = 7.2 Estimación del tamaño de la población usando muestreo inverso La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está fijado (es aleatorio), lo que se fija es s = número de elementos marcados en la segunda muestra. Los pasos para realizar este método son: 1. Se selecciona una muestra inicial de t elementos, se marcan y se devuelven a la población. 2. Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos marcados (sea n el tamaño final de dicha muestra). • ESTIMADOR DE N : s nt n s t p t N = = = / ˆ ˆ | | . | \ | = = aleatoria constantes , n s t • VARIANZA ESTIMADA DE N ˆ : ( ) ) 1 ( ) ( ˆ ˆ 2 2 + − = s s s n n t N V Comentario. N ˆ es un estimador insesgado de N , por ello, si se pueden aplicar ambos tipos de muestreo se prefiere el inverso. 110 Ejemplo 7.2 (Ejercicio 5, relación tema 7) Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución 160 100 ˆ 1.066, 67 15 nt N s × = = = ( ) 2 2 2 2 ( ) 100 160(160 15) ˆ ˆ 64.444, 44 ( 1) 15 (15 1) t n n s V N s s − × − = = = + + ( ) ˆ ˆ 2 507, 72 B V N = = 7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por cuadros Con este método se estudia el tamaño de la población contenida en un área delimitada A conocida. Los pasos a seguir son: 1. Dividir a la población en N cuadros de igual área a . Sea i m = número de elementos en el cuadro i -ésimo 2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total de elementos que contiene la muestra: ∑ = = n i i m m 1 3. Calcular la densidad de elementos en la muestra (densidad muestral): na m = = muestra la de área muestra la en elementos nº ˆ λ 4. La densidad poblacional es nº elementos en la población área de la población M M Na A λ = = = entonces λ A M = . Por tanto: • ESTIMADOR DE LA DENSIDAD: na m = λ ˆ 111 • VARIANZA ESTIMADA DE λ ˆ : na n a m V 1 ˆ ) ˆ ( ˆ 2 2 λ λ = = • ESTIMADOR DEL TAMAÑO POBLACIONAL: na m A A M = = λ ˆ ˆ • VARIANZA ESTIMADA DE M ˆ : 2 2 2 2 ) ˆ ( ˆ ) ˆ ( ˆ n a m A V A M V = = λ Ejemplo 7.3 (Ejercicio 3, práctica 7) La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: Nº del cuadro Número de aficionados en el cuadro Nº del cuadro Número de aficionados en el cuadro 1 2 3 4 5 6 7 8 9 10 193 216 250 163 209 195 232 174 215 198 11 12 13 14 15 16 17 18 19 20 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. 112 Solución: a) 10 10 100 a = × = 4324 ˆ 2,162 20 100 m na λ = = = × ˆ 2,162 ˆ ˆ ( ) 0, 001081 2 0, 001081 0, 066 2000 V B na λ λ = = = ⇒ = = 2 2,162 (2, 096 , 2, 228) aficionados m λ = b) 2 300 100 30.000 A m = × = ˆ ˆ 30.000 2,162 64.860 M A aficionados λ = = × = 30.000 0, 066 1.980 B AB λ = = × = (62.880 , 66.840) 7.3.2 Muestreo en el espacio temporal En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo con un ejemplo. Ejemplo 7.4 (Ejercicio 7, relación tema 7) Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del error de estimación. Solución 8 = A horas= 480 minutos n =12 intervalos = a 5 minutos m =114 personas 114 1, 9 / 5 12 personas minuto λ = = × ˆ 912 m M A personas na = = 2 2 2 ˆ ˆ ( ) 7.296 170,8 A m V M B a n = = ⇒ = 7.3.3 Cuadros cargados En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza cuando después de hecha la división son muchos los cuadros que no contienen elementos y otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy pequeña. Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos un elemento objeto de estudio. 113 Los pasos a seguir son: 1. Se divide a la población en N cuadros de igual área a . 2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total de cuadros no cargados de la muestra, a este número de cuadros sin presencia de elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero ni n ( n y < < 0 ). Si una vez observada la muestra 0 = y ó n y = , ampliaremos el tamaño muestral 3. La densidad poblacional se estima como 1 ˆ ln a y n λ | | = − | \ . y su varianza como ny y n a V − = 2 1 ) ˆ ( ˆ λ Dado que λ A M = obtenemos • ESTIMADOR DEL TAMAÑO POBLACIONAL: | . | \ | − = = n y a A A M ln ˆ ˆ λ • VARIANZA ESTIMADA DE M ˆ : ny y n a A M V − = 2 2 ) ˆ ( ˆ Ejemplo 7.5 (Ejercicio 4, práctica 7) Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución = A 24-6=18 horas=1.080 minutos n = 40 intervalos a =10 minutos y =18 intervalos sin autobuses 1.080 18 ˆ ln ln 86, 24 10 40 A y M a n | | | | = − = − = | | \ . \ . 2 2 2 2 1.080 40 18 ˆ ( ) 356, 4 37, 8 10 40 18 A n y V M B a ny − − = = = ⇒ = ⋅ 114 EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. SOLUCIÓN: a) 2, 8 10 ˆ 5, 6 . / 10 0, 5 m arb infectados acre na λ × = = = × ; 1 1 ˆ ˆ ˆ ( ) 5, 6 1,12 2,1 10 0, 5 V B na λ λ = = = ⇒ = × b) ˆ ˆ 200 5, 6 1.120; M Aλ = = × = 200 2,1 423, 32 B AB λ = = × = 2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control Número de vehículos de ese modelo que usan el aparcamiento 1 0 2 1 3 2 4 0 5 3 Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. Dé el límite del error de estimación. SOLUCIÓN: 6 720 1 5 . 0 1 2 0 3 6 . 1.2 1.2 . / 5 m A h a h n contr m veh m veh h a λ = = = = + + + + = = = = = 1.2 720 864 . M A veh λ = = × = 115 ( ) 2 124416 A V M an λ = = 2 124416 705.45 . B veh = = 3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos periodos de igual duración, obteniendo los datos de la siguiente tabla clientes 10:00-10:30 14:00-14:30 18:00-18:30 22:00-22:30 02:00-02:30 06:00-06:30 15 13 18 8 2 4 Estime el número de clientes diarios de la farmacia observada y el correspondiente límite para el error de estimación. SOLUCIÓN: 24 0.5 48 6 60 10 A h a h N n m m = = = = = = 480 m M A A clientes a λ = = = ( ) ( ) 2 2 2 3840 2 123, 94 A A m V M V M clientes an a n λ = = = = 4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que el número de personas era 1.100. Estime el número total de asistentes y el límite para el error de estimación. SOLUCIÓN: 4000 40 100 20 1100 55 A a N n m m = = = = = = 5500 m M A A a λ = = = ( ) ( ) 2 2 2 27500 2 331, 66 A A m V M V M an a n λ = = = = 5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la 116 Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. SOLUCIÓN: muestreo inverso 500 382 100 t n s = = = 1910 t nt N alumnos s p = = = ( ) ( ) 2 2 ( ) 26664, 35643 2 326, 58 ( 1) t n n s V N V N alumnos s s − = = = + ( ) 1910 326, 58 ∓ 117 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 8.1 Introducción Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los objetivos de este capítulo son: o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de una variable económica se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de Florence). 8.2 Medidas de desigualdad-concentración regional En esta sección se estudian medidas de desigualdad o concentración que indican si la magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz), o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva). 8.2.1 Curva de Lorenz. Índice de Gini. (Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1) Recordaremos lo más importante y lo ilustraremos con un ejemplo. i N son las frecuencias absolutas acumuladas. i i N p N = es la frecuencia relativa acumulada. ( N =número total de datos) i u =son los totales acumulados. 118 i q =son los totales acumulados relativos. La comparación entre los valores i p y i q nos informa sobre la concentración en el reparto. Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo, coincidirían para todos los i. • En caso de equidistribución ( i i p q i = ∀ ), la curva de Lorenz coincide con la bisectriz del primer cuadrante. • En caso de concentración máxima (todos los individuos reciben nada, 0, 1,..., 1 i q i k = = − , salvo uno que recibe todo, 1 k q = ), la curva de Lorenz coincide prácticamente con los catetos del triángulo determinado por los puntos (0,0), (1,0) y (1,1). • Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como ( ) 1 1 1 1 1 1 1 1 1 k k i i i i i G k k i i i i p q q I p p − − = = − − = = − = = − ∑ ∑ ∑ ∑ • 0 1 G I ≤ ≤ . Si hay equidistribución 0 G I = . Si hay concentración máxima 1 G I = . • Este índice es invariante frente a cambios de escala pero no frente a cambios de origen. • No permite un análisis desagregado como los índices que estudiamos a continuación. Ejemplo 8.0 Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): Regiones VAB (u.m.) R1 2460,5 R2 619,0 R3 613,2 R4 1150,0 R5 1865,0 R6 437,1 R7 661,9 Calcule el índice de Gini y represente la curva de Lorenz. 119 VAB i u j q j n i N j p 437,1 437,1 0,0560 1 1 0,1429 613,2 1050,3 0,1345 1 2 0,2857 619,0 1669,3 0,2138 1 3 0,4286 661,9 2331,2 0,2986 1 4 0,5714 1150,0 3481,2 0,4459 1 5 0,7143 1865,0 5346,2 0,6848 1 6 0,8571 2460,5 7806,7 1,0000 1 7 1,0000 7806,7 2,8337 7 4,0000 1 1 1 1 1, 8337 1 1 0, 3888 3 k i i G k i i q I p − = − = = − = − = ∑ ∑ 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1429 0,2857 0,4286 0,5714 0,7143 0,8571 1,0000 p q 8.2.2 Coeficiente de Theil. Índice de Theil. El coeficiente de Theil se basa en la entropía o medida del desorden, 1 ( ) ln N N i i j H x x x = = − ∑ , para cuantificar el parecido o la diferencia entre sí de los datos a analizar. Supongamos una población divida en N regiones o estratos distintos. Cada una de las regiones aporta un valor de una variable económica X, 0 X ≥ Regiones i X i x 1 1 X 1 x N N X N x 1 N i j X = ∑ 1 120 Donde i x =proporciones de la variable respecto del total= 1 i N i i X X = ∑ El coeficiente de Theil es, por definición, 1 ln ln N i i i T N x x = = + ∑ Nota Si algún 0 i x = , por definición tomamos ln 0 i i x x = . Ejemplo 8.1 Supongamos un país con 7 regiones. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.m.): Regiones i X VAB (u.m.) i x ln i i x x R1 2460,5 0,315 -0,364 R2 619,0 0,079 -0,201 R3 613,2 0,079 -0,200 R4 1150,0 0,147 -0,282 R5 1865,0 0,239 -0,342 R6 437,1 0,056 -0,161 R7 661,9 0,085 -0,210 7806,7 1 -1,760 el coeficiente de Theil es: ln 7 1, 760 0,1859 T = − = . Propiedades 1. Si existe equidistribución entonces 1 ln ln N i i i x x N = − = ∑ y 0 T = 2. Si existe concentración máxima entonces 1 ln 0 N i i j x x = − = ∑ y ln T N = 3. 0 ln T N ≤ ≤ (En el ejemplo 8.1, T es más cercano a 0 que a ln7=1,946, por tanto, está más cerca de la equidistribución que de la concentración máxima). 4. El coeficiente de Theil permite un análisis desagregado. Sea X =variable observada en las N regiones y 1 ,..., N x x = valores porcentuales (proporciones) en cada región. Supongamos que X se agrupa en k grupos: 1 ,..., k G G , con 1 ,..., k N N regiones en cada uno de ellos: 1 k g g N N = = ∑ , , 1,..., g g i i G x x g k ∈ = = ∑ y ln ln g i i g g i G g g x x T N x x ∈ | | = + | | \ . ∑ . Entonces 121 1 1 ln ln k k g g g g g g g x T N x x T N = = | | = + + | | \ . ∑ ∑ donde o 1 ln ln k g g g g x N x N = | | + | | \ . ∑ representa la desigualdad entre grupos. Mide la disparidad entre grupos teniendo en cuenta el tamaño de cada grupo g N en relación al peso del grupo g x en la variable económica observada. o 1 k g g g x T = ∑ representa la desigualdad dentro de los grupos. Es la media de los coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo. Ejemplo 8.2 Realicemos un análisis desagregado con los datos del ejemplo 8.1. Supongamos que dividimos las regiones en dos grupos: Regiones grupo 1 i x R2 0,079 R3 0,079 R6 0,056 R7 0,085 ( ) 1 1 0, 299 i g i G x x = ∈ = = ∑ Regiones grupo 2 i x R1 0,315 R4 0,147 R5 0,239 ( ) 2 2 0, 701 i g i G x x = ∈ = = ∑ Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente coeficiente de Theil: ln ln g i i g g i G g g x x T N x x ∈ | | = + | | \ . ∑ donde i g x x es el valor porcentual dentro del grupo. 122 Regiones grupo 1 i x ( ) 1 i g x x = ln i i g g x x x x | | | | \ . R2 0,079 0,264 -0,352 R3 0,079 0,264 -0,352 R6 0,056 0,187 -0,314 R7 0,085 0,284 -0,358 ( 1) g x = = 0,299 1 -1,375 1 ln 4 1, 375 0, 0113 T = − = Regiones grupo 2 i x ( ) 2 i g x x = ln i i g g x x x x | | | | \ . R1 0,315 0,449 -0,359 R4 0,147 0,210 -0,328 R5 0,239 0,341 -0,367 ( 2) g x = = 0,701 1 -1,054 2 ln3 1, 054 0, 0446 T = − = o Desigualdad entre grupos: 2 1 0, 299 0, 701 ln ln ln 7 0, 299ln 0, 701ln 4 3 g g g g x N x N = | | | | | | + = + + = | | | | \ . \ . \ . ∑ 1, 9459 0, 7755 1, 0192 0,1512 = − − = o Desigualdad dentro de los grupos: ( ) ( ) 2 1 0, 299 0, 0113 0, 701 0, 0446 0, 0346 g g g x T = = + = ∑ de esta forma: 0,1512 0, 0346 0,1858 T = + = En términos relativos: 0,1512 0, 0346 0, 8138 0,1862 1 0,1858 0,1858 0,1858 T = + = + = De la desigualdad existente en las siete regiones, el 81,38% es debido a la desigualdad entre grupos. Si tuviésemos que tomar medidas económicas para disminuir, aún más, la desigualdad, actuaríamos en esa dirección, tratando de limar las diferencias entre los dos grupos (esta es una de las ventajas del análisis desagregado, permite determinar el origen de las diferencias existentes entre las regiones). 123 Índice de Theil 1 1 ln ln ln 1 ln ln ln N N i i i i i i T THEIL N x x x x T I I N N N = = + = = = = + ∑ ∑ Es evidente que 0 1 THEIL I ≤ ≤ , y este hecho facilita comparaciones. El 0 indica equidistribución y el 1 concentración máxima. Ejemplo 8.3 0,186 0, 0956 ln 7 THEIL I = = Reparto cercano a la equidistribución. 8.2.3 Desigualdad individual y desigualdad colectiva El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al colectivo. Para una variable X , que solo toma valores positivos, se define la desigualdad individual de la región i-ésima respecto al colectivo como: 1, 1,..., i i i i x X x d i N X X − = = − = Es una medida adimensional. Indica la proporción en que el colectivo supera a la región i- ésima i X x < ⇔ la región i-ésima posee una desigualdad individual positiva i X x > ⇔ la región i-ésima posee una desigualdad individual negativa i X x = ⇔ la región i-ésima posee una desigualdad individual cero Ejemplo 8.4 Regiones i X VAB (u.m.) i d R1 2460,5 -0,547 R2 619 0,802 R3 613,2 0,819 R4 1150 -0,030 R5 1865 -0,402 R6 437,1 1,551 R7 661,9 0,685 7806,7 2,878 124 7806, 7 1115, 243 7 x = = Si se agregan las desigualdades individuales, ponderadas cada una de ellas por la frecuencia relativa de i X , se obtiene la desigualdad colectiva: 1 N i i i D d f = = ∑ D aumenta cuando en la población existen mayores desequilibrios. Sin embargo, no existe una cota superior para D ya que su máximo depende del tamaño de la población. Ejemplo 8.5 Con los datos del ejemplo 8.4: 7 7 1 1 1 2, 878 0, 411 7 7 i i i i i D d f d = = = = = = ∑ ∑ (Realmente, por si sola no dice nada, pero la podemos comparar con el reparto de otra variable). Esta medida permite un análisis desagregado. Denotemos por: N → Número de elementos en la población (regiones) x → Media de todos los elementos de la población. k → Número de subpoblaciones o grupos. g N →Número de elementos en el grupo , g 1,..., g k = g x → Media del grupo g g g i g i i G i x X D f X ∈ − = → ∑ Desigualdad colectiva en el grupo g g g g x x d x − = → Desigualdad individual del grupo g en relación a todos los grupos (toda la población). D, entonces, se puede calcular como suma de la desigualdad existente entre los grupos considerados más una media ponderada de las distintas desigualdades colectivas dentro de cada grupo o subpoblación: 1 1 1 k k g g g g g g g N x D d N D N N x = = = + ∑ ∑ 125 o 1 1 k g g g d N N = ∑ → Representa la desigualdad entre las subpoblaciones o grupos. o 1 k g g g g N x D N x = → ∑ Representa la desigualdad dentro de las subpoblaciones o grupos. Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo. Ejemplo 8.6 Regiones grupo 1 VAB (u.m.) 1 i i x x x − R2 619 -0,058 R3 613,2 -0,050 R6 437,1 0,333 R7 661,9 -0,120 2331,2 0,106 1 2331, 2 582,8 4 x = = 1 1 1 1 1 1 1 0,106 0, 0265 4 4 i i i i G i G i i x x x x D f x x ∈ ∈ − − = = = = ∑ ∑ 1 1 1 1115, 243 582,8 0, 9136 582, 8 x x d x − − = = = Regiones grupo 2 VAB (u.m.) 2 i i x x x − R1 2460,5 -0,258 R4 1150 0,587 R5 1865 -0,021 5475,5 0,308 2 5475, 5 1825,167 3 x = = 2 2 2 2 2 1 1 0, 308 0,1027 3 3 i i i i G i G i i x x x x D f x x ∈ ∈ − − = = = = ∑ ∑ 2 2 2 1115, 243 1825,167 0, 389 1825,167 x x d x − − = = = − Resumiendo: 7806, 7 1115, 243 7 x = = 126 Grupos g N g x g D g d g g g N D x g g d N 1 4 582,8 0,0265 0,9136 0,000182 3,6544 2 3 1825,167 0,1027 -0,389 0,000169 -1,167 0,000351 2,4874 1 1115, 243 2, 4874 0, 000351 0, 355 0, 056 0, 411 7 7 D | | | | = + = + = | | \ . \ . En términos relativos, 0, 355 0, 056 0,8637 0,1363 1 0, 411 0, 411 + = + = La desigualdad es debida a la diferencia entre subpoblaciones o grupos. 8.3 Medidas de dispersión regional En general, se puede utilizar cualquier medida de dispersión para estudiar las disparidades entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser considerada homogénea). Las más utilizadas son: o Varianza: ( ) ( ) 2 1 1 N i i V X X x N = = − ∑ o Varianza normalizada: ( ) ( ) 2 2 ( ) coef. de variacion de Pearson V X VN X x = = Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o polarizadas), les pueden corresponder una misma dispersión. 8.4 Coeficiente de asociación geográfica de Florence Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y , cuando se dispone de un valor de cada una de ellas en cada una de las N regiones consideradas para el estudio. Supuestos conocidos para cada una de las regiones el par ( ) , i i X Y , entonces la participación de cada valor de la variable sobre el total es: 1 i i N i i X x X = = ∑ e 1 i i N i i Y y Y = = ∑ 1 1 0 , 1 1 i i N N i i i i x y x y = = ≤ ≤ | | | | = = | \ . ∑ ∑ El coeficiente de asociación geográfica de Florence es: 1 1 1 2 N i i i F x y = = − − ∑ 127 Sus propiedades son: 1. 0 1 F ≤ ≤ 2. En situación de igualdad, , 1,..., 1 i i x y i N F = = ⇒ = . 3. En situación de desigualdad máxima 0. F ⇒ = 4. A medida que aumenta la asociación entre las variables, el coeficiente también aumenta. Ejemplo 8.7 (Ejercicio 1, Relación Tema 8) Sabemos que en un año el PIB a precios de mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. PIB (u.m.) Superficie (1000 km 2 ) i x i y i i x y − Alemania 826,4 248,7 0,2558 0,1104 0,1454 Bélgica 104,5 30,5 0,0323 0,0135 0,0188 Dinamarca 76,4 43,1 0,0236 0,0191 0,0045 España 216,2 504,8 0,0669 0,2240 0,1571 Francia 674,8 544 0,2089 0,2414 0,0325 Grecia 42,8 132 0,0132 0,0586 0,0453 Holanda 165,3 41,2 0,0512 0,0183 0,0329 Inglaterra 595 244,1 0,1842 0,1083 0,0759 Irlanda 24,1 68,9 0,0075 0,0306 0,0231 Italia 473 301,3 0,1464 0,1337 0,0127 Luxemburgo 4,7 2,6 0,0015 0,0012 0,0003 Portugal 27,3 92,1 0,0085 0,0409 0,0324 Total 3230,5 2253,3 1 1 0,5810 12 1 1 1 1 1 0, 5810 0, 7095 2 2 i i i F x y = | | = − − = − = | \ . ∑ 128 EJERCICIOS RESUELTOS 1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: región i X 1 i i N i i X x X = = ∑ ln i x ln i i x x R1 80 0,3265 -1,1192 -0,3655 R2 15 0,0612 -2,7932 -0,1710 R3 100 0,4082 -0,8961 -0,3658 R4 50 0,2041 -1,5892 -0,3243 suma 245 1,0000 -1,2266 1 ln ln 0,1597 N i i i T N x x = = + = ∑ 0,1152 ln T THEIL T I I N = = = 2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: 61,25 x = Región i X 1 i i x d X = − R1 80 -0,2344 R2 15 3,0833 R3 100 -0,3875 R4 50 0,2250 suma 245 2,6865 1 1 1 1 1 2, 6865 0, 6716 4 4 4 N N N i i i i i i i D d f d d = = = = = = = = ∑ ∑ ∑ 129 3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 R2 R3 R4 80 15 100 50 350 70 450 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. Solución: región i X i Y 1 i i N i i X x X = = ∑ 1 i i N i i Y y Y = = ∑ i i x y − R1 80 350 0,3265 0,3125 0,01403 R2 15 70 0,0612 0,0625 0,00128 R3 100 450 0,4082 0,4018 0,00638 R4 50 250 0,2041 0,2232 0,01913 suma 245 1120 1,0000 1,0000 0,0408 1 1 1 0, 97959 2 N i i i F x y = = − − = ∑ 130 9. Medidas de localización espacial. 9.1 Introducción. 9.2 Cocientes de localización y especialización. 9.3 Coeficientes de localización sectorial. 9.4 Coeficientes de especialización regional. 9.5 Coeficientes de diversificación. 9.1 Introducción Las medidas de localización espacial son indicadores que miden la actividad de distintos sectores económicos en un conjunto de regiones en referencia a una variable económica. Consideremos un conjunto de L sectores repartidos en N regiones. Dispondremos de una tabla de doble entrada con las regiones por filas y los sectores por columnas: Región/Sector 1 S 2 S L S i Y i 1 R 11 Y 12 Y 1L Y 1 Y i 2 R 21 Y 22 Y 2L Y 2 Y i N R 1 N Y 2 N Y NL Y N Y i j Y i 1 Y i 2 Y i L Y i Y siendo ij Y →valor de la variable en la región i del sector j, 1,..., ; 1,..., i N j L = = 1 L i ij j Y Y = = → ∑ i suma de los valores de todos los sectores en la región i 1 N j ij i Y Y = = → ∑ i suma de los valores de todas las regiones en el sector j 1 1 1 1 N L N L i j ij i j i j Y Y Y Y = = = = = = = → ∑ ∑ ∑∑ i i suma de los valores de todas las regiones y todos los sectores. Ejemplo 9.1 (lo usaremos a lo largo de todo el tema) Sea Y = VAB al coste de los factores (u.m.) 131 Región/Sect Agricultura Industria Servicios Total (Reg) R1 282 723,6 1.454,9 2.460,5 R2 31 294,6 287,6 613,2 R3 117,9 1.526,9 2.497,6 4.142,4 R4 145,8 390,5 42,7 579 Total (Sect) 576,7 2.935,6 4.282,8 7.795,1 9.2 Cocientes de localización y especialización ij j Y Y → i participación de la región i en el sector j (cocientes de los valores de la columna j sobre su total) i Y Y → i participación de la región i en la población (cocientes de los valores de la columna marginal sobre su total) ij i Y Y → i participación del sector j en la región i (cocientes de los valores de la fila i sobre su total) j Y Y → i participación del sector j en la población (cocientes de los valores de la fila marginal sobre su total) Se define el cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) como: / / 100 100 / / ij i ij j ij j i Y Y Y Y L Y Y Y Y = = i i i i Interpretación de la primera igualdad: Es la relación que existe entre la participación del sector j en la región i y la participación del sector j en el total. (Localización del sector j). Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la región i en el sector j y la participación de la región i en el total. (Especialización de la región i) Si 100: ij L < o existe una menor actividad del sector j en la región i que en toda la población ó o existe una menor participación de la región i en el sector j que en toda la población 132 Si 100: ij L > o existe una mayor actividad del sector j en la región i que en toda la población ó o existe una mayor participación de la región i en el sector j que en toda la población Ejemplo 9.2 Con los datos del ejemplo 9.1. 13 3 13 1 / 1.454, 9/ 4.282, 8 100 100 107, 64 / 2.460, 5/ 7.795,1 Y Y L Y Y = = = i i El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está más especializada en servicios que en el conjunto de todas las actividades. Los cocientes de localización (o especialización) para estos datos son: Región/Sect Agricultura Industria Servicios R1 154,916 78,091 107,623 R2 68,333 127,572 85,365 R3 38,471 97,878 109,740 R4 340,370 179,088 13,423 Por columnas se interpreta los cocientes de localización de los respectivos sectores: la actividad agrícola está más asentada en la R4, la industrial en la R4 y los servicios en la R3. Por filas se interpreta los cocientes de especialización de cada región: La R1 está más especializada en agricultura, la R2 en industria, la R3 en servicios y la R4 en agricultura. NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9.1 compárese con los anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en términos relativos. 9.3 Coeficientes de localización sectorial Para cada sector se puede definir una medida que permite conocer su localización en el conjunto de las regiones consideradas. Se trata de conocer si un sector concreto se distribuye por igual en todas las regiones, si sólo se encuentra localizado en una región o si ocurre alguna situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). El coeficiente de localización del sector j-ésimo se define como: 1 1 , 1,..., 2 N ij i j i j Y Y CL j L Y Y = = − = ∑ i i Propiedades 1. 0 1 j CL ≤ ≤ 133 2. 0 j CL = si la participación de la región i en el sector j es igual a la participación de la región i en el total, y eso ocurre en todas las regiones. Es decir, no existe concentración regional de la actividad j. El sector está presente en cada una de las regiones igual que todos los sectores en conjunto (véase ejercicio resuelto 1). 3. 1 j CL = si las diferencias entre los cocientes ij j Y Y i y i Y Y i son altamente significativas, la presencia del sector j en cada una de las regiones es completamente distinta de la presencia de todos los sectores en conjunto (véase ejemplo 9.4). Este coeficiente caracteriza al sector i dentro del marco regional, pero no implica una nota definitoria en ninguna región en especial. Ejemplo 9.3 Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los ejemplos anteriores) Agricultura Industria Servicios Total (Reg) i Y Y i R1 282 723,6 1454,9 2460,5 0,316 R2 31 294,6 287,6 613,2 0,079 R3 117,9 1526,9 2497,6 4142,4 0,531 R4 145,8 390,5 42,7 579 0,074 Total (Sect) 576,7 2935,6 4282,8 7795,1 1 Agricultura Industria Servicios 1 1 i Y Y i 1 1 i i Y Y Y Y − i i 2 2 i Y Y i 2 2 i i Y Y Y Y − i i 3 3 i Y Y i 3 3 i i Y Y Y Y − i i 0,489 0,173 0,246 0,069 0,340 0,024 0,054 0,025 0,100 0,022 0,067 0,012 0,204 0,327 0,520 0,011 0,583 0,052 0,253 0,179 0,133 0,059 0,010 0,064 1 0,704 1 0,161 1 0,152 1 0, 704 0, 352 2 1 0,161 0, 0805 2 1 0,152 0, 076 2 Ag Ind Serv CL CL CL = = = = = = Existe una cierta concentración, aunque no muy alta en la agricultura. La concentración es débil en servicios e industria. 134 Ejemplo 9.4 Calcule los coeficientes de localización sectorial para los siguientes datos S1 S2 R1 0 1 R2 0 1 R3 1000 0 S1 S2 i Y i / i Y Y i R1 0 1 1 0,001 R2 0 1 1 0,001 R3 1000 0 1000 0.998 j Y i 1000 2 Y=1002 / ij j Y Y i S1 S2 R1 0 0,5 R2 0 0,5 R3 1 0 ij i j Y Y Y Y − i i S1 S2 R1 0,001 0,499 R2 0,001 0,499 R3 0,002 0,998 1 2 0, 002 0, 998 CL CL = = 9.4 Coeficientes de especialización regional Para cada región se puede definir una medida que permita conocer su nivel de especialización en algún sector. Se trata de conocer si una región concreta está especializada en alguna actividad, en todas las actividades por igual o bien se da una situación intermedia, siempre en relación al patrón global o medio (véase ejercicio resuelto 1). Se define el coeficiente de especialización de la región i como: 135 1 1 , 1,..., 2 L ij j i j i Y Y CE i N Y Y = = − = ∑ i i Propiedades 1. 0 1 i CE ≤ ≤ 2. 0 i CE = si en la región i está presente cada sector en la misma proporción que en el conjunto de la población. 3. 1 i CE = cuando existe un alto grado de especialización de la región i. Situación análoga a la de 1 j CL = pero referida a regiones en lugar de a sectores. Ejemplo 9.5 Región/Sect Agricultura Industria Servicios Total (Reg) R1 282 723,6 1454,9 2460,5 R2 31 294,6 287,6 613,2 R3 117,9 1526,9 2497,6 4142,4 R4 145,8 390,5 42,7 579 Total (Sect) 576,7 2935,6 4282,8 7795,1 Agricultura Industria Servicios j Y Y i 0,074 0,377 0,549 1 1 1 j Y Y i 0,115 0,294 0,591 1 R1 1 1 j j Y Y Y Y − i i 0,041 0,083 0,042 0,165 2 2 j Y Y i 0,051 0,480 0,469 1 R2 2 2 j j Y Y Y Y − i i 0,023 0,104 0,080 0,208 3 3 j Y Y i 0,028 0,369 0,603 1 R3 3 3 j j Y Y Y Y − i i 0,046 0,008 0,054 0,107 4 4 j Y Y i 0,252 0,674 0,074 1 R4 4 4 j j Y Y Y Y − i i 0,178 0,298 0,476 0,951 136 1 2 3 4 1 1 0,165 0, 0825; 0, 208 0,104; 2 2 1 1 0,107 0, 0535; 0, 951 0, 4755 2 2 R R R R CE CE CE CE = = = = = = = = La región más especializada es la R4. 9.5 Coeficientes de diversificación Este coeficiente mide el grado de diversificación de las actividades de una región. El grado de diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye uniformemente entre los distintos sectores. Si una región tiene un bajo coeficiente de diversificación es porque su producción se concentra mucho en un determinado sector y por tanto dicha producción está poco diversificada. La diversificación de una región será mínima cuando una sola actividad esté presente en ella. Para la región i-ésima, la varianza correspondiente a los valores 1 2 , ,..., i i iL Y Y Y de la variable en los L sectores 2 2 2 1 1 1 1 L L i ij ij j j S Y Y L L = = | | = − | \ . ∑ ∑ podría considerarse una medida de tal diversificación. Si existe diversificación máxima, es decir, todos los sectores tienen el mismo valor ( ) , 1,..., ij Y cte j L = = entonces 2 2 2 2 2 2 1 1 1 1 1 1 0 L L L L i ij ij ij ij j j j j S Y Y L Y Y L L = = = = | | | | = ⇒ = ⇒ = | | \ . \ . ∑ ∑ ∑ ∑ Teniendo en cuenta esto, el coeficiente de diversificación de la región i se define como: 2 2 1 2 2 1 1 , 1,..., L ij j i i L L ij ij j j Y Y CD i N L Y L Y = = = | | | \ . = = = ∑ ∑ ∑ i y verifica 1 1 i CD L ≤ ≤ , alcanzando 1 L si la diversificación es mínima y 1 si la diversificación es máxima. Para normalizar este coeficiente entre cero y uno, se define * 1 1 i i L CD CD L L | | = − | − \ . . 137 Ejemplo 9.6 ( ) 2 3 2 1 1 3 2 2 2 2 1 1 2.460, 5 0, 742 3 282 723, 6 1.454, 9 3 ij j R j j Y CD Y = = | | | \ . = = = + + ∑ ∑ 2 3 4 * * * * 1 2 3 4 0, 735; 0, 666; 0, 636 0, 61; 0, 6025; 0, 499; 0, 454 R R R R R R R CD CD CD CD CD CD CD = = = = = = = La menos diversificada es la región R4. EJERCICIOS RESUELTOS. 1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos SECTOR REGION S1 S2 S3 S4 R1 15 165 30 195 R2 10 110 20 130 R3 6 66 12 78 138 Participación de las regiones en cada sector y en la población total SECTOR REGION S1 S2 S3 S4 población R1 0,4839 0,4839 0,4839 0,4839 0,4839 R2 0,3226 0,3226 0,3226 0,3226 0,3226 R3 0,1935 0,1935 0,1935 0,1935 0,1935 Participación de los sectores en cada región y en la población total SECTOR REGION S1 S2 S3 S4 R1 0,0370 0,4074 0,0741 0,4815 R2 0,0370 0,4074 0,0741 0,4815 R3 0,0370 0,4074 0,0741 0,4815 población 0,0370 0,4074 0,0741 0,4815 Cocientes de localización y especialización ij L SECTOR REGION S1 S2 S3 S4 R1 100,00 100,00 100,00 100,00 R2 100,00 100,00 100,00 100,00 R3 100,00 100,00 100,00 100,00 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 j CL 0 0 0 0 Coeficientes de especialización regional REGION i CE R1 0 R2 0 R3 0 Coeficientes de diversificación de cada región REGION i CD * i CD R1 0,6178 0,49 R2 0,6178 0,49 R3 0,6178 0,49 2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. 139 b) Calcule los coeficientes de especialización para cada comunidad. Solución: Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas. datos SECTOR REGION S1 S2 S3 Yi. R1 10000 65000 20000 95000 R2 3000 18000 14000 35000 R3 19000 30000 8000 57000 R4 15000 60000 90000 165000 Y.j 47000 173000 132000 352000 Calculamos la participación de las regiones en cada sector ij j Y Y i y la participación en toda la población i Y Y i en la siguiente tabla participación región SECTOR REGION S1 S2 S3 población R1 0,2128 0,3757 0,1515 0,2699 R2 0,0638 0,1040 0,1061 0,0994 R3 0,4043 0,1734 0,0606 0,1619 R4 0,3191 0,3468 0,6818 0,4688 suma 1 1 1 1 Calculamos la participación de los sectores en cada región ij i Y Y i y la participación en toda la población j Y Y i en la siguiente tabla participación sector SECTOR REGION S1 S2 S3 suma R1 0,1053 0,6842 0,2105 1 R2 0,0857 0,5143 0,4000 1 R3 0,3333 0,5263 0,1404 1 R4 0,0909 0,3636 0,5455 1 población 0,1335 0,4915 0,3750 1 A partir de la tabla de participación de las regiones calculamos las diferencias en valor absoluto ij i j Y Y Y Y − i i en la siguiente tabla. La suma de cada columna dividida por dos nos da el coeficiente de localización sectorial 1 1 , 1,..., 2 N ij i j i j Y Y CL j L Y Y = = − = ∑ i i Coeficientes de localización sectorial SECTOR REGION S1 S2 S3 R1 0,0571 0,1058 0,1184 R2 0,0356 0,0046 0,0066 R3 0,2423 0,0115 0,1013 R4 0,1496 0,1219 0,2131 CLj 0,2423 0,1219 0,2197 140 A partir de la tabla de participación de los sectores calculamos las diferencias en valor absoluto ij j i Y Y Y Y − i i en la siguiente tabla. La suma de cada fila dividida por dos nos da el coeficiente de especialización regional 1 1 , 1,..., 2 L ij j i j i Y Y CE i N Y Y = = − = ∑ i i Coeficientes de especialización regional SECTOR REGION S1 S2 S3 CEi R1 0,0283 0,1927 0,1645 0,192733 R2 0,0478 0,0228 0,025 0,047808 R3 0,1998 0,0348 0,2346 0,234649 R4 0,0426 0,1278 0,1705 0,170455 3. (ejercicio 5, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: REG./SEC. S1 S2 S3 i Y i R1 15 225 195 435 R2 6 90 78 174 j Y i 21 315 273 609 ij j Y Y i S1 S2 S3 i Y Y i R1 0,7143 0,7143 0,7143 0,7143 R2 0,2857 0,2857 0,2857 0,2857 suma 1 1 1 1 ij i j Y Y Y Y − i i S1 S2 S3 R1 0 0 0 R2 0 0 0 1 1 2 N ij i j i j Y Y CL Y Y = = − ∑ i i 0 0 0 La participación de cada una de las regiones en el sector j, ( j ∀ , 0 j CL = ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 141 4. (ejercicio 6, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: REG./SEC. S1 S2 S3 i Y i R1 60 225 150 435 R2 24 90 60 174 j Y i 84 315 210 609 ij i Y Y i S1 S2 S3 suma R1 0,1379 0,5172 0,3448 1 R2 0,1379 0,5172 0,3448 1 j Y Y i 0,1379 0,5172 0,3448 1 ij j i Y Y Y Y − i i S1 S2 S3 1 1 2 L ij j i j i Y Y CE Y Y = = − ∑ i i R1 0 0 0 0 R2 0 0 0 0 La presencia de cada sector en la región i, ( i ∀ , 0 i CE = ) es igual a la presencia de cada sector en el conjunto del país (todas las regiones). Cada región se especializa en la misma medida que el conjunto del país. 5. (ejercicio 7, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. S1 S2 S3 i Y i 2 i Y i R1 90 300 195 585 342225 R2 36 120 78 234 54756 142 2 ij Y S1 S2 S3 2 1 L ij j Y = ∑ 2 2 1 i i L ij j Y CD L Y = = ∑ i * 1 1 i i L CD CD L L | | = − | − \ . R1 8100 90000 38025 136125 0,838016529 0,75702479 R2 1296 14400 6084 21780 0,838016529 0,75702479 6. (ejercicio 8, relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: REG./SEC. S1 S2 S3 i Y i 2 i Y i R1 90 0 0 90 8100 R2 30 30 30 90 8100 2 ij Y S1 S2 S3 2 1 L ij j Y = ∑ 2 2 1 i i L ij j Y CD L Y = = ∑ i * 1 1 i i L CD CD L L | | = − | − \ . R1 8100 0 0 8100 0,333333333 0 R2 900 900 900 2700 1 1 En la región norte (R1) el grado de diversificación es mínimo, * 0 i CD = , esto ocurre cuando una sola actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, * 1 i CD = , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30). 143 10. Contrastes 2 χ de Pearson. 10.1 Contrastes 2 χ de bondad de ajuste. 10.2 Contrastes 2 χ de independencia. 10.3 Contrastes 2 χ de homogeneidad. 10.1 Contraste 2 χ de bondad de ajuste. Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de probabilidad dada. Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X dividida en k clases exhaustivas y mutuamente excluyentes: S 1 , S 2 , ..., S k El contraste a realizar es: H 0 : X sigue una distribución de probabilidad conocida. n i =nº de observaciones en la clase i-ésima. E i =np i =nº esperado de observaciones en la clase i-ésima bajo H 0 . Definimos el estadístico: ( ) 2 2 1 k i i i i n E E χ = − = ∑ Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla como sigue: n i | | 0 i i p P x S bajo H = ∈ i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − S 1 . . . S k n 1 . . . n k 1 p . . . k p 1 np . . . k np ( ) 2 1 1 n E − . . . ( ) 2 k k n E − ( ) 2 1 1 1 n E E − . . . ( ) 2 k k k n E E − n 1 n 2 χ Se puede demostrar que bajo H 0 , 2 2 1 k χ χ − → (NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado. Véase ejemplo 10.3). Si existe una concordancia perfecta entre las frecuencias que se observan y las que se esperaban, el estadístico tendrá un valor cero, y no se puede rechazar H 0 , tampoco se rechaza 144 si las diferencias son pequeñas. Por otro lado, si el estadístico toma un valor grande es que hay discrepancia entre unas y otras frecuencias y habrá que rechazar H 0 . Fijado un nivel de significación α , rechazamos H 0 si 2 2 1,1 k α χ χ − − > Ejemplo 10.1 (ejercicio 1, relación tema 10) ▼ El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( 05 . 0 = α ). Solución H 0 : 1 2 3 4 5 1 ( ) 5 p p p p p distribución discreta uniforme = = = = = H 1 : las frecuencias no son todas iguales. n i 0 i p bajo H i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − L M X J V 49 35 32 39 45 1/5 1/5 1/5 1/5 1/5 40 40 40 40 40 81 25 64 1 25 2,025 0,625 1,6 0,025 0,625 200 1 200 2 4, 9 χ = 1 α − α 2 1,1 k α χ − − Acepto H 0 Rechazo H 0 145 2 2 1,1 4, 0'95 9, 49 k α χ χ − − = = (4,9<9,49) no existe razón para creer que el número de empleados que acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana. ▄ Condición de validez del test. Si los valores i E son pequeños, 2 χ puede hacerse grande sin razón. Este contraste es apropiado siempre que 5 i E i > ∀ . Si esto no ocurre tendríamos que combinar clases vecinas, pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la distribución del estadístico. Ejemplo 10.2 (ejercicio 2, relación tema 10) ▼ En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( 0, 05 α = ) Solución X=nº de llegadas al cajero/día. H 0 : (0, 9) X →P En las tablas de la Poisson se buscan las probabilidades | | | | 4 0,..., 3 4 i p P X i i p P X = = = = ≥ n i 0 i p bajo H i i E np = 0 X = 1 X = 2 X = 3 X = 4 X ≥ 21 18 7 3 1 0,4066 0,3659 0,1647 0,0494 0,0134 20,33 18,3 8,24 2,47<5 0,67<5 50 1 50 ≅ Se agrupan la segunda, tercera y cuarta clase 146 n i 0 i p bajo H i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 X = 1 X = 2 X ≥ 21 18 11 0,4066 0,3659 0,2275 20,33 18,3 11,38 0,4489 0,09 0,1444 0,02208 0,004918 0,012689 50 1 50 ≅ 2 0, 0397 χ = 2 3 1, 0'95 5, 99 χ − = , luego acepto H 0 . No podemos rechazar que los datos provengan de una distribución de Poisson de parámetro 0,9. Esta conclusión nos permite afirmar que el cajero es muy poco utilizado ya que el nº medio de llegadas esperadas por día es menor de 1. ▄ Hasta ahora se ha contrastado la hipótesis de que los datos están generados por una distribución completamente conocida. Sin embargo, a veces sucede que queremos contrastar la hipótesis de que los datos están generados por alguna distribución (p.e. Binomial, Poisson o Normal), sin suponer que los parámetros de dicha distribución son conocidos. En tales circunstancias, los datos de que disponemos pueden utilizarse para estimar los parámetros desconocidos, pero en el contraste los grados de libertad de la chi-cuadrado se reducirán en una unidad por cada parámetro de la distribución que tenga que ser estimado. Ejemplo 10.3 (ejercicio 8, relación tema 10) ▼ Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? Solución X= personas que requieren diariamente información 73 2, 7 / 27 X personas día λ = = = H 0 : (2, 7) X →P n i 0 i p bajo H i i E np = 0 X = 1 X = 2 X = 3 X = 4 X = 5 X ≥ 2 4 5 8 5 3 0,0672 0,1815 0,2450 0,2205 0,1488 0,1370 1,8144<5 4,9005<5 6,615 5,9535 4.0176<5 3,699<5 27 1 27 147 n i 0 i p bajo H i i E np = ( ) 2 i i i n E E − 1 X ≤ 2 X = 3 X = 4 X ≥ 6 5 8 8 0,2487 0,2450 0,2205 0,2858 6,7149 6,615 5,9535 7,7166 0,0761 0,3943 0,7035 0,0104 27 1 27 2 1,1843 χ = 2 2 4 1 1, 0'95 2, 0'95 5, 99 χ χ − − = = , (1,18<5,99) luego acepto H 0 . ▄ 10.2 Contraste 2 χ de independencia. Con este contraste se desea estudiar si dos características (variables aleatorias) X e Y son independientes. Para ello, las frecuencias absolutas de las parejas de datos muestrales se recogen en una tabla de doble entrada denominada tabla de contingencia X \ Y 1 B 2 B . c B i n • 1 A 2 A . r A 11 n 12 n . 1c n 21 n 22 n . 2c n . . . . 1 r n 2 r n . rc n 1 n • 2 n • . r n • j n • 1 n • 2 n • . c n • n ij n = nº de elementos de la muestra que pertenecen a la categoría i A de X y j B de Y. 1 c i ij j n n • = = ∑ = nº de elementos que pertenecen a la categoría i A de X. 1 r j ij i n n • = = ∑ = nº de elementos que pertenecen a la categoría j B de Y. n = nº de elementos en la muestra. El contraste a realizar es: H 0 : X e Y son independientes. H 1 : X e Y no son independientes. Ejemplo 10.4 (ejercicio 9, relación tema 10) ▼ La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante 148 30 ≤ 30 > A B C 8 12 22 28 44 53 36 56 75 42 125 167 El contraste a realizar es: H 0 : Tipo de producto y edad son independientes (no están asociados). H 1 : No son independientes (están asociados). Si H 0 fuera cierto: ij E = nº esperado de observaciones en la fila i, columna j = i j n n n • • Razonemos con el ejemplo: En la columna 2 (>30) hay un total de 2 125 n • = observaciones, bajo la hipótesis de independencia esas 125 observaciones se tienen que distribuir por filas proporcionalmente al total de cada fila A B C 36/167=0,215 (21,5%) 56/167=0,335 (33,5%) 75/167=0,449 (44,9%) Luego esperaríamos para los mayores de 30 años A B C 125×0,215=125 36 167 = 1 2 n n n • • =26,95 125×0,335=125 56 167 = 2 2 n n n • • =41,92 125×0,449=125 75 167 = 3 2 n n n • • =56,14 ▄ El estadístico para estos contrastes se define como: ( ) 2 2 1 1 r c ij ij i j ij n E E χ = = − = ∑∑ que tiene una distribución 2 2 ( 1)( 1) 0 r c bajo H χ χ − − → . Claramente, la hipótesis de independencia será rechazada cuando las diferencias entre lo observado y lo esperado sean grandes y por tanto el estadístico 2 χ tome valores grandes de acuerdo a la distribución que sigue. Se rechaza H 0 con un nivel de significación α si 2 2 ( 1)( 1); 1 r c α χ χ − − − > Solución (ejemplo 10.4) ▼ En la siguiente tabla se ha colocado entre paréntesis ij E 149 ( ) ij ij n E 30 ≤ 30 > A B C 8 (9,05) 12 (14,08) 22 (18,86) 28 (26,95) 44 (41,92) 53 (56,14) 36 56 75 42 125 167 ( ) 2 ij ij ij n E E − 30 ≤ 30 > A B C 0,1218 0,3073 0,5228 0,0409 0,1032 0,1756 1,27 ( ) ( ) 2 2 2 8 9, 05 53 56,14 ... 1, 27 9, 05 56,14 χ − − = + + = 2 2 (3 1)(2 1); 1 0,05 2; 0,95 5, 99 χ χ − − − = = 1,27<5,99 , luego acepto H 0 , no hay evidencia empírica para rechazar la hipótesis de independencia. ▄ Condición de validez del test: Al igual que en el anterior test de la chi-cuadrado, el contraste es válido siempre que los valores esperados sean mayores que 5, 5 , i j ij n n E i j n • • = > ∀ ∀ Si esto no ocurre, agruparemos dos o más clases consecutivas, bien sean de las variables X o de Y. Al agrupar las clases disminuye los grados de libertad. En todo caso los grados de libertad tienen que ser mayores que 1. Ejemplo 10.5 (ejercicio 10, relación tema 10) ▼ Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? ( ( 0, 05) α = Sueldo\Antigüedad <5 años 5-10 10-20 >20 años i n • 0-500 500-1000 1000-2000 2000-3000 >3000 17 16 4 9 6 5 8 11 8 3 10 9 5 8 4 6 7 2 6 6 38 40 22 31 19 j n • 52 35 36 27 150 150 Solución i j ij n n E n • • = <5 años 5-10 10-20 >20 años 0-500 500-1000 1000-2000 2000-3000 >3000 13,17 13,87 7,627 10,75 6,587 8,867 9,333 5,133 7,233 4,433 9,12 9,6 5,28 7,44 4,56 6,84 7,2 3,96 5,58 3,42 Agrupamos las dos últimas filas y las dos últimas columnas. ( ) ij ij n E <5 años 5-10 >10 años 0-500 500-1000 1000-2000 >2000 17 (13,17) 16 (13,87) 4 (7,627) 15 (17,33) 5 (8,867) 8 (9,333) 11 (5,133) 11 (11,87) 16 (15,96) 16 (16,8) 7 (9,24) 24 (21) ( ) ( ) 2 2 2 17 13,17 24 21 ... 13,10 13,17 21 χ − − = + + = 2 2 (4 1)(3 1); 1 0,05 6; 0,95 12, 59 χ χ − − − = = Luego existen razones para pensar que sueldos y años de antigüedad no son independientes. ▄ 10.3 Contrastes 2 χ de homogeneidad. En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal que una tabla de contingencia pero en las que la situación es diferente. Supongamos que se toman c muestras aleatorias independientes de tamaños 1 2 , , ..., c n n n , respectivamente, de poblaciones 1 , ..., c B B diferentes. Después cada una de las muestras se clasifica de acuerdo a una característica A con r categorías. Los datos se expresan en una tabla como la que sigue: POBLACIONES 1 B 2 B . c B C A T E G O R I A S 1 A 2 A . r A 11 n 12 n . 1c n 21 n 22 n . 2c n . . . . 1 r n 2 r n . rc n 1 n • 2 n • . r n • 1 n 2 n . c n n La tabla ahora no expresa el resultado de observaciones clasificadas según 2 variables, sino muestras independientes de c poblaciones. 151 El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones, es decir, si todas están igualmente distribuidas respecto a las categorías de A, o lo que es lo mismo, si las c muestras proceden de la misma población. H 0 : Las c poblaciones son homogéneas (se distribuyen igual) El estadístico muestral es: ( ) 2 2 1 1 r c ij ij i j ij n E E χ = = − = ∑∑ que tiene una distribución 2 2 ( 1)( 1) 0 r c bajo H χ χ − − → . Se rechaza H 0 con un nivel de significación α si 2 2 ( 1)( 1); 1 r c α χ χ − − − > Ejemplo 10.6 (ejercicio 11, relación tema 10) ▼ A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B BAJA MEDIA ALTA 105 140 255 140 135 225 Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con 0, 01 α = ) Solución ( ) ij ij n E Universidad A Universidad B BAJA MEDIA ALTA 105 (122,5) 140 (137,5) 255 (240) 140 (122,5) 135 (137,5) 225 (240) 245 275 480 500 500 1000 ( ) ( ) 2 2 2 105 122, 5 225 240 ... 6, 966 122, 5 240 χ − − = + + = 2 2 (3 1)(2 1); 1 0,01 2; 0,99 9, 21 χ χ − − − = = Luego la distribución de notas es la misma en las dos universidades. (NOTA: Sin embargo al 5% se rechazaría la hipótesis nula de que la distribución de las notas es la misma en las dos universidades, 2 2 (3 1)(2 1); 1 0,05 2; 0,95 5, 99 χ χ − − − = = ) ▄ 152 Al igual que en los anteriores contrastes de la chi-cuadrado, este test es válido si 5 , i j ij n n E i j n • • = > ∀ ∀ , en caso contrario se agrupan dos o más clases de la variable A pero nunca dos o más muestras j B . EJERCICIOS RESUELTOS 1. (ejercicio 3, relación tema 10) La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel 05 . 0 = α si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 832 0,04979 168,6786 439995,3 2608,4834 1 203 0,14936 506,0358 91830,67 181,470719 2 383 0,22404 759,0536 141416,3 186,306125 3 525 0,22404 759,0536 54781,11 72,1702726 4 532 0,16803 569,2902 1390,561 2,44262314 5 408 0,10082 341,5741 4412,395 12,9178248 6 273 0,05041 170,7871 10447,48 61,1725646 7 139 0,0216 73,19446 4330,369 59,1625291 8 45 0,0081 27,44792 308,0754 11,2239988 9 27 0,0027 9,149307 318,6472 34,8274703 10 10 0,00081 2,744792 52,63804 19,1774227 11 ó más 11 0,00029 0,990438 100,1913 101,15866 3388 1 3388 2 χ = 3350,51361 153 ( 2, 99 x = , lo he calculado para confirmar que la hipótesis nula es lógica) Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5. CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 832 0,04979 168,6786 439995,3 2608,4834 1 203 0,14936 506,0358 91830,67 181,470719 2 383 0,22404 759,0536 141416,3 186,306125 3 525 0,22404 759,0536 54781,11 72,1702726 4 532 0,16803 569,2902 1390,561 2,44262314 5 408 0,10082 341,5741 4412,395 12,9178248 6 273 0,05041 170,7871 10447,48 61,1725646 7 139 0,0216 73,19446 4330,369 59,1625291 8 45 0,0081 27,44792 308,0754 11,2239988 9 ó más 48 0,0038 12,88454 1233,096 95,703534 3388 1 3388 2 χ = 3291,05359 2 9;0,95 16, 92 χ = . 3291,05359>16,92 luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson de media 3. 2. (ejercicio 12, relación tema 10) Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 0 1 2 3 4 5 o más 6 13 20 22 16 23 Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( 0,1 α = ) Solución Contraste chi-2 de Pearson de bondad de ajuste CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 6 0,0334 3,34 7,0756 2,11844311 1 13 0,1135 11,35 2,7225 0,23986784 2 20 0,1929 19,29 0,5041 0,02613271 3 22 0,2186 21,86 0,0196 0,00089661 4 16 0,1858 18,58 6,6564 0,35825619 5 o más 23 0,2558 25,58 6,6564 0,26021892 100 1 100 2 χ = 3,00381539 154 Como la frecuencia esperada es menor que 5 en la primera clase, se agrupa ésta con la clase contigua, obteniéndose CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 1 o menos 19 0,1469 14,69 18,5761 1,2645405 2 20 0,1929 19,29 0,5041 0,02613271 3 22 0,2186 21,86 0,0196 0,00089661 4 16 0,1858 18,58 6,6564 0,35825619 5 o más 23 0,2558 25,58 6,6564 0,26021892 100 1 100 2 χ = 1,91004494 Buscamos en las tablas 2 2 1,1 4, 0'90 7, 78 k α χ χ − − = = . Como 1,91<7,78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. 3. (ejercicio 13, relación tema 10) El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Salarios Menos de 5 años Entre 5 y 10 años Entre 10 y 15 años Más de 15 años Bajos (<1.000€) Medios (1.000€, 1.500€) Altos (>1.500€) 36 64 50 16 34 50 14 20 16 34 82 84 Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. X \ Y B1 B2 B3 B4 ni. A1 36 16 14 34 100 A2 64 34 20 82 200 A3 50 50 16 84 200 n.j 150 100 50 200 500 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión i j ij n n E n • • = X \ Y B1 B2 B3 B4 A1 30 20 10 40 A2 60 40 20 80 A3 60 40 20 80 155 Con las frecuencias observadas ij n de la primera tabla y las frecuencias esperadas ij E de la anterior tabla se calcula ( ) 2 ij ij ij n E E − para cada elemento de la tabla, obteniéndose: X \ Y B1 B2 B3 B4 A1 1,2 0,8 1,6 0,9 A2 0,267 0,9 0 0,05 A3 1,667 2,5 0,8 0,2 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chi- cuadrado, ( ) 2 2 1 1 10, 8833 r c ij ij i j ij n E E χ = = − = = ∑∑ , que hay que compararlo con el valor 2 2 ( 1)( 1); 1 2*3; 0,90 10, 6 r c α χ χ − − − = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − > , se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. 4. (ejercicio 14, relación tema 10) Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico Primavera Verano Otoño 12 27 103 8 52 63 6 65 57 Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. X \ Y B1 B2 B3 ni. A1 12 8 6 26 A2 27 52 65 144 A3 103 63 57 223 n.j 142 123 128 393 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión i j ij n n E n • • = 156 X \ Y B1 B2 B3 A1 9,394 8,1374 8,4682 A2 52,03 45,069 46,901 A3 80,58 69,794 72,631 Con las frecuencias observadas ij n de la primera tabla y las frecuencias esperadas ij E de la anterior tabla se calcula ( ) 2 ij ij ij n E E − para cada elemento de la tabla, obteniéndose: X \ Y B1 B2 B3 A1 0,723 0,0023 0,7194 A2 12,04 1,066 6,9846 A3 6,241 0,6613 3,364 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chi- cuadrado, ( ) 2 2 1 1 31, 8 r c ij ij i j ij n E E χ = = − = = ∑∑ , que hay que compararlo con el valor 2 2 ( 1)( 1); 1 2*2 ; 0,95 9, 49 r c α χ χ − − − = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − > , se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 5. (ejercicio 15, relación tema 10) En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día Número de días 0 1 2 3 4 ≥ 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. Solución 0, 646 x = , nos quedamos con un solo decimal para estimar 0, 6 λ = y buscar las probabilidades i p bajo la hipótesis nula en las tablas de la distribución de Poisson. CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 69 0,5488 71,3455 5,5014 0,0771 1 42 0,3293 42,8073 0,6517 0,0152 2 15 0,0988 12,8422 4,6561 0,3626 3 4 0,0198 2,5684 2,0494 0,7979 4 ó más 0 0,0034 0,4365 0,1906 0,4365 130 1 130 2 χ = 1,6894 157 Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5. CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − 0 69 0,5488 71,3455 5,5014 0,0771 1 42 0,3293 42,8073 0,6517 0,0152 2 ó más 19 0,1219 15,8472 9,9403 0,6273 130 1 130 2 χ = 0,7196 2 1;0,99 6, 63 χ = . 0,72<6,63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 6. (ejercicio 16, relación tema 10) La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: Ausencias Edad 0-5 5-10 Más de 10 16-25 25-40 40-55 55-65 20 10 9 15 9 22 20 14 30 31 25 35 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%. Solución Edad \ Ausencias 0-5 5-10 Más de 10 i n • 16-25 20 9 30 59 25-40 10 22 31 63 40-55 9 20 25 54 55-65 15 14 35 64 j n • 54 65 121 240 i j ij n n E n • • = 0-5 5-10 Más de 10 16-25 13,275 15,979 29,746 25-40 14,175 17,063 31,763 40-55 12,150 14,625 27,225 55-65 14,400 17,333 32,267 ( ) 2 ij ij ij n E E − 0-5 5-10 Más de 10 16-25 3,407 3,048 0,002 25-40 1,230 1,429 0,018 40-55 0,817 1,975 0,182 55-65 0,025 0,641 0,232 158 ( ) 2 2 1 1 13, 006 r c ij ij i j ij n E E χ = = − = = ∑∑ 2 2 ( 1)( 1); 1 2 3; 0,99 16, 81 r c α χ χ − − − × = = Como 2 2 ( 1)( 1); 1 ( 13, 006) ( 16, 81) r c α χ χ − − − = < = , se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. Sin embargo 2 2 6; 0,95 ( 13, 006) ( 12, 59) χ χ = > = , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. (Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de significación) 7. (Ejercicio 17, relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? b) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) Tabla de contingencia SEXO * VEHICULO VEHICULO Total MONOVOLUMEN DEPORTIVO TODO TERRENO SEXO HOMBRE Recuento 250 275 225 750 Frecuencia esperada 247,5 262,5 240,0 750,0 MUJER Recuento 80 75 95 250 Frecuencia esperada 82,5 87,5 80,0 250,0 Total Recuento 330 350 320 1000 Frecuencia esperada 330,0 350,0 320,0 1000,0 Pruebas de chi-cuadrado Valor gl Sig. asintótica (bilateral) Chi-cuadrado de Pearson 6,232(a) 2 ,044 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 80,00. ij n monovolumen deportivo todo terreno i n • hombres 250 275 225 750 mujeres 80 75 95 250 j n • 330 350 320 1000 159 i j ij n n E n • • = monovolumen deportivo todo terreno hombres 247,5 262,5 240 mujeres 82,5 87,5 80 ( ) 2 ij ij ij n E E − monovolumen deportivo todo terreno hombres 0,025 0,595 0,938 mujeres 0,076 1,786 2,813 ( ) 2 2 1 1 6,233 r c ij ij i j ij n E E χ = = − = = ∑∑ (la diferencia con SPSS es debida a redondeos) 2 2 (3 1)(2 1); 1 0,05 2; 0,95 5, 99 χ χ − − − = = 2 2 (3 1)(2 1); 1 0,01 2; 0,99 9, 21 χ χ − − − = = Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta es misma hipótesis nula con un nivel de significación del 1%. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 4,4% y se rechaza para niveles de significación mayores al 4,4%. b) VEHICULO N observado N esperado Residual MONOVOLUMEN 330 333,3 -3,3 DEPORTIVO 350 333,3 16,7 TODO TERRENO 320 333,3 -13,3 Total 1000 Estadísticos de contraste VEHICULO Chi-cuadrado(a) 1,400 gl 2 Sig. asintót. ,497 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 333,3. i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − monovolumen 330 0,33333 333,3333 11,11111 0,03333333 deportivo 350 0,33333 333,3333 277,7778 0,83333333 Todo terreno 320 0,33333 333,3333 177,7778 0,53333333 1000 1 1000 2 χ = 1,4 2 2 1,1 2, 0'90 4, 60 k α χ χ − − = = Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 49,7%. 8. (Ejercicio 18, relación tema 10) Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 160 1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( 0, 05 α = ) Solución: CLASES i n i p i i E np = LO DEJAN 54 0,62 49,6 FP 17 0,37 29,6 ESO 9 0,01 0,8 80 1 80 Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5. CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − LO DEJAN 54 0,62 49,6 19,36 0,39032258 FP-ESO 26 0,38 30,4 19,36 0,63684211 80 1 80 2 χ = 1,02716469 2 1;0,95 3, 84 χ = . 1,027<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% respectivamente. 9. (Ejercicio 23, relación tema 10) La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuántos de ellos ven la televisión menos de dos horas, de dos a cuatro y más de cuatro horas. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. Solución: X \ Y Menos de 2 horas De 2 a 4 horas Más de 4 horas i n i Hombre 18 10 2 30 Mujer 17 13 8 38 j n i 35 23 10 n=68 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión i j ij n n E n • • = X \ Y Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 15,4412 10,1471 4,4118 Mujer 19,5588 12,8529 5,5882 Juntamos las clases de 2 a 4 horas y más de 4 horas para que todas las frecuencias esperadas sean mayores que 5. 161 Frecuencias observadas Menos de 2 horas Más de 2 horas i n i Hombre 18 12 30 Mujer 17 21 38 j n i 35 33 n=68 Frecuencias esperadas Menos de 2 horas Más de 2 horas Hombre 15,4412 14,5588 Mujer 19,5588 18,4412 Con las frecuencias observadas ij n y las frecuencias esperadas ij E de las anteriores tablas se calcula ( ) 2 ij ij ij n E E − para cada elemento de la tabla, obteniéndose: ( ) 2 ij ij ij n E E − Menos de 2 horas Más de 2 horas Hombre 0,424034 0,449733 Mujer 0,334763 0,355052 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chi- cuadrado, ( ) 2 2 1 1 1,563581681 r c ij ij i j ij n E E χ = = − = = ∑∑ , que hay que compararlo con el valor 2 2 2 ( 1)( 1); 1 1 1; 0,95 1; 0,95 3, 84 r c α χ χ χ − − − × = = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − < , se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. 162 11. Inferencia no paramétrica. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. 11.3 Contraste de Mann-Whitney. 11.4 Test de las rachas. 11.5 Test de los signos. 11.6 Test de Wilcoxon de los signos-rangos. Los métodos estadísticos de inferencia que no requieren el conocimiento de la distribución de la variable, es decir, los métodos que son válidos cualquiera que sea la distribución que sigue la población, se conocen con el nombre de no paramétricos. Evidentemente, si no se conoce la distribución tampoco se pueden realizar inferencias sobre los parámetros, las hipótesis se refieren a la posible forma de la distribución, la aleatoriedad de la muestra, ... Para la realización de tests no paramétricos se utilizan estadísticos cuya distribución se puede obtener para cualquiera que sea la distribución de la población que se desea estudiar. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. Es un test no paramétrico mediante el cual se contrasta la hipótesis nula de que los datos observados en una muestra proceden de una población con una distribución de probabilidad, F(x), dada de antemano (se corresponde con el test de ajuste de la 2 χ ) 0 : ( ) ( ) H X F x conocida → • El test K-S presupone que las distribuciones sean continuas; puede emplearse también, sin embargo, con distribuciones discretas. • El test K-S es conveniente usarlo con muestras pequeñas (detecta mejor las desviaciones de la distribución normal). El test 2 χ se comporta mejor con muestras grandes, e incluso, en muestras pequeñas no es posible aplicar el test 2 χ pues no se verifican las condiciones de validez ( 5 i E > ). Suponemos que tenemos una muestra de tamaño n. 1. Se ordenan los valores de la muestra de menor a mayor. 2. Se calcula la función de distribución real bajo 0 H : | | 0 ( ) F x P X x = ≤ 3. Se calcula la función de distribución empírica o muestral. ( ) º n n observaciones x F x n ≤ = 163 4. Se calcula el estadístico experimental ( ) ( ) 0 max exp n D F x F x = − 5. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se obtiene un valor crítico en la tabla A.14 que denotaremos D α . Se rechaza 0 H si exp D D α > . Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy conservativos cuando para ajustar una distribución normal haya que estimar la media y la varianza a partir de los valores muestrales. Ejemplo 11.1. (ejercicio 7, relación tema 11) ▼ Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25. Solución 2 0 : ( ) ( 14; 2, 25) H F x N µ σ = = = 2 1 : ( ) ( 14; 2, 25) H F x N µ σ ≠ = = Muestra ordenada i n i N | | 0 ( ) F x P X x = ≤ ( ) n F x 0 ( ) ( ) n F x F x − 12 13 14 15 17 18 2 1 3 2 1 1 2 3 6 8 9 10 0,0912 0,2525 0,5 0,7475 0,977 0,9962 2/10=0,2 3/10=0,3 0,6 0,8 0,9 1 0,1088 0,0475 0,1 0.0525 0,077 0,0038 10 n = | | 0 12 14 (12) 12 1, 3 0, 0912 2, 25 F P X P Z P Z ( − ( = ≤ = ≤ = ≤ − = ( ¸ ¸ ¸ ¸ | | 0 13 14 (13) 13 0, 6 0, 2525 2, 25 F P X P Z P Z ( − ( = ≤ = ≤ = ≤ − = ( ¸ ¸ ¸ ¸ ... 164 | | 0 18 14 (18) 18 2, 6 0, 9962 2, 25 F P X P Z P Z ( − ( = ≤ = ≤ = ≤ = ( ¸ ¸ ¸ ¸ Para n=10 y 0, 05 α = el valor crítico D α para el test de bondad de ajuste de K-S es D α =0,409. ( ) ( ) exp 0,1088 0, 409 D D α = < = luego no existen motivos para rechazar la hipótesis nula. ▄ 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de distribución muestral y bajo 0 H . Aunque en la práctica sólo se calcula 0 ( ) ( ) i n i F x F x − , en distribuciones continuas habría que hallar también las diferencias 0 1 ( ) ( ) i n i F x F x + − para encontrar la máxima diferencia entre ambas funciones de distribución. Prueba de Kolmogorov-Smirnov para una muestra ejercicio11_7 N 10 Media 14 Parámetros normales(a,b) Desviación típica 1,5 Absoluta ,200 Positiva ,1088 Diferencias más extremas Negativa -,200 Z de Kolmogorov-Smirnov ,632 Sig. asintót. (bilateral) ,819 a La distribución de contraste es la Normal. b Especificado por el usuario 0,5-0,3=0,2 165 Ejemplo 11.2 (ejercicio 8, relación tema 11) ▼ Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales X i n 0,45 0,55 0,6 0,75 0,8 0,85 0,88 1 2 3 1 2 1 4 2 5 20 n = proceden de la distribución de probabilidad dada por 2 0 0 0 0 1 1 1 x F x x x ≤ ¦ ¹ ¦ ¦ = ≤ ≤ ´ ` ¦ ¦ ≥ ¹ ) Solución X i n i N ( ) n F x 0 ( ) F x 0 ( ) ( ) n F x F x − 0,45 0,55 0,6 0,75 0,8 0,85 0,88 1 2 3 1 2 1 4 2 5 2 5 6 8 9 13 15 20 2/20 5/20 6/20 8/20 9/20 13/20 15/20 1 2 0, 45 0, 2025 = 0,3025 0,36 0,5625 0,64 0,7225 0,7744 1 0.1025 0.0525 0,06 0,1625 0,19 0,0725 0,0244 0 20 n = Para n=20 y 0, 05 α = D α =0,294. ( ) ( ) exp 0,19 0, 294 D D α = < = luego acepto la hipótesis nula. ▄ 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma población o no. Este test de homogeneidad de K-S es el test más potente para comparar dos muestras independientes desde el punto de vista de si proceden de una misma población. Detecta todo tipo de diferencias en las distribuciones, en particular diferencias en la tendencia central (media, mediana), en la dispersión, en la asimetría y en el exceso, esto es, diferencias en las funciones de distribución. El contraste se basa en el estudio de las diferencias entre las funciones de distribución empíricas o muestrales de cada muestra. 166 Dadas dos muestras aleatorias e independientes, de tamaños n y m, cuyas funciones de distribución muestrales se designan por 1 ( ) n F x y 2 ( ) m F x , respectivamente, se pueden plantear los siguientes contrastes: Contraste bilateral: 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` ≠ ¹ ) Contrastes unilaterales: 0 0 1 1 : ( ) ( ) : ( ) ( ) (1) (2) : ( ) ( ) : ( ) ( ) n m n m n m n m H F x F x H F x F x ó H F x F x H F x F x = = ¦ ¹ ¦ ¹ ´ ` ´ ` < > ¹ ) ¹ ) Pasos: 1. Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor. 2. Se calcula cada una de las dos funciones empíricas (o funciones de distribución muestrales). 3. Se calcula la diferencia entre las dos funciones de distribución muestrales. Si 1 2 ( ) ( ) n m F x F x < , x ∀ , se plantea el test unilateral (1) Si 1 2 ( ) ( ) n m F x F x > , x ∀ , se plantea el test unilateral (2) Si las diferencias unas veces son positivas y otras negativas, se plantea el test bilateral. En cualquier caso el estadístico experimental es: 1 2 exp max ( ) ( ) n m D F x F x = − 4. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra, se obtiene el valor crítico D α , distinguiendo si n m = o n m ≠ y si el test es unilateral o bilateral. Se rechaza 0 H si exp D D α > . (Tablas A.18 y A.19) Ejemplo 11.3 (ejercicio 9, relación tema 11) ▼ Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 2 4 2 3 5 6 7 8 9 3 Muestra 2 2 4 5 3 5 4 7 6 5 3 Solución En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. Se construyen las dos funciones de distribución empíricas. Las diferencias unas veces son positivas y otras negativas lo que invita a hacer un test bilateral. 167 Muestras ordenadas 1 10 ( ) F x 2 10 ( ) F x 1 2 10 10 ( ) ( ) F x F x − 1 2 10 10 ( ) ( ) F x F x − 2 3 4 5 6 7 8 9 2/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 1/10 3/10 5/10 8/10 9/10 10/10 10/10 10/10 1/10 1/10 0 -2/10 -2/10 -2/10 -1/10 0 1/10 1/10 0 2/10 2/10 2/10 1/10 0 exp 2/10 0, 2 D = = 0, 05 α = , n=m=10, 6 0, 6 10 D α = = , exp D D α < , acepto la hipótesis nula de que las dos muestras se han obtenido de la misma población. ▄ Ejemplo 11.4 (ejercicio 2, relación tema 11) ▼ Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. ( 05 . 0 = α ) Solución Puntuación 1 16 ( ) F x 2 16 ( ) F x 1 2 1 2 16 16 16 16 ( ) ( ) ( ) ( ) F x F x F x F x − = − 14 15 25 35 45 47 50 54 56 57 62 63 65 66 1/16 2/16 3/16 4/16 5/16 6/16 7/16 7/16 8/16 9/16 9/16 10/16 11/16 12/16 0 0 0 0 0 0 0 1/16 3/16 3/16 4/16 4/16 4/16 4/16 1/16 2/16 3/16 4/16 5/16 6/16 7/16 6/16 5/16 6/16 5/16 6/16 7/16 8/16 168 67 72 74 75 83 85 86 90 92 93 95 98 12/16 13/16 14/16 14/16 15/16 15/16 15/16 1 1 1 1 1 5/16 6/16 6/16 7/16 7/16 10/16 11/16 11/16 12/16 14/16 15/16 16/16 7/16 7/16 8/16 7/16 8/16 5/16 4/16 5/16 4/16 2/16 1/16 0 1 2 16 16 ( ) ( ) F x F x > lo que sugiere un contraste unilateral. 0, 05 α = , n=m=16 6 16 D α = . exp D D α > (no provienen de la misma población) los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, o lo que es lo mismo 1 2 16 16 ( ) ( ) F x F x > . ▄ 11.3 Contraste de Mann-Whitney. La prueba de Mann-Whitney también permite contrastar si dos muestras independientes, han sido obtenidas de la misma población. Pero este contraste no necesita conocer la cuantificación de los elementos de las muestras, solo es necesario disponer de un orden entre dichos elementos. El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la comparación de las medias de dos distribuciones continuas (test paramétrico). Para muestras pequeñas el contraste de K-S es más eficiente. Tomamos dos muestras independientes de tamaños n y m donde suponemos que n m ≤ . Se presupone que las distribuciones de las muestras que se han de comparar presentan la misma forma. El test U de Mann y Whitney examina la hipótesis alternativa. “La probabilidad de que una observación obtenida al azar de la primera población supere a una observación aleatoria de la segunda población es distinta de 1 2 ” El test es sensible frente a diferencias de medianas, algo menos sensible frente a las diferencias de asimetría, e insensible frente a las diferencias de varianzas. 169 Se pueden plantear los siguientes contrastes: Contraste bilateral: 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` ≠ ¹ ) Contrastes unilaterales: 0 0 1 1 : ( ) ( ) : ( ) ( ) (1) (2) : ( ) ( ) : ( ) ( ) n m n m n m n m H F x F x H F x F x ó H F x F x H F x F x = = ¦ ¹ ¦ ¹ ´ ` ´ ` < > ¹ ) ¹ ) Estos últimos cuando se observe que los valores de una muestra son en general mayores o menores que los de la otra. (Véase ejemplo 11.6) Pasos: 1. Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor. 2. El valor del estadístico U ( 0 U ) se obtiene mediante: i U = nº de veces que una observación de la muestra i precede a una observación de la muestra j, si coinciden dos valores tomamos 0.5, ( 1, 2 i = , 1, 2 j = , i j ≠ ). O bien, i U = nº de veces que una observación de la muestra j es precedida por una observación de la muestra , si coinciden dos valores tomamos 0.5, ( 1, 2 i = , 1, 2 j = , i j ≠ ). Ejemplo 1º muestra 9 11 15 n=3 2º muestra 6 8 11 13 m=4 Muestras ordenadas 6 8 9 11 11 13 15 Procedente de: 2º 2º 1º 1º 2º 2º 1º 1 0 0 1, 5 2 3, 5 U = + + + = 2 2 2, 5 4 8, 5 U = + + = Ejemplo 1º muestra 3 4 2 n=3 2º muestra 6 7 8 9 m=4 Muestras ordenadas 2 3 4 6 7 8 9 Procedente de: 1º 1º 1º 2º 2º 2º 2º 170 1 2 3 3 3 3 12 0 0 0 0 U U = + + + = = + + = Como podemos observar, si 2 muestras proceden de la misma población, los datos tienden a entremezclarse. En caso contrario, los i U toman valores extremos. Otra forma de calcular los i U (aconsejable para muestras grandes) es así: Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del conjunto (si hay repeticiones de valores, se asigna el rango medio) Ejemplo Muestras ordenadas 6 8 9 11 11 13 15 Procedente de: 2º 2º 1º 1º 2º 2º 1º rangos 1 2 3 4,5 4,5 6 7 Sean 1 R y 2 R la suma de los rangos de la 1º y 2º muestra, entonces: ( ) 1 1 2 2 2 1 ( 1) 2 ( 1) 2 n n U nm R m m U nm R ó U nm U + = + − + = + − = − ( ) 1 1 3 4 3 4, 5 7 14, 5 3 4 14, 5 3, 5 2 R U × = + + = ⇒ = × + − = ( ) 2 2 4 5 1 2 4, 5 6 13, 5 3 4 13, 5 8, 5 2 R U × = + + + = ⇒ = × + − = El estadístico es: 0 1 2 min ( , ) U U U = Nota: también lo podíamos haber definido con el máximo. 3. Como hemos visto, si los datos no proceden de la misma población, los i U toman valores extremos y por tanto 0 U tomará un valor pequeño. Luego rechazamos la hipótesis nula cuando 0 U tome valores pequeños, pero ¿cómo de pequeños? Distinguimos casos: a) 20 40 n y m ≤ ≤ Se rechazará la hipótesis nula cuando el valor U 0 sea igual o menor que el valor crítico U α de las tablas 3.18 o 3.19 (nivel de significación 5% α = ). SPSS usa niveles de significación exactos, Dineen y Blakesley (1973). b) En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños muestrales suficientemente grandes ( 60 m n + > , según algunos autores) se cumple la excelente aproximación. 171 ( 1) , 2 12 nm nm n m U N | | + + → | | \ . Calculo | | 0 0 / p P U U H = ≤ Para α fijo, rechazo 0 H si ( ) ( ) 2 p bilateral o p unilateral α α ≤ ≤ . Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños muestrales no sean muy pequeños ( 8, 8 m n ≥ ≥ ). Nosotros utilizaremos las tablas 3.18 o 3.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación normal cuando no aparezcan. En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar rangos medios) tiene una distribución distinta (Sachs, Estadística Aplicada, pag. 255). Ejemplo 11.5 (ejercicio 4, relación tema 11) ▼ Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma ( 0.05) α = . Solución n=4 (taller 2) ≤20, m=5 (taller 1) ≤40 Muestras ordenadas rango Procede de: 45 51 53 64 70 75 78 82 110 1 2 3 4 5 6 7 8 9 1º 2º 2º 1º 2º 1º 1º 1º 2º ( ) ( ) 2 2 1 2 4 5 ( 2) 2 3 5 9 19 4 5 19 11 4 5 9 2 T T T T R taller U U U × = + + + = ⇒ = × + − = ⇒ = × − = ( ) 0 min 11, 9 9 U = = 172 0 4, 5, 1 ( 3.19) ( 9) ( 1) n m U tabla U U α α = = = = > = ⇒ los dos talleres producen lo mismo. ▄ Ejemplo 11.6 (ejercicio 5, relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realice el contraste utilizando la prueba de Mann-Whitney ( 0.05) α = . Solución Muestras ordenadas Incentivos rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 43 45 56 56 57 57 65 65 67 67 67 69 76 76 77 78 78 78 78 79 79 87 87 98 No No No No No Si No Si No No Si No Si Si Si No No Si Si No Si Si Si si 1 2 3,5 3,5 5,5 5,5 7,5 7,5 10 10 10 12 13,5 13,5 15 17,5 17,5 17,5 17,5 20,5 20,5 22,5 22,5 24 12 m n = = 1 2 3, 5 3, 5 5, 5 7, 5 10 10 12 17, 5 17, 5 20, 5 110, 5 NO R = + + + + + + + + + + + = ( ) 12 13 12 12 110, 5 111, 5 144 111, 5 32, 5 2 NO SI U U × = × + − = ⇒ = − = 173 0 min (111, 5; 32, 5) 32, 5 U = = En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto sobre la producción frente a la alternativa de que sí lo tienen, es decir 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` ≠ ¹ ) Para ello realizaremos un test bilateral ( 0.05 α = , tabla 3.19) 37 U α = ; 0 ( 32, 5) ( 37) U U α = < = ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos sobre la producción –sin especificar en qué sentido. En este caso que nos ocupa parece más plausible contrastar 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` > ¹ ) Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción, es decir, los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin incentivos y por tanto la función de distribución de la muestra con incentivos ( ) ( ) m F x menor que la función de distribución de la muestra sin incentivos ( ) ( ) n F x (Recuérdese lo que ocurría en el ejemplo 11.4 ). Para ello realizaremos un test unilateral ( 05 . 0 = α , tabla 3.18) 42 U α = ; 0 ( 32, 5) ( 42) U U α = < = ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. Dado que un test bilateral con 0.05 α = equivale a un test unilateral con 0.025 α = y en ese caso se había rechazado la hipótesis nula, con mayor razón se rechaza en este último test unilateral con 0.05 0.025 α = > . ▄ Ejemplo 11.6b (ejercicio 5, relación tema 11) ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también seleccionados al azar. El resultado de ambas fue 72 83 74 71 60 60 82 84 61 48 50 70 71 No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 174 Realice el contraste utilizando la prueba de Mann-Whitney ( 0.05) α = . Solución Muestras ordenadas incentivos rango 1 43 NO 1 2 45 NO 2 3 48 NO 3 4 50 NO 4 5 56 NO 5.5 6 56 NO 5.5 7 57 NO 7.5 8 57 SI 7.5 9 60 NO 9.5 10 60 NO 9.5 11 61 NO 11 12 63 SI 12 13 65 NO 13.5 14 65 SI 13.5 15 67 NO 16 16 67 NO 16 17 67 SI 16 18 69 NO 18 19 70 NO 19.5 20 70 SI 19.5 21 71 NO 21.5 22 71 NO 21.5 23 72 NO 23 24 73 SI 24 25 74 NO 25 26 76 SI 26.5 27 76 SI 26.5 28 77 SI 28 29 78 NO 30.5 30 78 NO 30.5 31 78 SI 30.5 32 78 SI 30.5 33 79 NO 33.5 34 79 SI 33.5 35 80 SI 35.5 36 80 SI 35.5 37 82 NO 37 38 83 NO 38 39 84 NO 40 40 84 SI 40 41 84 SI 40 42 85 SI 42.5 43 85 SI 42.5 44 87 SI 44.5 45 87 SI 44.5 46 88 SI 46 47 93 SI 47 175 48 94 SI 48 49 98 SI 49 50 99 SI 50 25 n m = = 442 833 NO SI R R = = ( ) ( ) 25 26 25 25 442 508 25 25 508 117 2 NO SI U U × = × + − = ⇒ = × − = 0 min (508; 117) 117 U = = ( ) 25 25 25 25 51 , 312, 5; 51, 54 2 12 U N N | | × × × → = | | \ . | | | | 0 117 312, 5 117 / 3, 79 0, 00007 51, 54 p P U H P Z P Z − ( = ≤ = ≤ = ≤ − = ( ¸ ¸ Basándonos en los comentarios del ejemplo anterior, procede realizar un contraste unilateral 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` > ¹ ) ( ) ( ) 0, 00007 0, 05 p α = ≤ = ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. También se hubiera rechazado la hipótesis nula con un contraste bilateral. 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` ≠ ¹ ) ( ) 0, 00007 0, 025 2 p α | | = ≤ = ⇒ | \ . rechazo la hipótesis nula, por tanto, los incentivos tienen efectos sobre la producción. 117 312,5 0, 05 α = 0.00007 176 ▄ 11.4 Test de las rachas. El test de las rachas es un test no paramétrico que sirve para verificar la independencia o aleatoriedad del orden de los valores muestrales. Una racha es una sucesión de símbolos idénticos, a los que preceden o siguen otros símbolos. Así, por ejemplo, la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda, constituye R=4 rachas. No sólo en el caso de datos alternativos sino también tratándose de valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores menores y rachas de valores mayores o iguales que la mediana. Para un valor dado de n, un R pequeño es indicio de que las observaciones iguales aparecen en forma aglomerada , mientras que un valor grande de R denota que las observaciones se suceden de una forma regular. La hipótesis nula 0 H dice que el orden de los valores es casual, esto es, que se trata de una muestra aleatoria, mientras que la hipótesis alternativa A H dice que la muestra no es aleatoria; o sea, que los valores muestrales no son independientes entre sí. En el caso unilateral a la 0 H se le contrapone la hipótesis 1 A H : “efecto de aglomeración”, o bien la 2 A H : “los valores se suceden de una forma regular” Los valores críticos inferior u r r = y superior o r r = correspondientes a 1 2 20 n y n ≤ (donde 1 2 n y n representan el número de veces que aparecen los dos elementos alternativos respectivamente, 1 2 n n n + = ) pueden obtenerse de la tabla 4.40. Para 1 2 20 n o n > el estadístico R se distribuye aproximadamente como una normal de media y varianza 1 2 1 2 2 1 n n n n µ = + + ( ) ( ) 2 1 2 1 2 1 2 2 1 2 1 2 2 (2 ) 1 n n n n n n n n n n σ − − = + + − ( R z µ σ = + , donde z es normal tipificada). 117 312,5 2 α 0,025 2 α = 0.00007 177 En el test bilateral se mantiene 0 H si u o r R r < < (para 1 2 20 n y n ≤ ) o 2 2 z z z α α − < < (para 1 2 20 n o n > ) y se rechaza en caso contrario. (Nota: utilizar u o r y r con límites inferiores y superiores del 2 α ) En el test unilateral 0 H se rechaza frente a 1 A H tan pronto como u R r ≤ ( 1 2 20 n y n ≤ ) o z z α ≤ − ( 1 2 20 n o n > ). Se rechaza frente a 2 A H si o r R ≤ ( 1 2 20 n y n ≤ ) o z z α ≤ ( 1 2 20 n o n > ). (Nota: utilizar u o r y r con límites inferiores y superiores del α %) También puede utilizarse el test de rachas para verificar si dos muestras independientes de tamaño similar proceden o no de una misma población (las 1 2 n n n + = observaciones se ordenan en sentido creciente, indicando con dos símbolos a qué muestra pertenecen, si se obtiene un valor pequeño de R, se rechaza la hipótesis nula de igualdad de poblaciones). Ejemplo 11.7 (Ejercicio 14 , relación tema 11) ▼ Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( 0,10 α = ). Solución Me=19. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede escribirse mmmMMMMMmMM. Esta serie, con 1 4( ) n m = , 2 7( ) n M = y 4 R = es compatible al 10% con la hipótesis de aleatoriedad pues ( ) ( ) ( ) 3 4 9 u o r R r = < = < = (NOTA: Si hubiéramos considerado 19=m, entonces mmmmMmmMmMM , 1 7( ) n m = , 2 4( ) n M = y 6 R = . Concluyendo de igual modo la compatibilidad con la hipótesis de aleatoriedad. ( ) ( ) ( ) 3 6 9 u o r R r = < = < = Con 0, 05 α = , ( ) ( ) ( ) 2 4 6 p u o r R o r no hay límite su erior = < = = , se aceptaría la hipótesis de aleatoriedad. ) ▄ Ejemplo 11.8 (Ejercicio 15, relación tema 11) ▼ Supóngase dos muestras aleatorias independientes de tamaños 1 2 20, 20 n n = = que han proporcionado el siguiente número de rachas 15 R = . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( 0, 05 α = ) 178 Solución Este contraste equivale a la verificación de la no aglomeración de las observaciones (únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones). Es decir, un test de 1 A H frente a 0 H , al nivel del 5%, unilateral, con ayuda de los extremos críticos inferiores del 5% de la tabla 4.40. 15 u r = y como para ( 15) ( 15) u R r = ≤ = se rechaza la hipótesis nula a favor de 1 A H , se acepta la hipótesis de aglomeración, lo que en este contexto implica que las muestras proceden de poblaciones distintas. Como los tamaños de las muestras se encuentran en el límite 1 2 20, 20 n n = = , vamos a resolver el problema mediante la aproximación normal 1 2 1 2 2 1 21 n n n n µ = + = + ( ) ( ) 2 1 2 1 2 1 2 2 1 2 1 2 2 (2 ) 9, 7436 3,1215 1 n n n n n n n n n n σ σ − − = = = + + − 15 21 1, 92215 3,1215 R z µ σ − − = = = − 0,05 ( 1, 92215) ( 1, 645) z z = − ≤ − = − ⇒llegándose al mismo resultado, se rechazaría la hipótesis de que las poblaciones son iguales. ▄ 11.5 Test de los signos. Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas, paralelas o ligadas) proceden de una misma distribución. Resulta especialmente útil cuando la medición cuantitativa no es posible. Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test de Wilcoxon que veremos a continuación. El nombre de este test se debe a que únicamente se consideran los signos de las diferencias entre observaciones. Se presupone que la variable aleatoria es continua. Al contrario que en el test de la t o en el de Wilcoxon, aquí no es necesario que todos los pares procedan de una misma población. Pueden pertenecer a poblaciones distintas en lo que se refiere, por ejemplo, a edad o sexo, etc. Lo esencial es que los resultados de cada par sean independientes entre sí. La hipótesis nula del test de los signos es: La media de las diferencias entre los pares ligados es igual a cero; se espera que aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . Es 179 decir, con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero, dicho de otra forma, elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo es igual que la probabilidad de que el segundo supere al primero). La tabla 4.4 contiene los extremos de confianza, se rechazará la hipótesis nula cuando haya demasiadas (o demasiado pocas) diferencias del mismo signo, esto es, cuando se rebasen (por exceso o por defecto) los valores indicados en la tabla 4.4. Las diferencias nulas no se consideran; esto puede traer consigo una disminución del tamaño muestral. La probabilidad de obtener un número determinado de signos más o menos se deduce de la distribución binomial con 1 2 p q = = . A partir de la tabla de probabilidades binomiales con 1 2 p q = = se han determinado los valores de la tabla 4.4. En la tabla 4.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis nula. El extremo derecho (ED) puede obtenerse mediante la fórmula 1 ED n EI = − + . Cuando no se disponga de tablas o cuando estas resulten insuficientes, y si las muestras de diferencias no son demasiado pequeñas ( ) 30 n ≥ -algunos autores consideran bueno a partir de ( ) 25 n ≥ - la frecuencia observada del signo menos abundante se aproxima mediante una normal de media y varianza 2 n np µ = = 2 4 n npq σ = = Ejemplo 11.9 (Ejercicio 16, relación tema 11) ▼ Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas. ¿Proceden las dos muestras ligadas de la misma población? Solución De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. ▄ 11.6 Test de Wilcoxon de los signos-rangos. Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son: el test de la t de Student, si la distribución de las diferencias es normal, y el test de Wilcoxon 180 para diferencias entre pares, que utiliza signos y rangos, cuando las diferencias no siguen una distribución normal. Este último test puede aplicarse también cuando los datos vengan dados en forma de rangos. En comparación con el test de la t, el test de Wilcoxon requiere muchos menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas. Si el test lleva a rechazar 0 H significaría que las dos muestras proceden de poblaciones con distribuciones distintas. Prescindiendo de los pares cuyos dos valores sean iguales, para los n pares de valores restantes se formarán las diferencias entre las dos muestras paralelas 1 2 i i i d x x = − A continuación se ordenan los valores absolutos i d de menor a mayor, asignándoles rangos: el menor de todos ellos tendrá el rango 1, y el mayor tendrá rango n. Caso de que se repitieran valores, se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el test de Mann-Whitney). Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o negativo. Se forma la suma de los números de rango positivos ( R + ) y la de los rangos negativos ( R − ), que se comprueban con la fórmula ( 1) 2 n n R R + − + + = Como estadístico se empleará la menor de las dos sumas de rangos ( ) min( , ) R R R + − = . Se rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico indicado en la tabla 4.2. Para 25 n > la distribución de estadístico R bajo la hipótesis nula es aproximadamente una normal de media y varianza: ( 1) 4 n n µ + = 2 ( 1)(2 1) 24 n n n σ + + = Ejemplo 11.10 (ejercicio 17, relación tema 11) ▼ Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 181 Solución Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 A−B= i d 0,06 0,02 -0,13 0,09 0,10 -0,02 0,03 0 -0,04 Rango de los i d 5 1,5 8 6 7 1,5 3 4 22, 5 R + = (+) 5 (+) 1,5 (+) 6 (+) 7 (+) 3 13, 5 R − = (-) 8 (-) 1,5 (-) 4 comprobación 22,5+13,5=36=8(8+1)/2 n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que 13, 5 3 R = > , por tanto no puede rechazarse la hipótesis nula. ▄ EJERCICIOS RESUELTOS 1. (ejercicio 1, relación tema 11) A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063. En años anteriores el número de respuestas correctas estaba representado, de forma adecuada, por una N(985, 50). Con base en esta muestra, ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( 05 . 0 = α ) SOLUCIÓN: muestra ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)| 852 1 1 -2,66 0,0039 0,0625 0,0586 875 1 2 -2,20 0,0139 0,1250 0,1111 910 1 3 -1,50 0,0668 0,1875 0,1207 933 1 4 -1,04 0,1492 0,2500 0,1008 957 1 5 -0,56 0,2877 0,3125 0,0248 963 1 6 -0,44 0,3300 0,3750 0,0450 981 1 7 -0,08 0,4681 0,4375 0,0306 998 1 8 0,26 0,6026 0,5000 0,1026 1007 1 9 0,44 0,6700 0,5625 0,1075 1010 1 10 0,50 0,6915 0,6250 0,0665 1015 1 11 0,60 0,7257 0,6875 0,0382 1018 1 12 0,66 0,7454 0,7500 0,0046 1023 1 13 0,76 0,7764 0,8125 0,0361 1035 1 14 1,00 0,8413 0,8750 0,0337 1048 1 15 1,26 0,8962 0,9375 0,0413 1063 1 16 1,56 0,9406 1,0000 0,0594 182 ( ) ( ) exp 0,1207 0, 327 D D α = < = luego no existen motivos para rechazar la hipótesis nula. 2. (ejercicio 3, relación tema 11) Contrastar a un nivel 1 . 0 = α si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 SOLUCIÓN: muestra ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)| 4,1 1 1 -1,93 0,0271 0,1000 0,0729 8 2 3 -0,81 0,2086 0,3000 0,0914 10,5 2 5 -0,10 0,4613 0,5000 0,0387 12,1 3 8 0,36 0,6406 0,8000 0,1594 15 1 9 1,19 0,8827 0,9000 0,0173 16 1 10 1,47 0,9298 1,0000 0,0702 0,1 10 0, 369 n D α α = = ⇒ = . ( ) ( ) exp 0,1594 0, 369 D D α = < = luego no existen motivos para rechazar la hipótesis nula. 3. (ejercicio 10, relación tema 11) La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos i x Número de llamadas i n menos de 10 15 10-20 17 20-30 26 30-40 18 40-50 13 50-60 11 Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste 2 χ y de Kolmogorov-Smirnov. SOLUCIÓN: Para hallar las siguientes probabilidades, bajo la hipótesis nula, tipificamos la variable (30, 10) X N → transformándola en una variable (0, 1) Z N → | | 0 30 10 30 10 ( 2) 0, 0228 10 10 x P x P F − − ( ≤ = ≤ = − = ( ¸ ¸ | | | | 0 0 10 30 30 20 30 10 20 2 1 ( 1) ( 2) 0,1587 0, 0228 0,1359 10 10 10 x P x P P z F F − − − ( < ≤ = < ≤ = − < ≤ − = − − − = − = ( ¸ ¸ | | 0 0 20 30 30 30 30 20 30 (0) ( 1) 0, 5 0,1587 0, 3413 10 10 10 x P x P F F − − − ( < ≤ = < ≤ = − − = − = ( ¸ ¸ | | 0 0 30 30 30 40 30 30 40 (1) (0) 0, 8413 0, 5 0, 3413 10 10 10 x P x P F F − − − ( < ≤ = < ≤ = − = − = ( ¸ ¸ 183 | | 0 0 40 30 30 50 30 40 50 (2) (1) 0, 9772 0, 8413 0,1359 10 10 10 x P x P F F − − − ( < ≤ = < ≤ = − = − = ( ¸ ¸ | | 0 30 50 30 50 1 (2) 1 0, 9772 0, 0228 10 10 x P x P F − − ( > = > = − = − = ( ¸ ¸ CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − menos de 10 15 0,0228 2,28 161,8 70,96 10-20 17 0,1359 13,59 11,6 0,85 20-30 26 0,3413 34,13 66,1 1,94 30-40 18 0,3413 34,13 260,2 7,62 40-50 13 0,1359 13,59 0,35 0,026 más de 50 11 0,0228 2,28 76,04 33,35 100 1 100 2 χ = 114,7 Como las frecuencias esperadas son menores que 5 en la primera y última clase, se agrupan éstas con las clases contiguas, obteniéndose CLASES i n i p i i E np = ( ) 2 i i n E − ( ) 2 i i i n E E − Menos de 20 32 0,1587 15,87 260,2 16,4 20-30 26 0,3413 34,13 66,1 1,94 30-40 18 0,3413 34,13 260,2 7,62 Más de 40 24 0,1587 15,87 66,1 4,17 100 1 100 2 χ = 30,13 Buscamos en las tablas 2 2 1,1 3, 0'95 7, 81 k α χ χ − − = = . Como 30,13>7,81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. Contraste de Kolmogorov-Smirnov para bondad de ajuste muestra ordenada x i n i N z 0 ( ) F x ( ) n F x 0 | ( ) ( ) | n F x F x − 0-10 10 15 15 -2,00 0,0228 0,15 0,1272 10-20 20 17 32 -1,00 0,1587 0,32 0,1613 20-30 30 26 58 0,00 0,5000 0,58 0,0800 30-40 40 18 76 1,00 0,8413 0,76 0,0813 40-50 50 13 89 2,00 0,9772 0,89 0,0872 50-60 60 11 100 3,00 0,9987 1 0,0013 ( ) ( ) 0 max 0,1613 exp n D F x F x = − = Buscando en las tablas, para un contraste bilateral, 1, 3581 0,1358 100 T D = = Al igual que con el anterior procedimiento de contraste se rechaza 0 H dado que exp T D D > 4. (ejercicio 11, relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: 184 Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 de € y desviación típica 10.000 €? ( 0, 05 α = ) SOLUCION: muestra ordenada i n i N x z µ σ − = 0 ( ) F x ( ) n F x 0 | ( ) ( ) | n F x F x − 300 1 1 -2,0000 0,0228 0,1667 0,1439 311 1 2 -0,9000 0,1841 0,3333 0,1493 318 1 3 -0,2000 0,4207 0,5 0,0793 322 1 4 0,2000 0,5793 0,6667 0,0874 338 1 5 1,8000 0,9641 0,8333 0,1307 345 1 6 2,5000 0,9938 1 0,0062 ( ) ( ) 0 max 0,1493 exp n D F x F x = − = (0,05) 0, 519 T bilateral D = exp T D D < por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas. 5. (ejercicio 12, relación tema 11) Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado, obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. ( 0,1 α = ). Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov. SOLUCIÓN: Muestra ordenada i n i N x z µ σ − = 0 ( ) F x ( ) n F x 0 | ( ) ( ) | n F x F x − 130 2 2 -2,00 0,0228 0,1333 0,1106 140 4 6 -1,00 0,1587 0,4000 0,2413 150 4 10 0,00 0,5000 0,6667 0,1667 160 3 13 1,00 0,8413 0,8667 0,0253 170 2 15 2,00 0,9772 1,0000 0,0228 | | 0 150 130 150 130 ( 2) 0, 0228 10 10 x P x P F − − ( ≤ = ≤ = − = ( ¸ ¸ | | 0 150 140 150 140 ( 1) 0,1587 10 10 x P x P F − − ( ≤ = ≤ = − = ( ¸ ¸ 185 | | 0 150 150 150 150 (0) 0, 5 10 10 x P x P F − − ( ≤ = ≤ = = ( ¸ ¸ | | 0 150 160 150 160 (1) 0, 8413 10 10 x P x P F − − ( ≤ = ≤ = = ( ¸ ¸ | | 0 150 170 150 170 (2) 0, 9772 10 10 x P x P F − − ( ≤ = ≤ = = ( ¸ ¸ ( ) ( ) 0 max 0, 2413 exp n D F x F x = − = (0,10) 0, 304 T bilateral D = Dado que exp T D D < se acepta la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. 6. (ejercicio 13, relación tema 11) Se ha observado la temperatura durante los días de una semana en la recepción de un hotel, obteniéndose 23,3º 17,6º 16,4º 20,9º 23,8º 23,3º 24,0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. SOLUCION: muestra ordenada ni Ni z Fo(x) Fn(x) |Fo(x)-Fn(x)| 16,4 1 1 -1,8000 0,0359 0,1429 0,1069 17,6 1 2 -1,2000 0,1151 0,2857 0,1706 20,9 1 3 0,4500 0,6736 0,4286 0,2451 23,3 2 5 1,6500 0,9505 0,7143 0,2362 23,8 1 6 1,9000 0,9713 0,8571 0,1141 24 1 7 2,0000 0,9772 1 0,0228 | | | | 16.4 20 16.4 1.8 0.0359 2 P x P z P z − ( ≤ = ≤ = ≤ − = ( ¸ ¸ ... | | | | 24 20 24 2 0.9772 2 P x P z P z − ( ≤ = ≤ = ≤ = ( ¸ ¸ exp 0, 2451 D = (0,05) 7 0, 483 T bilateral n D = = exp T D D < , por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. 7. (ejercicio 22, relación tema 11) Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la 186 cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. ) 05 . 0 ( = α . SOLUCIÓN: muestras ordenadas 1 4 ( ) F x 2 5 ( ) F x 1 2 4 5 ( ) ( ) F x F x − 1 2 4 5 ( ) ( ) F x F x − 40 ¼=0,25 0 0,2500 0,2500 50 ¼=0,25 2/5=0,4 -0,1500 0,1500 60 2/4=0,5 2/5=0,4 0,1000 0,1000 70 1 4/5=0,8 0,2000 0,2000 110 1 1 0,0000 0,0000 1 2 4 5 1 max ( ) ( ) 0, 25 4 exp D F x F x = − = = (0,05) 4 0,8 5 T bilateral D = = Se acepta que la productividad de los dos talleres de artesanía es la misma dado que exp T D D < 8. (ejercicio 23, relación tema 11) Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 70 80 70 70 60 Incentivos 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. ( 05 . 0 = α ) SOLUCIÓN: muestras ordenadas 1 5 ( ) F x 2 5 ( ) F x 1 2 5 5 ( ) ( ) F x F x − 1 2 5 5 ( ) ( ) F x F x − 60 1/5=0,2 0 1/5=0,2 1/5=0,2 70 4/5=0,8 1/5=0,2 3/5=0,6 3/5=0,6 80 1 3/5=0,6 2/5=0,4 2/5=0,4 90 1 4/5=0,8 1/5=0,2 1/5=0,2 100 1 1 0,0 0,0 1 2 5 5 3 max ( ) ( ) 0, 6 5 exp D F x F x = − = = (0,05) 3 0, 6 5 T unilateral D = = 187 Se acepta que los incentivos a la productividad no son efectivos dado que si exp T unilateral D D ≤ no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. 9. (ejercicio 24, relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov, 0, 05 α = ). Primera encuesta 30 20 0 50 40 30 30 Tres meses después 20 20 10 60 0 30 20 SOLUCIÓN: muestras ordenadas 1 7 ( ) F x 2 7 ( ) F x 1 2 7 7 ( ) ( ) F x F x − 1 2 7 7 ( ) ( ) F x F x − 0 1/7=0,1429 1/7=0,1429 0,0000 0,0000 10 1/7=0,1429 2/7=0,2857 -1/7=-0,1429 1/7=0,1429 20 2/7=0,2857 5/7=0,7143 -3/7=-0,4286 3/7=0,4286 30 5/7=0,7143 6/7=0,8571 -1/7=-0,1429 1/7=0,1429 40 6/7=0,8571 6/7=0,8571 0,0000 0,0000 50 1 6/7=0,8571 1/7=0,1429 1/7=0,1429 60 1 1 0,0000 0,0000 1 2 7 7 3 max ( ) ( ) =0,4286 7 exp D F x F x = − = (0,05) 5 0, 7143 7 T bilateral D = = Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que exp T bilateral D D < 188 189 EJERCICIOS 190 2. Muestreo Aleatorio Simple 1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas fue 1.040€ y = y la varianza muestral (“cuasivarianza”) es S 2 =45.000€ 2 . Estime el promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con un intervalo de confianza al 95%. Solución: ( ) ( ) 1.040 20, 49 1.019, 51 , 1.060, 49 µ ∈ = ∓ ( ) ( ) 1.040.000 20.490 1.019.510 , 1.060.490 τ ∈ = ∓ 2. Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • La proporción que votarán a un determinado representante de centro. • La proporción de ellos que tienen algún tipo de trabajo. Sean , ( 1,...,100) i i y z i = las respuestas del i-ésimo estudiante seleccionado ( 0 i y = cuando responden NO, 1 i y = cuando responden SI, análogamente para i z ). Según la muestra 100 100 1 1 70 25 i i i i y z = = = = ∑ ∑ Usando los datos de la muestra, estime 1 p (proporción de estudiantes que votarán a un determinado representante) 2 p (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Solución 100 100 1 1 1 2 0, 70 (70%) 0, 25 (25%) 100 100 i i i i y z p p = = = = = = ∑ ∑ 1 2 2 ( ) 0, 0868 (8, 68%) 2 ( ) 0, 0821 (8, 21%) V p V p = = 2 2 2 900 0, 25 225 2 ( ) 900 0, 0821 73, 89 N p V τ τ = = × = = × = 3. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). Solución: 615, 62 616 n = ≈ 4. Los alumnos de TAM de una facultad con 3.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer exámenes en 191 sábado con un límite para error de estimación del 10%. La información previa disponible indica que el 60% preferían los exámenes en sábado. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error máximo de estimación del 5%. Determinar el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. Solución: 354 04 , 353 ≅ = n 5. Un dentista está interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000 niños de escuela participó en el estudio. Los registros de un estudio anterior mostraron que había un promedio de 2,2 caries cada seis meses para el grupo. Después de un año de iniciado el estudio, el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. Usando los datos de la siguiente tabla: Niño Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Solución: ( ) No ⇒ ∈ 94 , 2 , 06 , 1 2 , 2 6. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos. Una muestra aleatoria simple de 20 pacientes fue seleccionada, y fueron medidos sus tiempos de reacción, con los resultados siguientes: 1 , 2 = y segundos y 4 , 0 = S segundos. Estime la media poblacional y establezca un límite para el error de estimación. Solución: 1697 , 0 ; 1 , 2 ˆ = = B µ 7. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 621 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 60 hogares muestreados, en 11 habita al menos una persona mayor de 65 años. Estime la proporción poblacional y establezca un límite para el error de estimación. 192 Solución: 0958 , 0 ; 1833 , 0 ˆ = = B p 8. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. El taller tiene 45 operadores. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4,2 5,1 7,9 3,8 5,3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? Solución: ( ) . . : 3, 91min., 6, 61min. INTERV CONF Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no podemos aceptar esa hipótesis. 9. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1.500 acres. Esta información se utiliza para estimar el volumen total de madera en la plantación. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada, y cada parcela fue examinada en relación con el número de árboles de tamaño grande. La media muestral para las 100 parcelas de 1 acre fue 2 , 25 = y árboles, con una varianza muestral de 136 2 = S . Estime el número total de árboles de tamaño grande en la plantación. Establezca un límite para el error de estimación. Solución: 9408 , 379 . 3 ; 800 . 37 ˆ = = B τ 10. Usando los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación, con un límite para el error de estimación de 1.500 árboles. Solución: 400 413 , 399 ≅ = n 11. Con objetivos benéficos, una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 2 1 1 1.450; 54.496 i i i i Y Y = = = = ∑ ∑ ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? Solución: ( ) ( ) 20.300 3.040, 66 17.259, 34 , 23.340, 66 = ∓ Previsión más optimista: 23.340 ; previsión más pesimista: 17.259 193 12. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14.848 familias. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona, construyendo un intervalo de confianza al 95%. Solución: ( ) 04 , 104 . 58 , 09 , 842 . 44 13. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) ¿Cuantas compras deberían observarse para estimar, con un error inferior al 3%, la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.600€ (siendo la cuasivarianza de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: a) ( ) 12,11%, 22, 89% p∈ . b) 641, 6 642 pq n D = = ≈ . c) 1 1 5600 160€ 35 n i i y y n = = = = ∑ 2 ( ) 8, 45€ B V y = = 14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros, siendo de casi 11000 euros el de mayor cuantía. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: - la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y - la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? Solución: 139, 65 140 333, 47 334 n n = ≈ = ≈ 194 15. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? Solución: 74,1 75 n = ≈ 105, 4 106 n = ≈ 16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. Calcule el límite para el error de estimación. b) Estime el número de empresas que usarían los servicios ofertados. Calcule el límite para el error de estimación. Solución: a) 70 2 ( ) 71, 2741 N y B V τ τ = = = = b) 10 2 ( ) 10, 9545 N p B V τ τ = = = = 17. Se han entrevistado 1.000 vecinos, elegidos aleatoriamente de entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación. ¿Se puede afirmar que la mayoría de los habitantes están en contra? Solución: (62, 49%, 68, 51%) 50% ... p p si se puede afirmar ∈ ⇒ > ⇒ 18. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Se decide clasificarlos en dos estratos, los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los contratos fijos está comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos temporales está comprendido entre 500 y 1.700 euros mensuales. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con 195 un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? Solución: 1 25 n = 2 25 n = 1 2 50 n n n = + = 19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. VALOR en € 33,5 32 52 43 40 41 45 42,5 39 a) Obtener un intervalo de confianza para el valor medio de las compras. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? Solución: a) ( ) ( ) 40, 89 3, 98 ; 40, 89 3, 98 36, 91; 44, 87 − + = b) No porque ( ) 45 36, 91; 44, 87 ∉ c) 35, 67 36 n compras = ≈ 20. En un estudio sociológico, realizado en una pequeña ciudad, se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. La ciudad tiene 5000 hogares, según la guía de teléfonos más reciente. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. Al terminar la investigación de campo, de los 300 hogares muestreados, en 51 habita al menos una persona mayor de 65 años. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. Solución: ( ) ( ) 25% 17% 4, 21% 12, 79%, 21, 21% ∉ = ∓ luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. 21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de combustible por cada 100 Km se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5,4 6 6,3 11 3,6 16 5,4 2 5,5 7 5,4 12 6,7 17 4,8 3 6,9 8 5 13 5,2 18 4,7 4 3,9 9 4,5 14 5,1 19 5,8 5 4,5 10 4,4 15 5,4 20 6,2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5,6 litros/100 Km. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? 196 Solución: (a) ( ) 55' 47%, 94' 53% (b) 66, 77 67 n = ≅ 3. Muestreo Aleatorio Estratificado 1. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Se sabe que el 20% de la población de la comarca vive en el municipio 1, el 30% en el municipio 2, el 25% en el municipio 3 y el 25% restante en el municipio 4. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio, aplica asignación proporcional, la cual conduce a 1 1 20 0, 20 4 N n n N = = × = de forma similar 2 3 4 6 5 5 n n n = = = . Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). Estrato 1 Estrato 2 Estrato 3 Estrato 4 470 510 500 550 490 500 470 520 550 500 540 480 500 470 470 450 560 460 440 580 2 1 1 507, 5 1091, 67 y S = = 2 2 2 505 750 y S = = 2 3 3 492 870 y S = = 2 4 4 498 4420 y S = = Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Solución: 4 1 500, 5€ i st i i N y y N = = = ∑ 2 ( ) 18, 79 € st V y = 2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Los datos 197 son separados en facturas al por mayor y al por menor después del muestreo, con los siguientes resultados en €: Por mayor Por menor Valor total facturas=36400€ 1 1 1 70 520€ 210€ n y S = = = Valor total facturas=8400€ 2 2 2 30 280€ 90€ n y S = = = Estime el valor medio de las facturas de la empresa, y fije un límite para el error de estimación. Solución: 376€; 28,14€ st y B = = 3. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados, 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. De entre los circuitos integrados muestreados de la operación A, 2 son defectuosos. De entre las piezas muestreadas de la operación B, 16 son defectuosas. a) Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados, estime la proporción de los defectuosos en el lote, y establezca un límite para el error de estimación. b) Estratifique la muestra, después de la selección, en circuitos integrados provenientes de la operación A y B, estime la proporción de los defectuosos en la población, y fije un límite para el error de estimación. c) ¿Qué respuesta encuentra más aceptable? ¿Por qué? Solución: a. 18 0,18 (18%) 100 p = = ( ) 2 ( ) 0, 0772 7, 72% V p = b. ( ) 1 1 1 2 16 0, 60 0, 40 0,14 14% 20 80 L L i i st i i i i N p N p p N N = = | | | | = = = + = | | \ . \ . ∑ ∑ ( ) 2 ( ) 0, 0901 9, 01% st V p = c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%), la muestra global no representa adecuadamente este hecho, predominando los elementos de B (80) frente a los de A (20), esto ocasiona que en el apartado a. la estimación esté sesgada hacia el valor de B ( 2 0, 20 p = ) frente al de A 198 ( 1 0,10 p = ). En el apartado b. este hecho se corrige dando a 1 p y 2 p las ponderaciones 0,60 y 0,40 respectivamente para estimar p. 4. Una cadena de restaurantes tiene 100 establecimientos en Madrid, 70 en Barcelona y 30 en Sevilla. La dirección está considerando añadir un nuevo producto en el menú. Para contrastar la posible demanda de este producto, lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de Sevilla. Usando los índice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla, respectivamente, las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: 1 1 2 2 3 3 21, 2 12 13, 3 11 26,1 9 y S y S y S = = = = = = a) Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Dar un límite del error de estimación. b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. Solución: a. 1 1 3834 19,17 / 200 L i st i i y N y pedidos semana N = = = = ∑ 2 ( ) 5, 02 / st V y pedidos semana = b. 2 9 2, 25 4 4 B D = = = 2 1 2 2 1 43, 52 ( ) L i i i L i i i N n N D N σ σ = = = = + ∑ ∑ 1 2 3 23, 31 24 14, 96 15 5, 24 6 45 n n n n = ≈ = ≈ = ≈ = 5. De las 1.395 universidades de Estados Unidos, 364 imparten estudios universitarios de dos años y 1.031 estudios universitarios de cuatro años. Se recogieron de manera independiente, una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. Carreras de 2 años Carreras de 4 años Media 154,3 411,8 Desviación típica 87,3 219,9 199 a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. Dar un límite de error de estimación. b) En el estudio del ejercicio anterior, se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. Dar un límite de error de estimación. Solución: (a) 84 , 594 . 57 ; 731 . 480 ˆ = = B st τ (b) 0826 , 0 ; 2058 , 0 ˆ = = B p st 6. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 i N 240 190 350 220 i n 25 25 25 25 i y 3,5 3,6 3,9 3,8 i S 0,8 0,9 1,2 0,7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio. b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuántos pertenecerían al barrio 3. (Suponga iguales los costes de observación) Solución: (a) 3, 725; 0,1973; (3, 5277 ; 3, 9223) st y B = = (b) 3 44, 82 45 n = ≈ 7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208 profesores titulares. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. Decide investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías. Se halló que 31 de los profesores ayudantes, 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías. Solución: 0685 , 0 ; 7214 , 0 ˆ = = B p st 200 8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. La población se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas, respectivamente. Basándose en una experiencia previa, se estima que las desviaciones típicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. Solución: 55 , 80 ; 83 , 19 ; 31 , 22 ; 83 , 19 ; 59 , 18 4 3 2 1 = = = = = n n n n n 9. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0,05 para el error de estimación. b) Suponga que el costo total de muestreo se fija en 400 € . Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo. Solución: (a) 1 2 47; 83; 130 n n n = = = (b) 61 ; 39 ; 22 2 1 = = = n n n 10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202,396 No eléctrica 36 463 96,721 a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Dé un límite para el error de estimación. b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Dé un límite para el error de estimación. Solución: a. 701, 50 st y = 2 2,19 2, 96 = b. 2 463 y = 2 2,17 2, 94 = 11. Un analista de la opinión pública tiene un presupuesto de 20.000 euros para realizar una encuesta sobre el número medio de coches por hogar. Se sabe que de los 10.000 hogares de la ciudad, 9.000 tienen teléfono. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga 201 que las varianzas en los estratos con y sin teléfono son iguales. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? Solución: 1 2 1 2 1677, 2 1677 107, 59 107 1784 n n n n n = ≈ = ≈ = + = 12. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera, obteniéndose los siguientes datos: Número de hijos i n ∑ = n i i y 1 2 i S 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. Omitir el corrector por población finita. Solución: 8,15 st y = 2 1,107 2,1 = 13. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES i N 2.500 2.700 i n 100 400 i y 120 250 2 i S 9.000 16.000 Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución: 187, 5 st y = 2 29,16 10, 8 = 14. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. Después de obtenidos los datos se observa que sólo 202 50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error, mediante muestreo aleatorio estratificado después de seleccionar la muestra. Solución: 0, 38 38% st st p p = ⇒ = 2 ( ) 0, 0687 6, 87% st V p = ⇒ 15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los obreros, técnicos y administrativos tienen diferentes tasas de accidentes, la corporación decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaños de los estratos. No habiendo diferencia entre los costes de observación de cada grupo, determine la mejor asignación para una muestra de 40 empleados. Obreros Técnicos Administrativos 2 i S 36 25 9 i N 132 92 27 Solución: 1 2 3 40 0, 5941 23, 8 24 40 0, 3451 13,8 14 40 0, 0608 2, 4 2 n n n = × = ≈ = × = ≈ = × = ≈ 16. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos, costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. Solución: 1 2 3 200 0, 4795 95, 9 96 200 0,1909 38, 2 38 200 0, 3296 65, 9 66 n n n = × = ≈ = × = ≈ = × = ≈ 17. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 203 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación. Solución: 2 2 1 1 1 65, 05€ i i st i i i i N y N y y N N = = = = = ∑ ∑ 2 ( ) 25,24€ st V y = 18. Para la comercialización de un producto se le clasifica, atendiendo al calibre, en tres categorías: pequeña, mediana y grande. Un establecimiento dispone de 300 piezas pequeñas, 500 medianas y 200 piezas grandes. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías, resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12, 14, 12, 15, 12 Mediana 6 16, 22, 24, 20, 20, 18 Grande 4 30, 33, 31, 34 Considerando los anteriores datos como una muestra previa, obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. Solución: 2 2 250.000 0, 0625 4 4.000.000 B D N = = = 2 1 2 2 1 71, 66 ( ) L i i i L i i i N n N D N σ σ = = = = + ∑ ∑ 1 2 3 13, 79 14 45, 99 46 11, 87 12 72 n n n n = ≈ = ≈ = ≈ = 19. La producción de piezas de una factoría se realiza en dos máquinas. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se les pasó control de calidad a 200 piezas; 67 producidas por la máquina A y dos de ellas resultaron defectuosas; las 133 restantes procedían de la máquina B, siendo 6 de ellas defectuosas. Estime la proporción de piezas defectuosas de la factoría y dé el límite del error de estimación. Omita el coeficiente corrector por población finita. Solución: % 74 , 2 %; 9 , 3 ˆ = = B p 20. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. Para ajustar sus tarifas desea estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto del seguro). Se clasifican las empresas en función de su tamaño. El número de empresas de cada tipo, el coste de obtención de esta información en cada empresa así como los valores mínimos, medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) 204 Tipo de empresa Número de empresas Costes de observación Gastos de reparación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación, ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? Solución: €) 578 4 36 9 34 6 8 ( 78 ; 36 ; 34 ; 8 3 2 1 = + + = = = = x x x n n n n 21. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. A partir de la información proporcionada por la siguiente tabla, obtener el número óptimo de padres que, de cada estrato, hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados Porcentaje de participación en años anteriores Coste de encuestar a un elemento 4-6 150 40% 4 6-8 130 30% 9 8-12 120 25% 16 12-14 100 20% 25 Sol. 21 65 , 20 ; 34 53 , 33 ; 52 27 , 51 ; 95 84 , 94 ; 3 , 200 4 3 2 1 ≅ = ≅ = ≅ = ≅ = = n n n n n 202 = ⇒ n 22. El coste de transportar mercancías en avión depende del peso. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. Se decide estratificar basándose en las semanas, con el fin de observar si existe variación semanal en la cantidad producida. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque, para las dos semanas, mostraron las siguientes mediciones: Semana A Semana B 58,3 59,2 60,4 60,1 59,3 59,6 58,7 59,2 59,1 58,8 59,6 60,5 205 a. Estimar el peso total del embarque de maquinaria, sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B. b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. c. Determinar el tamaño de la muestra y su asignación, en el caso de que se quiera estimar el peso total del embarque, con un límite para el error de estimación de 50 kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios. Solución: (a) 13 , 722 . 19 ˆ = τ (b) ) 56 ' 850 . 19 , 71 ' 593 . 19 ( (c) 67 32 30 , 31 ; 35 37 , 34 ; 67 , 65 2 1 = ⇒ ≅ = ≅ = = n n n n 23. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. La cadena está formada por 4 almacenes, siendo el coste de muestreo igual para todos. Se usa muestreo aleatorio estratificado, con cada tienda como un estrato. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar 65 1 = N 42 2 = N 93 3 = N 25 4 = N Tamaño muestra 14 1 = n 9 2 = n 21 3 = n 6 4 = n Nº cuentas no cobradas 4 2 8 1 a. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el error de estimación. b. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas, con un límite del error de estimación del 5%. Solución: (a) 1173 , 0 ; 30 , 0 ˆ = = B p (b) 13 17 , 12 ; 59 98 , 58 ; 23 80 , 22 ; 39 35 , 38 ; 30 , 132 4 3 2 1 ≅ = ≅ = ≅ = ≅ = = n n n n n 134 = ⇒ n 24. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje, clasificado como N=Normal, A=Avanzado, L=Lento. En el presente curso, la distribución de los alumnos según el tipo de aprendizaje es 50 normal, 30 avanzado y 20 lento, la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal, 89 para el avanzado y 70 para el lento, con unas cuasivarianzas de 80, 30 y 40 respectivamente. Para actualizar esta información, se tomó una muestra aleatoria de estudiantes, se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis, el tipo de aprendizaje de cada estudiante): 206 70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. Estime la calificación media en el examen final de matemáticas. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación, así como determine la ganancia en precisión. c. Se desea mejorar la estimación de la nota media del examen final en matemáticas, teniendo en cuenta más información. Usando estos resultados como muestra previa, qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos, utilizando asignación proporcional. d. Estime, con un intervalo de confianza, el número de estudiantes con aprendizaje normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la muestra, ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? Solución: (a) ˆ 78, 59; 3, 21 B µ = = (b) 25 , 4 ; 53 , 77 ˆ = = B µ (c) 38 8 26 , 7 ; 11 89 , 10 ; 19 15 , 18 ; 31 , 36 3 2 1 = ⇒ ≅ = ≅ = ≅ = = n n n n n (d) 17 8 , 16 ); 69 , 43 , 87 , 11 ( ≅ = n 25. Se desea estimar el salario medio de los empleados de una empresa. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: 1 2 26, 91 7, 77 8 19,14 20 28 Neyman n n n n = = ≅ = ≅ ⇒ = 207 4. Estimación de Razón, Regresión y Diferencia 1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha ciudad, vía declaración de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla. Renta Consumo 1.702,44 1.204 1.339,56 1.000 981,06 800 2.537,04 1.800 1.519,85 1.200 3.080,19 2.600 1.502,53 1.080 1.702,87 1.240 1.402,36 1.000 1.803,04 1.400 2.053,46 1.484 3.005,06 2.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón. De el LEE. Solución: ˆ 1.116.002, 07€; 59.053, 37€ y B τ = = 2. Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola. Se sabe que el total de superficie plantada es de 3.840 hectáreas. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción. Los resultados fueron: Superficie Producción 3,7 12 4,3 14 4,1 11 5 15 5,5 16 3,8 12 8 24 5,1 15 5,7 18 6 20 3 8 7 20 5,4 16 4,4 14 208 5,5 18 5 15 5,9 18 5,6 17 5 15 7,2 22 a) Estimar la producción media y total mediante los estimadores de razón y m.a.s. Dar sus respectivos LEE y compararlos. b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución: (a) ˆ ˆ : 15, 57 ; 0, 37 ; 11.680, 61 ; 278,14 y y razón tm B tm tm B tm µ τ µ τ = = = = ˆ ˆ . . . : 16 ; 1, 69 ; 12.000 ; 1.265, 76 ma s y tm B tm tm B tm µ τ µ τ = = = = = (b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el máximo n=43. 3. Para un grupo de 1.000 pequeños establecimientos se desea realizar un estudio sobre la media y el total de ventas diarias. Se tiene información de que, por término medio, el gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son: Gastos Ventas 3,7 120 4,3 140 4,1 135 5 150 5,5 160 3,8 120 8 160 5,1 150 5,7 125 6 130 0 80 7 150 5,4 150 4,4 120 5,5 140 5 150 5,9 150 6,6 170 a) Estimar la media y el total de ventas diarias utilizando estimadores de regresión. Dar LEE. 209 b) Se quiere repetir el estudio anterior de forma que la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución: (a) € 76 , 559 . 5 €; 38 , 314 . 138 ˆ €; 56 , 5 €; 31 , 138 ˆ = = = = τ µ τ µ B B yL yL (b) 362 67 , 361 ≅ = n establecimientos 4. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. Se tiene información de que los ingresos medios diarios son de 500 euros. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos, obteniéndose: Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 a) Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple, estimadores de razón, regresión y diferencia. Obtenga el LEE en cada caso. b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución: (a) Muestreo aleatorio simple ˆ ˆ 453, 5€ 90.700€ ˆ ˆ B 2 V( ) 75,20€ B 200 B =15.040,97€ y Ny µ τ µ µ τ µ = = = = = = = × Estimadores de razón ˆ ˆ 0, 879 87.900€ 439, 5€ y x y x y r r r x τ τ µ µ = = = = = = 9, 3€ B µ = 1.860,46€ B τ = Estimadores de regresión ˆ ˆ ˆ 437, 515€ 87.503€ yL yL yL N µ τ µ = = = 2, 3104€ 462, 09€ B B NB µ τ µ = = = Estimadores de diferencia ˆ ˆ ˆ 437, 5€ 87.500€ yD yD yD N µ τ µ = = = 210 ( ) ˆ ˆ 2 2,179 435, 8899 yD B V B NB µ τ µ µ = = = = (b) 20 establecimientos 5. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: 0102 , 0 ; 1467 , 0 = = B r 6. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior, ese total es de 128.200 €. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 a) Usando un estimador de razón, estime el total de ganancias con un intervalo de confianza. b) Utilizando un estimador de regresión y un estimador de diferencia, estime las ganancias medias y establezca un límite para el error de estimación. Solución: a) ( ) 129940, 67 , 138668, 85 y τ ∈ 211 b) ˆ 1.094, 53; 40, 46 L Y B µ = = ; ˆ 1.084, 28; 41, 28 D Y B µ = = . 7. Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. Una muestra aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. Tienda Ventas antes de la campaña Ventas actuales Tienda Ventas antes de la campaña Ventas Actuales 1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257 a. Use los siguientes datos para estimar el total de ventas para el periodo actual y establezca un límite para el error de estimación. Supóngase que las ventas totales en el periodo previo a la campaña de promoción fueran de 216.256 €. Use los tres métodos de estimación con información auxiliar. b. Determinar el tamaño requerido de muestra para estimar Y τˆ con un límite para el error de estimación igual a 2.000€. Solución: (a) 83 , 073 . 3 ; 86 , 611 . 231 ˆ = = B Y τ ; 85 , 950 . 2 ; 66 , 581 . 231 ˆ = = B L Y τ ; 01 , 849 . 3 ; 00 , 511 . 231 ˆ = = B D Y τ (b) Razón: 45 56 , 44 ≅ = n ; Regresión: 42 38 , 41 ≅ = n ; Diferencia: 67 16 , 66 ≅ = n 8. El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2.174,2 (en miles de millones). Los datos se presentan en la tabla adjunta: Industria 1980 1981 Producto de fábricas textiles 13,6 14,5 Productos químicos y relacionados 37,7 42,7 Madera aserrada y leña 15,2 15,1 Equipo eléctrico y electrónico 48,4 53,6 Vehículos y equipo 19,6 25,4 Transporte y almacenaje 33,5 35,9 Banca 44,4 48,5 212 Bienes Raíces 198,3 221,2 Servicios de Salud 99,2 114,0 Servicios de Educación 15,4 17,0 (a) Encuentre el estimador de razón del ingreso total de 1981, y establezca un límite para el error de estimación. (b) Encuentre el estimador de regresión del ingreso total de 1981, y establezca un límite para el error de estimación. (c) Encuentre el estimador de diferencia del ingreso total de 1981, y establezca un límite para el error de estimación. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) 95 , 45 ; 30 , 433 . 2 ˆ = = B Y τ (b) 64 , 48 ; 91 , 432 . 2 ˆ = = B YL τ (c) 07 , 180 ; 90 , 455 . 2 ˆ = = B Y τ 9. En una población de 500 hogares, para la que es conocido que el gasto total general durante un año es de 15.000.000 €, se quiere estimar el gasto total en alimentación durante un año, para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12.500 15.000 10.000 17.500 Gasto general 24.000 31.000 20.000 36.000 Antes de calcular el estimador, ¿cree que es útil utilizar esta información auxiliar?, justifíquese. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. Solución: ( ) 7.205.693€ ; 7.659.172€ y τ ∈ 10. Las diferencias entre ingresos y gastos, en 5 de las 250 oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime el total de ingresos y el límite para el error de estimación. Solución: 3349000 € yD yD N τ µ = = ( ) 2 2 2 2 ( ) 50169875 € 2 ( ) 14166,14 € D D yD yD N n S S V N N N n V N n n τ τ − = = − = = 11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros), este año (Y) y el año pasado (X): 213 Pueblo A Pueblo B x i y i x i y i 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. Sin hacer distinción entre pueblos, estime las ventas medias para este año utilizando un estimador de razón. Dé un límite para el error de estimación. b. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. Compare los estimadores que se obtienen en cada caso justificadamente. Solución: (a) 69 , 5 ; 53 , 180 ˆ = = B µ (b) 81 , 53 ; 91 , 171 ˆ = = B µ (c) 53 , 49 ; 43 , 171 ˆ = = B µ (d) La mejor estimación es en la que se usa el estimador de razón, por la fuerte relación entre las variables. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. 12. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamaño y litros utilizados en riego aparecen en la siguiente tabla Litros 600 1800 750 900 1100 1400 950 700 1000 720 Hectáreas 50 150 60 70 100 120 80 60 90 60 Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. Solución: 11'81 / r litros hectarea = 2 ( ) 0' 3392 V r = 13. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). Se obtuvieron los siguientes resultados: 6 ; 8 ; 10 ; 40 ; 60 ; 80 3 2 1 3 2 1 = = = = = = n n n N N N Zona A Zona B Zona C X Y X Y X Y 3,2 4,1 3,1 3,9 2,8 3,8 3,0 4,0 3,0 4,0 2,9 3,7 214 2,9 4,1 3,1 3,8 2,9 3,8 2,8 3,9 3,2 4,0 3,0 3,6 3,1 3,7 3,0 3,8 3,1 3,8 3,2 4,1 3,2 4,1 3,0 3,7 2,9 4,2 2,9 3,7 2,8 4,0 3,0 3,8 3,1 3,9 2,8 3,8 a. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Dar una estimación del error. b. Si se le permite un error de estimación de 0,01 para estimar el peso medio estratificado al final del tratamiento, ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación proporcional. c. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3,2 kilogramos, estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón. Dar el límite de error de estimación. d. Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. Comentar los resultados. Solución: (a) 0523 , 0 ; 8944 , 3 ˆ ; 0516 , 0 ; 0008 , 3 ˆ = = = = B B y x µ µ (b) 147 33 1 , 32 ; 49 15 , 48 ; 65 2 , 64 ; 4 , 144 3 2 1 = ⇒ ≅ = ≅ = ≅ = = n n n n n (c) 0793 , 0 ; 1467 , 4 ˆ = = B y µ (d) 0617 , 0 ; 8875 , 3 ˆ = = B µ 14. En una escuela de 560 alumnos, se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los siguientes: Nota curso 99/00 Nota curso 00/01 80 87 78 65 98 86 45 47 215 61 67 83 94 79 67 56 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. Dar una estimación del error de muestreo. Solución: 45 , 7 ; 75 ˆ = = B y µ 15. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Usando una fotografía aérea, el director divide la zona en 200 parcelas de hectárea y media. Se toma una muestra aleatoria de 10 parcelas. El número total de abetos muertos, obtenidos según la cantidad en fotografía es 4200. Parcela 1 2 3 4 5 6 7 8 9 10 Cantidad en fotografía 12 30 24 24 18 30 12 6 36 42 Cantidad en terreno 18 42 24 36 24 36 14 10 48 54 a. Estime la razón poblacional y obtenga su intervalo de confianza. b. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación. c. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos, con un límite de error de estimación de 200 abetos? Solución: (a) ) 4097 ' 1 , 2057 ' 1 ( ; 3077 , 1 = r (b) 44 , 428 ; 31 , 492 . 5 ˆ = = B y τ ) (c) 39 9 , 38 ≅ = n 16. De una población de 40 hogares, para la que es conocido que el gasto total general durante un periodo de un año, en general, es de 12.000.000 um., se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. b. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador, ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? 216 c. Estimar mediante un estimador de razón el total de gasto en alimentación, utilizando la información auxiliar del apartado b. d. Corroborar la respuesta del apartado b indicando qué estimador es mejor, el del apartado a o el del apartado c. Solución: (a) ) 744 . 724 . 6 , 255 . 275 . 4 ( (b) 1 = ρ (c) 000 . 000 . 6 ˆ = y τ (d) 0 = B (límite del error de estimación del apartado (c) 17. Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. A partir de los datos siguientes: 25 25 25 2 2 1 1 1 9,1 2, 6 2240 169 522 i i i i i i i x y x y x y = = = = = = = = ∑ ∑ ∑ estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. Solución: 3, 5 0, 767 r B = = 18. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas, a partir de los datos de la tabla siguiente, se pide: CHICOS CHICAS Examen previo Examen de cálculo Examen previo Examen de cálculo 39 65 57 92 43 78 47 89 21 52 28 73 64 82 75 98 34 56 52 75 a. Sin tener en cuenta el sexo, estima la calificación media en el examen final de cálculo utilizando un estimador de razón. De una medida del error de estimación. b. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. Compare los estimadores que se obtienen en cada caso justificadamente. 217 Solución: (a) 54 , 10 ; 97 , 80 ˆ = = B y µ (b) 5 , 9 ; 76 , 73 ˆ = = B µ (c) 46 , 9 ; 76 ˆ = = B µ 5. Muestreo Sistemático 1. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día. Cantidad de llenado (en onzas) 12,00 11,97 12,01 12,03 12,01 11,80 11,91 11,98 12,03 11,98 12,00 11,83 11,87 12,01 11,98 11,87 11,90 11,88 12,05 11,87 11,91 11,93 11,94 11,89 11,72 11,93 11,95 11,97 11,93 12,05 11,85 11,98 11,87 12,05 12,02 12,04 a. Estime µ , y establezca un límite para el error de estimación. Suponga que N=1.800. b. Determinar el tamaño de muestra requerido para estimar µ dentro de 0,01 unidades. Solución: (a) 0259 , 0 ; 94 , 11 ˆ = = B sy µ (b) 218 1 , 217 ≅ = n 2. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. a. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia. Establezca un límite para el error de estimación. Suponga que 2.800 autos pasan por el puesto de verificación durante el periodo de muestreo. Automóvil Respuesta 1 1 8 1 15 0 2794 1 ∑ = = 400 1 324 i i y b. En un nuevo control, la Guardia Civil de Tráfico espera que pasen unos 5.000 automóviles por el puesto de verificación. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. 218 Solución: (a) 0364 , 0 ; 8100 , 0 ˆ = = B p sy (b) 1.176, 97 1177 4 n k = ≅ = 3. Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está en exhibición. Puesto que el control de visitantes en el museo cada día es muy costosa, los funcionarios deciden obtener estos datos cada décimo día. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día Nº personas que visitan el museo 3 160 13 350 23 225 173 290 ∑ ∑ = = = = 18 1 18 1 2 450 . 321 . 1 ; 868 . 4 i i i i y y Use estos datos para estimar el número total de personas que visitan el museo durante el periodo específico. Establezca un límite para el error de estimación. Solución: 34 , 370 . 1 ; 48680 ˆ = = B sy τ 4. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios toman una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados. Sea 1 = i y si la i-ésima persona muestreada favorece los cambios propuestos e 0 = i y si se opone a los cambios. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. Establezca un límite para el error de estimación. ∑ = = 65 1 48 i i y Solución: 1042 , 0 ; 7385 , 0 ˆ = = B p sy 5. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980, y establezca un límite para el error de estimación. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980, y establezca un límite para el error de estimación. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? 219 Año Nac.Masculinos Nac.Femeninos Total de Nac. Natalidad 1955 2.073.719 1.973.576 4.047.295 26,0 1960 2.179.708 2.078.142 4.257.850 23,7 1965 1.927.054 1.833.304 3.760.358 19,4 1970 1.915.378 1.816.008 3.731.386 18,4 1975 1.613.135 1.531.063 3.144.198 14,6 1980 1.852.616 1.759.642 3.612.258 15,9 Solución: (a) 35 , 437 . 139 ; 935 . 926 . 1 ˆ = = B sy µ ; (b) 17 , 3 ; 67 , 19 ˆ = = B sy µ ; (c) Si. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente. 6. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Año Tasa Año Tasa 1900 0,7 1945 3,5 1905 0,8 1950 2,6 1910 0,9 1955 2,3 1915 1,0 1960 2,2 1920 1,6 1965 2,5 1925 1,5 1970 3,5 1930 1,6 1975 4,8 1935 1,7 1980 5,2 1940 2,0 Solución: 57 , 0 ; 26 , 2 ˆ = = B sy µ . Mejor, se observa, en general, una tendencia creciente en los datos de la muestra, aunque se rompa ese orden parcial en los años 1945-1955. 7. La gerencia de una compañía privada con 2.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado muestreado Respuesta 3 1 13 0 23 1 1993 1 200 1 110 i i y = = ∑ 220 Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: 330, 7 331 6, 04 6 n k k = ≈ = ⇒ = 8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000 €. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1.000.000 € con una confianza del 95%. Para ello decide tomar una muestra sistemática de 1 en k . Determine el valor de k. Solución: 10 k = 9. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Los funcionarios tomaron una muestra sistemática de 1 en 10, a partir de una lista en orden alfabético de los 650 miembros registrados, obteniendo que 47 estaban a favor de los cambios propuestos. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios, ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Solución: 625 214, 8 215 3, 02 3 ( 1) 215 Npq n k k N D pq = = ≈ ≤ = = − + 6. Muestreo por Conglomerados. (Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado número de datos y resolver a mano, verificando la solución con el ordenador, una versión con menos datos) 1. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de reparación para cada sierra, pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Entonces decide usar muestreo por conglomerados, con cada industria como un conglomerado. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y el número de sierras son: 221 Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a. Estime el costo medio de reparación por sierra para el mes pasado, y establezca un límite para el error de estimación. b. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. Establezca un límite para el error de estimación. c. Después de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta información adicional, estime la cantidad total gastada en reparación de sierras por estas industrias, y establezca un límite para el error de estimación. Solución: (a) 78 , 1 ; 73 , 19 ˆ = = B µ (b) 07 , 175 . 3 ; 312 . 12 ˆ = = B τ (c) 78 , 110 . 1 ; 85 , 008 . 14 ˆ = = B τ 2. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consiste en 87 plantas separadas localizadas en todo Estados Unidos. Ya que los resultados deber ser obtenidos rápidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un conglomerado. Se selecciona una muestra aleatoria simple de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 222 3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 a) Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. b) La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 2% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta. Solución: (a) % 81 , 4 %; 91 , 70 ˆ = = B p ) (b) 48 6 , 47 ≅ = n 3. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 223 17 78 3210 18 51 2430 19 67 2730 20 70 2880 a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación. b. En la encuesta anterior se desconoce el número de hogares en la ciudad. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. c. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad, con un límite de 5.000€ para el error de estimación. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite. Solución: (a) 64 , 0 ; 17 , 40 ˆ = = B µ (b) 88 , 927 . 6 ; 020 . 157 ˆ = = B τ (c) 30 4 , 29 ≅ = n 4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica. El cereal está en paquetes que contienen 12 cajas cada uno. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados, con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0 2 15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9 3 16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1 4 15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0 5 16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica, y establezca un límite para el error de estimación. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita. Solución: 0215 , 0 ; 0050 , 16 ˆ = = B µ 5. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado. El periódico quiere hacer la estimación el día de la elección, pero antes de que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra, para obtener la información pertinente directamente de los votantes. Los resultados se muestran en esta tabla: 224 Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Estime la proporción de votantes que apoyan al candidato A, y establezca un límite para el error de estimación. b. El periódico quiere realizar una encuesta similar durante la siguiente elección. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: 0307 , 0 ; 5701 , 0 ˆ = = B p (b) 21 1 , 20 ≅ = n 6. Con motivo del cuarto centenario del Quijote, el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. Se selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias, obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine, usando los datos de la encuesta piloto, cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. Solución: 96, 92 97 n = ≈ 7. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes. Por esta razón para el diseño de la 225 encuesta utiliza muestreo por conglomerados. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas, obteniéndose estos datos: Conglomerado (i) Nº de residentes (m i ) Ingreso total por conglomerado en € (y i ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 151 residentes 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación, suponiendo que M es desconocido. c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. NOTA: Repetir este ejemplo con todos los i m iguales (por ejemplo, 6 i m i = ∀ , supongamos conocido 6 415 2.490 M = × = ) y estime el total por los dos métodos 226 estudiados ( ) t t M y N y τ τ = = . Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. d) Tomando los anteriores datos como una muestra previa, cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. Solución: a) 8.801, 32 € / 1.617,14€ residente B µ = = b) 22.061.400 € 3.505.584, 04 € t B τ = = c) ( ) 17.949.791, 34€ , 26.056.831,18€ d) 166, 58 167 n = ≈ 8. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados, obtenga el límite para el error de estimación en cada caso y comente los resultados. Solución: Muestreo por conglomerados 85 , 562 ; 8000 ˆ = = B τ Muestreo aleatorio simple 78 , 1077 ; 6400 ˆ = = B τ 9. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica, cada uno de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cm 3 1 33 32,5 31,7 34,2 2 32 32,6 33,8 32,5 3 30,9 33,1 33 33,4 4 34,1 33,1 32,5 33,2 5 32 32,1 32,6 33,6 Estime el volumen medio por envase y dar la cota de error de estimación. Solución: 22 , 0 ; 80 , 32 ˆ = = B µ 10. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año, el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: 227 Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si a. Estime el número de bajas en el último año en las empresas del pueblo. Dé el límite del error de estimación. b. Estime la proporción de empresas que usarían los servicios ofertados. Dé el límite del error de estimación. Solución: (a) 02 , 151 ; 5 , 212 ˆ = = B τ (b) % 68 , 30 %; 40 ˆ = = B p 11. Cierto tipo de tableros posee 12 microcircuitos cada uno. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación. Solución: 0674 , 0 ; 1333 , 0 ˆ = = B p 12. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano'', emitido las 24 horas del día por un canal Digital. Dicha ciudad está dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas, y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital Nº total horas que ven programa 1 8 13 2 7 13 3 9 14 4 6 13 5 5 0 6 9 10 7 6 6 228 8 8 14 9 9 16 10 6 4 a. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través de Canal Digital. b. Obtener un intervalo de confianza para el número total de horas. c. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional, con un límite para el error de estimación de magnitud 20. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) 2060 ˆ = τ ; (b) ) 70 , 2704 , 30 , 1415 ( (c) 197 4 , 196 ≅ = n 13. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 3 2 7 3 3 9 4 4 6 3 5 5 2 6 9 4 7 6 3 8 8 3 9 9 4 10 6 2 a. Estimar la proporción de hogares interesados en contratar la televisión digital. b. Obtenga un intervalo de confianza para la citada proporción. c. Determinar cuántas manzanas se deberían muestrear para estimar la proporción poblacional con un límite para el error de estimación del 1%. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Solución: (a) 4247 , 0 ˆ = p (b) ) 4547 ' 0 , 3947 ' 0 ( (c) 65 28 , 64 ≅ = n 14. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Se consideran 1000 conglomerados de 5 familias cada uno, y se elige una 229 muestra aleatoria de 10 conglomerados, en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción. Solución: 0143 , 0 ) ˆ ( ˆ ; 48 , 0 ˆ = = p V p 15. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa, los resultados han sido: Factoría Nº empleados Dispuestos 1 250 225 2 190 175 3 210 190 4 400 350 5 150 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Obtenga una estimación de la varianza del estimador empleado. Solución: 0002 , 0 ) ˆ ( ˆ ; 1167 , 0 ˆ = = p V p 16. Un gran embarque de mariscos congelados es empaquetado en cajas, conteniendo cada una 24 paquetes de 5 kilos. Hay 100 cajas en el embarque. Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. Los datos son: 9 6 3 10 2 a. Estime el peso total de mariscos dañados en el embarque y establezca un límite para el error de estimación. b. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque, con un límite de error de 275. Solución: (a) ˆ 600; 308, 22 B τ = = (b) 6, 20 7 n = ≅ 230 7. Estimación del Tamaño de la Población. 1. Un club deportivo se interesa por el número de truchas de río en un arroyo. Durante un periodo de varios días, sea atrapan 100 truchas, se marcan y se devuelven al arroyo. Obsérvese que la muestra representa 100 peces diferentes, ya que cualquier pez atrapado en esos días, que ya había sido marcado, se devolvía inmediatamente. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que este número fue de 27 en la segunda muestra. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Solución: 60 , 150 ; 4 , 444 ˆ = = B N 2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. Se usa una serie de 50 trampas. En la primera muestra se atrapan 320 codornices. Después de ser capturadas, cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda. Luego se sueltan todas las aves. Varios meses después se obtiene una segunda muestra de 515 codornices. Suponga que 91 de estos pájaros están marcados. Estimar el tamaño total de la población de codornices y dar un límite de error de estimación. Solución: 51 , 344 ; 99 , 1810 ˆ = = B N 3. Expertos en pesca están interesados en estimar el número de salmones de una reserva. Se atrapa una muestra aleatoria de 2876 salmones. Cada uno es marcado y soltado. Un mes después se atrapa una segunda muestra de 2562. Supongamos que 678 tienen marcas en la segunda muestra. Estime el tamaño de la población total y establezca un límite del error de estimación. Solución: 82 , 715 ; 72 , 867 . 10 ˆ = = B N 4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas alrededor del ayuntamiento. A fin de cuantificar el problema contratan un equipo de investigadores para que estime el número de palomas que ocupan el edificio. Con varias trampas se captura una muestra de 60 palomas, se marcan y se sueltan. Un mes después se repite el proceso, usando 60 palomas, de las que 18 están marcadas. Estimar el tamaño total de la población de palomas y dar un límite de error de estimación. Solución: 88 , 78 ; 200 ˆ = = B N 5. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una 231 muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución: 72 , 507 ; 67 , 066 . 1 ˆ = = B N 6. En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. Solución: (a) 1 , 2 ; 6 , 5 ˆ = = B λ (b) 32 , 423 ; 120 . 1 ˆ = = B M 7. Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de error de estimación. Solución: 8 , 170 ; 912 ˆ = = B M 8. Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. Solución: muestreo inverso ( ) 1910 326, 58 ∓ 9. El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de 232 clientes las 24 horas del día por lo que decide observar de forma sistemática media hora cada 3 horas, obteniendo los datos de la siguiente tabla clientes 10:00-10:30 13:00-13:30 16:00-16:30 19:00-19:30 22:00-22:30 01:00-01:30 04:00-04:30 07:00-07:30 35 20 19 30 25 9 12 18 Sabiendo que el gasto medio por cliente es de 20∈, estime los ingresos diarios de la farmacia observada y el correspondiente límite para el error de estimación utilizando diferentes métodos. Solución: Muestreo por cuadros 76 , 110 . 3 ; 160 . 20 = = B Ingresos ; Muestreo aleatorio simple 22 , 402 . 5 ; 160 . 20 = = B Ingresos 10. Se desea estimar el número total de palomas en la glorieta de una ciudad. Se capturan 80 palomas, se marcan y se devuelven a la población. Se realiza una segunda muestra hasta encontrar 30 palomas marcadas, se han tenido que capturar para ello 300 aves. Estimar el tamaño total y el límite de error de estimación. Solución: 62 , 272 ; 800 ˆ = = B N 11. Se desea estimar el número total de pingüinos en una determinada zona. Se obtiene una muestra de tamaño 60, se marcan y se devuelven a la población. Al día siguiente se elige otra muestra de tamaño 400 y en ella se encuentran 12 marcados. Estimar el número total de pingüinos y dar la cota de error de estimación. Solución: 25 , 137 . 1 ; 000 . 2 ˆ = = B N 12. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Control Número de vehículos de ese modelo que usan el aparcamiento 1 1 2 1 3 2 4 1 5 3 Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. 233 Solución: 59 , 814 ; 1152 ˆ = = B M 13. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 35 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 40, observando que el número de personas era 2100. a. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de confianza del 95%. b. Estime el número total de asistentes, y fije un límite para el error de estimación. Solución: (a) ) 6 , 1 , 4 , 1 ( (b) 229 13 , 229 ; 250 . 5 ˆ ≅ = = B M 14. Se toman periódicamente muestras del aire en un área industrial de la ciudad. La densidad de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. A partir de 15 muestras de 1 3 cm , se obtuvo un promedio de 210 partículas/ 3 cm . Estimar la densidad de las partículas dañinas en dicha zona, así como dar una estimación del error de dicha estimación. Solución: 48 , 7 ; / 210 ˆ 3 = = B cm part λ 15. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en la Expo de Lisboa. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se traza una malla que divide el área total en 100 cuadros de igual tamaño. Se selecciona una muestra aleatoria de 40 cuadros, observando que el número de personas es de 750. a. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de confianza. b. Estime el número total de asistentes a la inauguración y fije un límite para el error de estimación. Solución: (a) ) 6424 ' 1 , 4188 ' 1 ( ; 5306 , 1 ˆ = λ (b) 9 , 136 ; 1875 ˆ = = B M 16. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el crecimiento de la población de palomas. Se quiere conocer el tamaño de la población de este año para compararlo con el del año pasado. Se atrapa una muestra inicial de 600 palomas y se les da el fármaco, a la vez que se aprovecha para marcarlas en una pata. En fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca. a. Estime el tamaño de la población con un intervalo del 95% de confianza. 234 b. Para reducir el límite de error de estimación a la mitad, ¿en qué proporción deben ser mayores las cantidades 100 y 48 observadas en la segunda muestra?, ¿se deberían observar el doble de las cantidades anteriores, es decir, 200 y 96?, ¿el triple?, ¿el cuádruplo?,... Solución: (a) ( ) 989' 79, 1510' 21 (b) el cuádruplo 8. Indicadores estadísticos regionales. 1. Sabemos que, en 1995, el PIB a precios de mercado de los siguientes países fue: PIB (u.m.) Superficie (1000 km 2 ) Alemania 826,4 248,7 Bélgica 104,5 30,5 Dinamarca 76,4 43,1 España 216,2 504,8 Francia 674,8 544,0 Grecia 42,8 132,0 Holanda 165,3 41,2 Inglaterra 595,0 244,1 Irlanda 24,1 68,9 Italia 473,0 301,3 Luxemburgo 4,7 2,6 Portugal 27,3 92,1 Total 3230,5 2253,3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. Solución: 0, 7095 F = 2. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas, cuyos V.A.B. al coste de los factores en millones de pesetas en 1991 fueron: V.A.B. Cataluña 2.876.920,7 Gerona 257.026,0 Barcelona 2.318.025,7 Tarragona 301.869,0 Baleares 358.450,3 Comunidad Valenciana 1.724.809,4 Castellón 205.160,3 Valencia 1.016.354,3 Alicante 503.294,8 Murcia 362.475,0 235 Andalucía 1.056.503,0 Almería 140.396,8 Granada 206.487,2 Málaga 346.748,7 Cádiz 362.870,3 Total V.A.B. 6.379.158,4 Determinar: a. El índice de concentración de Theil de la producción de esta zona. b. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias existentes entre las provincias de cada grupo? Solución: (a) 0,1604 T I = (b) 68% 3. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: 1 ln ln 0,1597 N j j j T N x x = = + = ∑ 0,1152 ln T THEIL T I I N = = = 4. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: 1 1 1 1 1 2, 6865 0, 6716 4 4 4 N N N i i i i i i i D d f d d = = = = = = = = ∑ ∑ ∑ 5. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 R2 R3 R4 80 15 100 50 350 70 450 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. 236 Solución: 1 1 1 0, 97959 2 N j j j F x y = = − − = ∑ 9. Medidas de localización espacial. 1. En un país, dividido administrativamente en cuatro regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas, Papeleras y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era: Regiones I II III IV Total Siderurgia 5 3 1 0 9 Construcción 10 8 7 12 37 Químicas 0 1 5 3 9 Papeleras 4 7 10 3 24 Alimentación 2 3 12 4 21 Total 21 22 35 22 100 Determinar: a. Los cocientes de localización para cada industria en cada región. b. Los coeficientes de localización sectorial para cada industria. c. Los coeficientes de especialización para cada región. d. Los coeficientes de diversificación regional. Solución: (a) ij L I II III IV Siderurgia 2,65 1,52 0,32 0 Construcción 1,29 0,98 0,54 1,47 Químicas 0 0,51 1,59 1,52 Papeleras 0,79 1,33 1,19 0,57 Alimentación 0,45 0,65 1,63 0,87 (b) i CL Siderurgia 0,46 Construcción 0,16 Químicas 0,32 Papeleras 0,14 Alimentación 0,22 237 (c) j CE I 0,25 II 0,12 III 0,23 IV 0,22 (d) j CD I 0,61 II 0,73 III 0,77 IV 0,54 2. Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. b) Calcule los coeficientes de especialización para cada comunidad. Solución: a) Coeficientes de localización sectorial SECTOR REGION S1 S2 S3 R1 0,0571 0,1058 0,1184 R2 0,0356 0,0046 0,0066 R3 0,2423 0,0115 0,1013 R4 0,1496 0,1219 0,2131 j CL 0,2423 0,1219 0,2197 b) Coeficientes de especialización regional SECTOR REGION S1 S2 S3 i CE R1 0,0283 0,1927 0,1645 0,192733 R2 0,0478 0,0228 0,025 0,047808 R3 0,1998 0,0348 0,2346 0,234649 R4 0,0426 0,1278 0,1705 0,170455 3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente 238 Area/Especie Buitre Nutria Lince I 15 8 60 II 12 9 40 III 16 7 10 IV 13 4 18 Obtener el coeficiente de diversificación de estas especies en las distintas zonas. Solución: 0, 59; 0, 68; 0, 9; 0,8 I II III IV CD CD CD CD = = = = 4. En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos SECTOR REGION S1 S2 S3 S4 R1 15 165 30 195 R2 10 110 20 130 R3 6 66 12 78 Participación de las regiones en cada sector y en la población total SECTOR REGION S1 S2 S3 S4 población R1 0,4839 0,4839 0,4839 0,4839 0,4839 R2 0,3226 0,3226 0,3226 0,3226 0,3226 R3 0,1935 0,1935 0,1935 0,1935 0,1935 Participación de los sectores en cada región y en la población total SECTOR REGION S1 S2 S3 S4 R1 0,0370 0,4074 0,0741 0,4815 R2 0,0370 0,4074 0,0741 0,4815 R3 0,0370 0,4074 0,0741 0,4815 población 0,0370 0,4074 0,0741 0,4815 239 Cocientes de localización y especialización ij L SECTOR REGION S1 S2 S3 S4 R1 100,00 100,00 100,00 100,00 R2 100,00 100,00 100,00 100,00 R3 100,00 100,00 100,00 100,00 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 j CL 0 0 0 0 Coeficientes de especialización regional REGION i CE R1 0 R2 0 R3 0 Coeficientes de diversificación de cada región REGION i CD * i CD R1 0,6178 0,49 R2 0,6178 0,49 R3 0,6178 0,49 5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: La participación de cada una de las regiones en el sector j, ( j ∀ , 0 j CL = ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: La presencia de cada sector en la región i, ( i ∀ , 0 i CE = ) es igual a la presencia de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la misma medida que el conjunto del pais. 240 7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: 2 ij Y S1 S2 S3 2 1 L ij j Y = ∑ 2 2 1 i i L ij j Y CD L Y = = ∑ i * 1 1 i i L CD CD L L | | = − | − \ . R1 8100 90000 38025 136125 0,838016529 0,75702479 R2 1296 14400 6084 21780 0,838016529 0,75702479 8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: En la región norte (R1) el grado de diversificación es mínimo, * 0 i CD = , esto ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, * 1 i CD = , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30). 10. Contrastes 2 χ de Pearson 1. El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 241 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( 05 . 0 = α ). Solución: ( ) ( ) 2 2 exp 4; 0,95 4, 9 9, 49 . χ χ = < = No existe razón para creer que el número que asisten al consultorio no se encuentra distribuido en forma equitativa. 2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( 0, 05 α = ) Solución: ( ) ( ) 2 2 exp 2; 0,95 0, 04 5, 99 . χ χ = < = Se acepta la hipótesis de que los datos proceden de una distribución (0, 9) P . 3. La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel 05 . 0 = α si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución: ( ) ( ) 2 2 exp 9; 0,95 3291, 05 16, 92 . χ χ = > = Luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson con parámetro 3. 4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el tiempo trancurrido desde su última visita al médico: 242 Ingresos/Visitas <7 meses 7 meses-1 año >1 año Total Menos de 90.000 186 38 35 259 90.000-100.000 227 54 45 326 100.000-150.000 219 78 78 375 150.000-200.000 355 112 140 607 Más de 200.000 653 285 259 1197 Total 1640 567 557 2764 Contrastar a un nivel 05 . 0 = α si los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. 5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la noche y si tienen o no cancer de pulmon: Si fuman No fuman Total Si tienen cancer 20 16 36 No tienen cancer 6 14 20 Total 26 30 56 Contrastar a un nivel de 05 . 0 = α si son independientes estos dos atributos. Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia. 6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se obtienen los siguientes resultados: A B Hombres 20 15 Mujeres 25 30 Contrastar la hipótesis de que la marca comprada y el sexo del comprador son independientes. Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca comprada y el sexo del comprador son independientes. 7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla: Barrio No Si A veces No lo sabe Total A 5 31 2 2 40 B 10 21 4 5 40 C 11 20 7 2 40 Total 26 72 13 9 120 Contrastar a un nivel 05 . 0 = α si son los tres barrios homogeneos respecto al conocimiento de los problemas de polución en su ciudad. 243 Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres barrios respecto al conocimiento de los problemas de polución. 8. Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? ( 5% α = ) Solución: ( ) ( ) 2 2 exp 2; 0,95 1,18 5, 99 . χ χ = < = Luego se acepta que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson. 9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante 30 ≤ 30 > A B C 8 12 22 28 44 53 36 56 75 42 125 167 El contraste a realizar es: H 0 : Tipo de producto y edad son independientes (no están asociados). H 1 : No son independientes (están asociados). Solución: ( ) ( ) 2 2 exp 2; 0,95 1, 27 5, 99 . χ χ = < = Luego no hay motivos para rechazar la hipótesis de independencia. 10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? ( 0, 05) α = Sueldo\Antigüedad <5 años 5-10 10-20 >20 años i n • 0-500 500-1000 1000-2000 2000-3000 >3000 17 16 4 9 6 5 8 11 8 3 10 9 5 8 4 6 7 2 6 6 38 40 22 31 19 j n • 52 35 36 27 150 Solución: ( ) ( ) 2 2 exp 6; 0,95 13,1 12, 59 . χ χ = > = Luego existen razones para pensar que los sueldos y años de antigüedad NO son independientes. 244 11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B BAJA MEDIA ALTA 105 140 255 140 135 225 Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con 0, 01 α = ) Solución: ( ) ( ) 2 2 exp 2; 0,99 6, 95 9, 21 . χ χ = < = La distribución de las notas es la misma en las dos universidades con un nivel de significación del 1%. Observese que se llegaría a la conclusión opuesta con un nivel de significación del 5%. 12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 0 1 2 3 4 5 o más 6 13 20 22 16 23 Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( 0,1 α = ) Solución: 2 2 1,1 4, 0'90 7, 78 k α χ χ − − = = . Como 2 exp ( 1, 91) χ = <7,78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. 13. El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Salarios Menos de 5 años Entre 5 y 10 años Entre 10 y 15 años Más de 15 años Bajos (<1.000€) Medios (1.000€, 1.500€) Altos (>1.500€) 36 64 50 16 34 50 14 20 16 34 82 84 Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. Solución: 2 2 ( 1)( 1); 1 2*3; 0,90 10, 6 r c α χ χ − − − = = . 245 Como 2 2 ( 1)( 1); 1 ( 10, 8833) ( 10, 6) r c α χ χ − − − = > = , se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. 14. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior, pero no sabe si utilizar cajas de cartón, madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras, selecciona aleatoriamente las fichas informativas de 142 cajas de cartón, 123 cajas de madera y 128 de plástico. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año, resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico Primavera Verano Otoño 12 27 103 8 52 63 6 65 57 Contrastar, al nivel de significación del 5%, si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. Solución: 2 2 ( 1)( 1); 1 2*2 ; 0,95 9, 49 r c α χ χ − − − = = . Como 2 2 ( 1)( 1); 1 ( 31, 8) r c α χ χ − − − = > , se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. 15. En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días, obteniéndose la siguiente distribución de frecuencias: Número de accidentes por día Número de días 0 1 2 3 4 ≥ 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson, utilizando un nivel de significación del 1%. Solución: 2 1;0,99 6, 63 χ = . 2 ( 0,72) χ = <6,63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 16. La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: 246 Ausencias Edad 0-5 5-10 Más de 10 16-25 25-40 40-55 55-65 20 10 9 15 9 22 20 14 30 31 25 35 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%. Solución: ( ) 2 2 1 1 13, 006 r c ij ij i j ij n E E χ = = − = = ∑∑ 2 2 ( 1)( 1); 1 2 3; 0,99 16, 81 r c α χ χ − − − × = = Como 2 2 ( 1)( 1); 1 ( 13, 006) ( 16, 81) r c α χ χ − − − = < = , se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. Sin embargo 2 2 6; 0,95 ( 13, 006) ( 12, 59) χ χ = > = , se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. 17. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos, obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? d) En general, sin distinguir entre hombre y mujeres, ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) ( ) 2 2 1 1 6,233 r c ij ij i j ij n E E χ = = − = = ∑∑ 2 2 (3 1)(2 1); 1 0,05 2; 0,95 5, 99 χ χ − − − = = 2 2 (3 1)(2 1); 1 0,01 2; 0,99 9, 21 χ χ − − − = = Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta esa misma hipótesis nula con un nivel de significación del 1%. b) 2 2 2 1,1 2, 0'90 1, 4 4, 60 k α χ χ χ − − = = = Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. 18. Se sabe que en un centro de Enseñanza Primaria, el 62% de los estudiantes de último curso dejan de estudiar, el 37% pasan a formación profesional y el 1% pasan a enseñanza secundaria. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. De ellos, 54 dejaron de estudiar, 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( 0, 05 α = ) 247 Solución: 2 2 1;0,95 1, 027 3, 84 χ χ = = . 1,027<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% repectivamente. 19. En Estados Unidos se sabe que, históricamente, el 75% de los profesores de la Universidad de Harvard que se presentan a decanos son americanos, el 24% son europeos y el 1% de otros paises. De una muestra de 100 candidatos que se han presentado este año, 70 eran americanos, 21 eran europeos y nueve de otros paises. ¿Los candidatos de este año han seguido el mismo patrón que en años anteriores? ( 0, 05 α = ) Solución: 2 2 1;0,95 1, 33 3, 84 χ χ = = . 1,333<3,84 luego se acepta la hipótesis de que los porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente. 20. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que realizan como muy útiles, el 36% como poco útiles y el 4% como nada útiles. Se toma una muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 68 consideran que los cursos son muy útiles, 18 consideran que son pocos útiles y 14 que son nada útiles. Contrastar la hipótesis de que los resultados obtenidos se corresponden con la opinión personal del rector. ( 0, 05 α = ) Solución: 2 2 1;0,95 2, 67 3, 84 χ χ = = . 2,67<3,84 luego se acepta la hipótesis de que los porcentajes de alumnos que consideran los cursos útiles y poco o nada útiles son el 60% y 40% repectivamente. 21. Se realizó una investigación para estudiar la reacción de las empresas ante las opiniones de importantes auditores. La siguiente tabla muestra, para empresas que habían recibido una opinión positiva, negativa o neutra de un auditor, cuáles cambiaron de auditor al año siguiente. Contrastar, a nivel del 1%, si el cambio de auditor por las empresas no depende de la opinión que recibieron del auditor. Opinión recibida Positiva Negativa Neutra Cambiaron auditor 141 227 23 No cambiaron auditor 991 8051 14 Solución: ( ) 2 2 1 1 224,223415 r c ij ij i j ij n E E χ = = − = = ∑∑ , hay que compararlo con el valor 2 2 2 ( 1)( 1); 1 1 1; 0,99 1; 0,99 6, 63 r c α χ χ χ − − − × = = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − > , se rechazaría la hipótesis nula de independencia entre las opiniones de los auditores y la reacción de las empresas. 248 22. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos, con edades comprendidas entre los 16 y los 24 años y de origen anglosajón o hispano, se les preguntó cuanto alcohol consumían a lo largo de una semana. La siguiente tabla muestra los resultados. Número de botellas alcohol 0-1 2-4 Mas de 4 Anglosajón 19 45 3 Hispano 25 47 7 Contrastar, a nivel del 5% si el alcohol consumido depende del origen de los individuos. Solución: ( ) 2 2 1 1 0,186078677 r c ij ij i j ij n E E χ = = − = = ∑∑ , hay que compararlo con el valor 2 2 2 ( 1)( 1); 1 1 1; 0,95 1; 0,95 3, 84 r c α χ χ χ − − − × = = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − < , se acepta la hipótesis nula de independencia entre el consumo de alcohol y el origen de los individuos. 23. La siguiente tabla muestra, para muestras independientes de hombres y mujeres, cuántos de ellos ven la televisión menos de dos horas, de dos a cuatro y más de cuatro horas. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. Solución: ( ) 2 2 1 1 1,563581681 r c ij ij i j ij n E E χ = = − = = ∑∑ , hay que compararlo con el valor 2 2 2 ( 1)( 1); 1 1 1; 0,95 1; 0,95 3, 84 r c α χ χ χ − − − × = = = . Como 2 2 ( 1)( 1); 1 r c α χ χ − − − < , se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. 11. Contrastes no Paramétricos 1. A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852, 875, 910, 933, 957, 963, 981, 998, 1007, 1010, 1015, 1018, 1023, 1035, 1048, 1063. 249 En años anteriores el número de respuestas correctas estaba representado, de forma adecuada, por una N(985, 50). Con base en esta muestra y usando el test de Kolmogorov- Smirnov, ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( 05 . 0 = α ) Solución: ( ) ( ) exp 0,1207 0, 327 D D α = < = luego no existen motivos para rechazar que el número de respuestas correctas está representado por una N(985, 50). 2. Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento, siendo evaluada posteriormente, mediante un test que valora en una escala de 0 a 100, la mejora que se produce en el rendimiento de cada trabajador. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar, utilizando el test de Kolmogorov-Smirnov, si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes.( 05 . 0 = α ) Solución: La función de distribución del primer grupo siempre es mayor que la del segundo grupo, 1 2 16 16 ( ) ( ) F x F x > , lo que sugiere un contraste unilateral. 0, 05 α = , n=m=16 6 16 D α = . exp 8 6 16 16 D D α | | | | = > = ⇒ | | \ . \ . las dos muestras no provienen de la misma población, o lo que es lo mismo, los dos métodos no son iguales. El grupo 2 arroja puntuaciones mayores, lo que se refleja en que 1 2 16 16 ( ) ( ) F x F x > . 3. Contrastar a un nivel 1 . 0 = α si los datos siguientes proceden de una distribución Normal con media 10.84 y desviación típica 3.5: 10.5 8 15 12.1 4.1 12.1 8 10.5 16 12.1 Solución: 0,1 10 0, 369 n D α α = = ⇒ = . ( ) ( ) exp 0,1594 0, 369 D D α = < = luego no existen motivos para rechazar la hipótesis nula. 4. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 5 y 4 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 78 64 75 45 82 Taller 2 110 70 53 51 250 Utilizando el contraste de Mann-Whitney, comprobar si la productividad en los dos talleres es la misma. ) 05 . 0 ( = α . Solución: ( ) ( ) 2 2 1 2 4 5 ( 2) 2 3 5 9 19 4 5 19 11 4 5 9 2 T T T T R taller U U U × = + + + = ⇒ = × + − = ⇒ = × − = ( ) min 11, 9 9 U = = 4, 5, 1 ( 3.19) ( 9) ( 1) n m U tabla U U α α = = = = > = ⇒ los dos talleres producen lo mismo. 5. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realizar el contraste utilizando la prueba de Mann-Whitney.( 05 . 0 = α ) Solución: 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` > ¹ ) 1 2 3, 5 3, 5 5, 5 7, 5 10 10 12 17, 5 17, 5 20, 5 110, 5 NO R = + + + + + + + + + + + = ( ) 12 13 12 12 110, 5 111, 5 144 111, 5 32, 5 2 NO SI U U × = × + − = ⇒ = − = 0 min (111, 5; 32, 5) 32, 5 U = = 42 U α = ; 0 ( 32, 5) ( 42) U U α = < = ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en cada situación y que los datos son los que se recogen en la siguiente tabla. 72 83 74 71 60 60 82 84 61 48 50 70 71 No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Solución: 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` > ¹ ) 442 833 NO SI R R = = 251 ( ) ( ) 25 26 25 25 442 508 25 25 508 117 2 NO SI U U × = × + − = ⇒ = × − = 0 min (508; 117) 117 U = = ( ) 25 25 25 25 51 , 312, 5; 51, 54 2 12 U N N | | × × × → = | | \ . | | | | 0 117 312, 5 117 / 3, 79 0, 00007 51, 54 p P U H P Z P Z − ( = ≤ = ≤ = ≤ − = ( ¸ ¸ ( ) ( ) 0, 00007 0, 05 p α = ≤ = ⇒ rechazo la hipótesis nula, por tanto, los incentivos tienen efectos positivos sobre la producción. 6. Para contrastar si un determinado curso de perfeccionamiento es efectivo, se somete a una muestra de 11 trabajadores a dicho entrenamiento, controlando el tiempo medio empleado en concluir determinada tarea, antes y después del curso. Los resultados son los siguientes Antes 12 15 9 16 13 17 12 14 8 10 11 Después 8 15 10 10 11 15 13 12 9 9 7 ¿Ha influido el curso en el tiempo empleado en concluir la tarea? ( 0.05) α = Solución: Test de Wilcoxon de los signos-rangos: 47, 5 7, 5 7, 5 R R R + − = = = . Según tabla 4.2 (unilateral, 5%) valor crítico: 10. 7,5<10 se acepta que el tiempo empleado en concluir la tarea es menor despues del curso. (bilateral, 5%) valor crítico 8, 7,5<8 se rechaza la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo. Test de los signos: El número de diferencias negativas y positivas (3 y 7 respectivamente) cae dentro de la región de aceptación | | 2, 8 (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo. 7. Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25. Solución: Para n=10 y 0, 05 α = el valor crítico D α para el test de bondad de ajuste de K-S es D α =0,409. ( ) ( ) exp 0,1088 0, 409 D D α = < = luego no existen motivos para rechazar la hipótesis nula. 8. Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales 252 X i n 0,45 0,55 0,6 0,75 0,8 0,85 0,88 1 2 3 1 2 1 4 2 5 20 n = proceden de la distribución de probabilidad dada por 2 0 0 0 0 1 1 1 x F x x x ≤ ¦ ¹ ¦ ¦ = ≤ ≤ ´ ` ¦ ¦ ≥ ¹ ) Solución: Para n=20 y 0, 05 α = D α =0,294. ( ) ( ) exp 0,19 0, 294 D D α = < = luego acepto la hipótesis nula. 9. Con nivel de significación de 5%, usando el test de Kolmogorov-Smirnov, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 2 4 2 3 5 6 7 8 9 3 Muestra 2 2 4 5 3 5 4 7 6 5 3 Solución: exp 2/10 0, 2 D = = 0, 05 α = , n=m=10, 6 0, 6 10 D α = = , exp D D α < , acepto la hipótesis nula de que las dos muestras se han obtenido de la misma población. 10. La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos Número de llamadas menos de 10 15 10-20 17 20-30 26 30-40 18 40-50 13 50-60 11 Contraste, con un nivel de significación del 5%, la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste 2 χ y de Kolmogorov-Smirnov. Solución: 2 2 1,1 3, 0'95 7, 81 k α χ χ − − = = . Como ( ) 2 30,13 χ = >7,81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. 253 ( ) ( ) 0 max 0,1613 exp n D F x F x = − = . Buscando en las tablas, para un contraste bilateral, 1, 3581 0,1358 100 T D = = . Al igual que con el anterior procedimiento de contraste se rechaza 0 H dado que exp T D D > 11. Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 € y desviación típica 10.000 €? ( 0, 05 α = ) Solución: ( ) ( ) 0 max 0,1493 exp n D F x F x = − = (0,05) 0, 519 T bilateral D = . exp T D D < por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas. 12. Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado, obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros. ( 0,1 α = ). Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov. Solución: ( ) ( ) 0 max 0, 2413 exp n D F x F x = − = (0,10) 0, 304 T bilateral D = Se acepta 0 H dado que exp T D D < 13. Se ha observado la temperatura durante los dias de una semana en la recepción de un hotel, obteniéndose 23,3º 17,6º 16,4º 20,9º 23,8º 23,3º 24,0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º. Solución: exp 0, 2451 D = (0,05) 7 0, 483 T bilateral n D = = exp T D D < , por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. 254 14. Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( 0,10 α = ) Solución: 4 R = es compatible al 10% con la hipótesis de aleatoriedad pues ( ) ( ) ( ) 3 4 9 u o r R r = < = < = 15. Supóngase dos muestras aleatorias independientes de tamaños 1 2 20, 20 n n = = que han proporcionado el siguiente número de rachas 15 R = . Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. ( 0, 05 α = ) Solución: Únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones. Es decir, un test al nivel del 5% unilateral. con ayuda de los extremos críticos inferiores del 5% de la tabla 4.40. 15 u r = y como para ( 15) ( 15) u R r = ≤ = se rechaza la hipótesis nula a favor de que las muestras proceden de poblaciones distintas. 16. Supóngase que analizamos 15 pares de valores mediante el test de los signos, caso bilateral, al nivel del 5%. Obtenemos 2 diferencias nulas y 13 no nulas, de ellas 11 positivas y 2 negativas. ¿Proceden las dos muestras ligadas de la misma población? Solución: De la tabla 4.4 obtenemos para n=13 los extremos 3 y 10. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. 17. Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. Sean A y B dichos métodos. Para la comparación, bilateral y al nivel del 5%, dispone de 9 muestras de orina. No se sabe si la distribución de los valores es normal. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. (utilícese el test de Wilcoxon de los signos-rangos) Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0,47 1,02 0,33 0,70 0,94 0,85 0,39 0,52 0,47 B (mg/muestra) 0,41 1,00 0,46 0,61 0,84 0,87 0,36 0,52 0,51 Solución: n=8, pues hay una pareja donde la diferencia es cero. Buscando en la tabla 4.2 se tiene que 13, 5 3 R = > , por tanto no puede rechazarse la hipótesis nula. 18. Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se repite la encuesta entre las mismas familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice los tests de los signos y de Wilcoxon). 255 Familia nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78 Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82 Solución: Test de Wilcoxon de los signos-rangos: 23, 5 54, 5 23, 5 R R R + − = = = . Según tabla 4.2 (bilateral, 5%) valor crítico: 13. 23,5>13 se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. Test de los signos: El número de diferencias negativas y positivas (9 y 3 respectivamente) cae dentro de la región de aceptación | | 3, 9 (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. 19. Antes de realizar una campaña de publicidad, se realiza una encuesta a 200 personas a las que se les solicita su opinión sobre un determinado producto financiero. Después de realizada la campaña, se realiza la misma pregunta a las mismas 200 personas. Los resultados se recogen en la siguiente tabla DESPUES DE LA CAMPAÑA BUENA NO BUENA BUENA 30 24 ANTES DE LA CAMPAÑA NO BUENA 126 20 Utilice el test de los signos para contrastar la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. Solución: 150 75 2 2 n np µ = = = = 2 150 37, 5 6,124 4 4 n npq σ σ = = = = ⇒ = 24 8, 33 1, 645 ( 5%, 10%) unilateral bilateral µ σ − = − < − se rechaza la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. 24 8, 33 1, 96 ( 2, 5%, 5%) unilateral bilateral µ σ − = − < − al mismo resultado se llega con estos otros niveles de significación. Según la tabla 4.5 para n=150=126+24, el extremo izquierdo para el test bilateral con 5% α = es 63, como 24<63 se llega a la misma conclusión que antes (donde 63 1, 96 62, 99 µ σ ≅ − = , es lo mismo comparar -8,33 con -1,96 que 24 con 63). En este ejemplo parece más adecuado el test unilateral dado que claramente predomina el cambio de signo en la opinión en un sentido frente al opuesto. 20. Se encuestan 40 establecimientos para conocer los beneficios diarios, en euros, que se obtienen con la venta de un determinado producto. Al cabo de tres meses se repite la 256 encuesta. Los resultados se recogen en la siguiente tabla. Contraste la hipótesis “la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma”. Nº de encuesta 1ª muestra 2ª muestra Nº de encuesta 1ª muestra 2ª muestra 1 16 17 21 24 25 2 20 24 22 16 19 3 8 12 23 17 15 4 9 6 24 27 24 5 27 24 25 17 17 6 12 15 26 41 32 7 35 28 27 35 32 8 25 25 28 45 41 9 15 17 29 12 0 10 30 21 30 23 23 11 16 30 31 15 19 12 32 31 32 34 30 13 21 21 33 21 21 14 23 26 34 19 19 15 19 21 35 0 14 16 32 32 36 24 29 17 27 32 37 33 47 18 16 14 38 12 20 19 21 21 39 19 19 20 34 30 40 21 21 Solución: Test de Wilcoxon de los signos-rangos: 210, 5 254, 5 210, 5 R R R + − = = = . Según tabla 4.2 (bilateral, 5%) valor crítico: 137. 210,5>137 se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma. Test de los signos: El número de diferencias negativas y positivas (16 y 14 respectivamente) cae dentro de la región de aceptación | | 10, 20 (vease tabla 4.4, bilateral 5%), se acepta la hipótesis nula de que la distribución de los beneficios, al cabo de tres meses, sigue siendo la misma. 21. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov, Mann-Whitney y de las rachas que las siguientes muestras proceden de la misma población ( 0, 05) α = MUESTRA A MUESTRA B 10, 12, 8, 10, 15, 12, 11, 14, 15, 13, 15, 14, 16, 17, 23, 17, 14, 15, 14, 21, 20, 17 13, 10, 9, 15, 17, 14, 13, 12, 15, 12, 13, 12, 14, 14 Solución: Test de Kolmogorov-Smirnov: exp 0, 286 D = 1 2 (0,05) 22 14 1, 3581 0, 464 22 14 T bilateral n y n grandes D + = = × exp T D D < , por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 257 Test de Mann-Whitney: 0 453 213 108 A B R R U = = = ( ) 93 3.19, 0, 05, 22, 14 U tabla m n α α = = = = 0 U U α > por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. Test de las rachas: Según se ordenen los empates se obtienen 13 o 15 rachas. Utilizamos la aproximación normal con 1 2 1 2 2 2 14 22 1 1 18,1 14 22 n n n n µ × × = + = + = + + ( ) ( ) ( ) ( ) ( ) 2 1 2 1 2 1 2 2 2 1 2 1 2 2 14 22 2 14 22 14 22 2 (2 ) 7, 876543 2,81 1 14 22 14 22 1 n n n n n n n n n n σ σ × × × × − − − − = = = ⇒ = + + − + + − 13 1,815 z µ σ − = = − 0,05 ( 1,815) ( 1, 645) z z = − ≤ − = − ⇒ por tanto se rechaza la hipótesis nula de que las dos muestras proceden de una misma población. 15 1.103 z µ σ − = = − 0,05 ( 1,103) ( 1, 645) z z = − > − = − ⇒ por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 22. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa, se obtuvo en sendas muestras de 4 y 5 meses, la cantidad de unidades producidas de un artículo concreto, el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. ) 05 . 0 ( = α . Solución: 1 2 4 5 1 max ( ) ( ) 0, 25 4 exp D F x F x = − = = (0,05) 4 0,8 5 T bilateral D = = Se acepta que la productividad de los dos talleres de artesanía es la misma dado que exp T D D < 23. Se desea contrastar si determinados incentivos a la productividad son efectivos. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 258 100. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. El resultado de ambas fue No incentivos 70 80 70 70 60 Incentivos 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. ( 05 . 0 = α ) Solución: 1 2 5 5 3 max ( ) ( ) 0, 6 5 exp D F x F x = − = = (0,05) 3 0, 6 5 T unilateral D = = Se acepta que los incentivos a la productividad no son efectivos dado que si exp T unilateral D D ≤ no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. 24. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov, 0, 05 α = ). Primera encuesta 30 20 0 50 40 30 30 Tres meses después 20 20 10 60 0 30 20 Solución: 1 2 7 7 3 max ( ) ( ) =0,4286 7 exp D F x F x = − = (0,05) 5 0, 0, 7143 7 T bilateral D = = Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que exp T bilateral D D < . 259 PRE-PRÁCTICAS 260 INTRODUCCIÓN. Sería deseable que el alumno construyera hojas de cálculo como las del fichero PRÁCTICAS partiendo de hojas en blanco. Dado el escaso número de horas de prácticas y para que dicho tiempo se dedique a los aspectos más relacionados con la asignatura, se han confeccionado unas PRE-PRÁCTICAS donde la base de la plantilla como líneas, colores, etiquetas,... permanece en las hojas y falta por completar aquellas expresiones que hemos considerado más interesantes. Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone conocido por el alumno, sencillamente se recuerda y aconseja sobre la forma de utilizarlo. Se pretende así que el alumno conozca mejor cómo se han construido estas hojas para que haga un uso correcto de ellas y, si fuera el caso, sea capaz de modificarlas y adaptarlas a nuevas situaciones. Al faltar el valor de determinadas celdas, otras que dependen de las anteriores aparecerán con mensajes de error de cálculo. Esos errores de cálculo se irán resolviendo a medida que se vayan completando las primeras. Todas las celdas, salvo las que el alumno debe completar, están protegidas. Una vez resuelta cada PRE-PRÁCTICA su contenido debe coincidir con la hoja correspondiente del fichero PRÁCTICAS. 261 PRE-PRÁCTICA 1 Muestreo aleatorio simple en poblaciones infinitas En esta pre-práctica completaremos todas las expresiones (celdas amarillas) del caso numérico y aquellas del caso no numérico que son diferentes de las anteriores. Las expresiones o funciones más habituales están en Excel y nos podemos referir a ellas simplemente indicando su nombre. Así para calcular la media aritmética, en lugar de escribir la expresión de la suma de las celdas donde están los datos y dividir por el número datos, usaremos la función PROMEDIO. Para contar el número de datos de la muestra usaremos la función CONTAR y para hallar la cuasivarianza utilizaremos VAR. Todas las funciones de Excel van precedidas por el signo =. Cuando una función, como las anteriores, se refiere a los datos contenidos en un rango de celdas (conjunto continuo de celdas), indicaremos la primera y última celda separadas por dos puntos (p.e., =CONTAR(C21:C100)). Si el rango de celdas ocupa más de una columna, se indicará la primera celda de la primera columna y la última celda de la última columna. Para completar las expresiones de las celdas C12, C13, C14, C15, C18, D11, D12 Y D18 nos basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los apuntes y en el formulario. Recordemos que debemos empezar siempre con el signo =, que las operaciones aritméticas habituales están representadas por los conocidos símbolos del teclado 262 + , − , * , / . Para la raíz cuadrada utilizaremos la función RAIZ (p.e. =RAIZ(D11)) y para las potencias el símbolo del acento circunflejo francés ^ (p.e., para elevar B3 al cuadrado: =B3^2). PRE-PRÁCTICA 2 Muestreo aleatorio simple en poblaciones finitas El muestreo aleatorio simple en poblaciones finitas es análogo en sus expresiones al caso infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones finitas que aparece en la expresión de la varianza del estimador de la media 2 - ( ) S N n V y n N ( | | = | ( \ . ¸ ¸ y la novedad de que no sólo se puede estimar la media sino también el total. Utilizando las relaciones de la estimación del total y su varianza con los correspondientes valores para la media ( ) 2 , ( ) ( ) N y V N V y τ τ = = completaremos las celdas D10 y D12. 263 La varianza para el estimador de la media (y proporción) en C12 (y E12) es análoga a la del caso infinito salvo el coeficiente corrector para poblaciones finitas: 2 - ( ) S N n V y n N | | = | \ . , - ( ) 1 pq N n V p n N | | = | − \ . . En las celdas C18, D18, E18 y F18 calculamos el tamaño de la muestra n según las expresiones que aparecen en el formulario. Debe decirse en este punto que debemos usar los paréntesis necesarios para que el orden de las operaciones sea el correcto. 2 2 ( 1) N n N D σ σ = − + 2 ( ) 4 B D media = 2 2 ( ) 4 B D total N = ( 1) Npq n N D pq = − + 2 ( ) 4 B D proporción = 2 2 ( ) 4 B D total N = Para facilitar la escritura en Excel de algunas expresiones del fichero PRÁCTICAS, éstas se han simplificado previamente y lo que aparece no es la trascripción fiel de cómo están en los apuntes de clase y en el formulario. La cota del error de estimación y los extremos de los intervalos de confianza tienen en este tipo de muestreo y en los que siguen la misma expresión que se ha visto para el muestreo aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una de las pre-prácticas. PRE-PRÁCTICA 3 Muestreo aleatorio estratificado Trabajaremos sobre el modelo de tres estratos, caso numérico. Los modelos de dos y cuatro estratos así como el caso no numérico se han construido de forma análoga. Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio simple por lo que serán válidas las expresiones construidas para este tipo de muestreo en la pre-práctica anterior. También serán útiles las funciones copiar y pegar para no tener que repetir una por una todas las expresiones en cada uno de los estratos. En primer lugar y para ilustrar lo último dicho, observemos que en la pre-práctica aparece en la parte superior (donde calculamos los estimadores y sus errores) sólo las expresiones para el primer estrato (según el muestreo aleatorio simple). Si se observa se verá que dichas expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). Análogas 264 expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas expresiones dos o más veces, dependiendo del número de estratos, usaremos las acciones copiar y pegar. Marcaremos el rango de celdas que va de C9 a D15, seleccionaremos copiar, marcaremos el rango E9:F15 (o sólo la primera de las celdas, E9) y con la opción pegar se copiarán las expresiones del estrato 1 en el estrato 2 pero, como puede comprobarse, referidas a la columna E en lugar de C. Repetiremos lo mismo para el estrato 3. Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de cada estrato pero no de la población global (columnas I y J). Dadas las conocidas relaciones entre la media y el total (trabajado en la pre-práctica anterior) nos vamos a centrar en la media y concretamente en las expresiones que son diferentes de todo lo que hasta aquí se ha visto. Para calcular en I8 el tamaño total de la población (igual en I9 para el tamaño total de la muestra) debemos sumar los correspondientes tamaños en cada estrato. Para eso se puede usar el símbolo + o la función SUMA ( =C8+E8+G8 o =SUMA(C8:G8)). Cuando usemos la función SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos los dos puntos por punto y coma (por ejemplo, =A5+B15+F3 es igual a =SUMA(A5;B15;F3)). Esto último es lo que se ha hecho en las expresiones de I10 y I12 que se podrían igualmente haber escrito usando el símbolo + sencillamente. 265 Para facilitar la construcción de las expresiones correspondientes a las distintas asignaciones se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en esas sumatorias. Como las expresiones son las mismas para cada estrato, pero referidas a los datos de cada uno, escribiremos primero las correspondientes al estrato 1 (C16, C17, C18 y C19) y posteriormente como se hizo antes, las marcaremos, seleccionaremos copiar y pegaremos en las celdas E16, E17, E18 y E19 para el segundo estrato y en G16, G17, G18 y G19 para el tercero. Dada la analogía de las expresiones para las distintas asignaciones en el caso de la media y total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel), nos centraremos en el caso de la media. TAMAÑO MUESTRAL MEDIA y TOTAL ASIGNACIÓN ÓPTIMA 1 1 2 2 1 ( ) L L i i i i i i i i L i i i N N c c error fijo B n N D N σ σ σ = = = = + ∑ ∑ ∑ 1 1 ( ) L i i i i L i i i i N C c coste fijo C n N c σ σ = = = ∑ ∑ 1 j j j j L i i i i N c N c σ ω σ = = ∑ ASIGNACIÓN DE NEYMAN 2 1 2 2 1 ( ) L i i i L i i i N n N D N σ σ = = = + ∑ ∑ 1 j j j L i i i N N σ ω σ = = ∑ ASIGNACIÓN PROPORCIONAL 2 1 2 1 1 L i i i L i i i N n ND N N σ σ = = = + ∑ ∑ j j N N ω = 266 D 2 ( ) 4 B D media = 2 2 ( ) 4 B D total N = De acuerdo a las expresiones de n para cada tipo de asignación, confeccionaremos las celdas I22, I23, I24 Y I25, a continuación calcularemos los tamaños de las muestras de cada estrato según la expresión i i n nω = en las correspondientes celdas de las columnas C, E y G. Los coeficientes de asignación son similares para cada estrato por lo que los escribiremos para el estrato 1 en la columna C y lo copiaremos en los otros estratos. Una novedad en relación a las copias que se han hecho antes es que aparece el símbolo $ precediendo bien la letra o el número que definen la posición de una celda. Este símbolo tiene la propiedad de fijar el valor de la columna (letra) o fila (número) a la hora de hacer copias. Como es conocido, cuando copiamos la expresión de una celda en otra, todas las letras y números relativos a la posición de las celdas referenciadas en la expresión cambian avanzando o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde copiamos. Para que esto no sea así (cuando nos convenga, como el caso que nos ocupa de las asignaciones) con el símbolo $ fijaremos las posiciones de las celdas que no queramos que cambien en la copia. Nota: se recuerda que el hecho de que aparezca el símbolo $ en la referencia a una celda no cambia en absoluto su valor. Según las anteriores aclaraciones escribiremos i i n nω = en las celdas C22, C23, C24 y C25 (observe que el valor de i ω es el mismo en C22 y C25, en ambos casos usamos la asignación óptima), y posteriormente lo copiaremos en E22, E23, E24 y E25 para el estrato 2 y en G22, G23, G24 y G25 para el estrato 3. En la siguiente pantalla se pueden observar algunos de los anteriores comentarios. 1 1 1 j j j L i i i i N c n n n N c σ ω σ = = = ∑ $I22=n C19= 1 1 1 N c σ $C19+$E19+$G19= 3 1 i i i i N c σ = ∑ Los paréntesis que aparecen en la expresión de la celda C22 y en otras (=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el orden adecuado. 267 PRE-PRÁCTICA 4 Estimadores de razón, regresión y diferencia En esta pre-práctica estimaremos la razón R y la media utilizando estimadores de razón , regresión y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas a partir de la media). 268 Los valores de los estimadores así como de sus varianzas se expresan fácilmente en las celdas C12, C13, D12, D13, F12, F13, H12 y H13. Sólo un detalle digno de mención: debido a los ceros que aparecen en las columnas E ( i rx ), F ( 2 ( ) i i y rx − ), H ( i i i d y x = − ) e I ( 2 i d ) cuando se opera sobre valores inexistentes de las columnas C y D, se tiene que utilizar en H12 la expresión =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la función PROMEDIO incluiría a todos los ceros como datos, obteniendo un valor falso para dicha media). Por esta misma razón, al hallar las “varianzas residuales” C17 y H17 se han usado las expresiones: ( ) 2 2 1 1 1 n r i i i S y rx n = = − − ∑ C17 ⇒ =SUMA(F22:F100)/(C11-1) ( ) ( ) 2 2 2 1 2 1 1 2 2 2 1 1 1 1 1 ( ) 1 1 1 1 n i n n i i i n i i i n n i D i i i i i i i i d d d n n d n S y x d d d d y x n n n n = = = = = = | | | | | | − | | \ . − | \ . = − + = − = = = − − − − − ∑ ∑ ∑ ∑ ∑ ∑ En la anterior línea aparecen distintas formas de escribir la cuasivarianza de las diferencias. En las PRÁCTICAS hemos utilizado la última. H17 ⇒ =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1) Nota: Mucho cuidado, no confunda 2 1 n i i d = ∑ y 2 1 n i i d = | | | \ . ∑ . Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados cálculos de las columnas E, F, H e I se hubiese utilizado la función =SI(condición; acción si cierta; acción si falsa), como veremos en la práctica 6. A pesar de esta posible solución se ha dejado así esta hoja de prácticas para que seamos conscientes del peligro de esos “falsos” ceros que aparecen cuando se opera de esta forma. La complicada expresión de la “varianza residual” para los estimadores de regresión (F17) se ve facilitada porque su raíz cuadrada (“desviación típica residual”) es la función de Excel =ERROR.TIPICO.XY. Nota: Cuidado al escribir los argumentos de esta función. En primer lugar se colocan las celdas con los valores de la variable Y (D22:D100) y a continuación después del punto y 269 coma los valores de la variable X: =ERROR.TIPICO.XY(D22:D100;C22:C100). Hacerlo al revés supondría calcular la desviación típica residual para la recta de regresión de X/Y ( ) x a by = + que no es la recta utilizada en el modelo de los estimadores de regresión. Si observamos el formulario, los tamaños muestrales (tanto para la media como para el total) para conseguir un determinado error de estimación máximo, son similares salvo que cada tipo de estimador considera su “varianza residual”. 2 2 2 2 2 2 r L D r L D N N N n n n ND ND ND σ σ σ σ σ σ = = = + + + Basándonos en el anterior comentario y utilizando para copiar el símbolo $ donde sea necesario, bastará con crear las expresiones D19 y E19 y copiarlas en F19, G19 y H19, I19. A la hora de determinar el tamaño muestral para estimar el total se ha tenido en cuenta la siguiente simplificación en las anteriores expresiones: 2 2 2 4 4 B B ND N N N = = , por ejemplo E19 ⇒ =($C8*C17)/(C17+((E18^2)/(4*$C8))). La expresión C19 es algo distinta y no se puede copiar directamente de las anteriores expresiones, es exactamente igual a D19 salvo el valor 2 2 4 x B D µ = . Para completar las columnas E, F, H e I, escribiremos las expresiones en las celdas E22, F22, H22 e I22, (E22=$C$12*C22, F22=(D22-E22)^2, H22=D22-C22, I22=H22^2) posteriormente copiaremos desde E22 hasta E100 (colocando el ratón en la esquina inferior- derecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F, H e I de igual forma. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100 habrá que fijar con el símbolo $ dicha celda (no es necesario fijar C anteponiéndole el $, aunque aparece así en la práctica, basta con escribir C$12 puesto que al copiar no nos movemos de columna, sólo nos movemos de fila). En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de regresión. En G22 la calcularemos, según nuestros apuntes, a partir de la covarianza y varianza. En G23 aparece según la función de Excel que nos da dicho valor. Con esta coincidencia se quiere mostrar que en este caso, como en otros, puede haber distintas alternativas para calcular un mismo valor. 270 G22 ⇒ =COVAR(C22:C100;D22:D100)/VARP(C22:C100) G23 ⇒ =PENDIENTE(D22:D100;C22:C100) Notas: La misma advertencia que se hizo con la función =ERROR.TIPICO.XY(D22:D100;C22:C100) vale aquí. Las celdas en las que se encuentran los valores de Y y de X deben aparecer en la función PENDIENTE en dicho orden pues si se altera estaríamos calculando la pendiente de la recta de regresión de X/Y. En algunas funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que aparezcan las celdas con los valores de X e Y es indiferente. Se sugiere escribir estas funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo. La función VARP es la varianza de los datos de la muestra mientras que la función VAR es la cuasivarianza de la muestra. PRE-PRÁCTICA 5 Muestreo sistemático Los cálculos para este tipo de muestreo se basan en el muestreo aleatorio simple para poblaciones finitas que ya se ha estudiado. La única novedad que presenta respecto a éste es el cálculo de k, el cual se ilustra en la PRACTICA 5 RESUELTA. 271 PRE-PRÁCTICA 6 Muestreo por conglomerados En esta pre-práctica haremos uso de la función “=SI” a la que hacíamos referencia más arriba en la pre-práctica 4. Recordemos su formato, =SI(condición; acción si cierta; acción si falsa) De las celdas cuya expresión vamos a completar en esta pre-práctica C13, C19, D12 y D13 se construyen utilizando la anterior función “=SI” que nos permite realizar dos cálculos (o acciones) distintos dependiendo de una condición. En nuestro caso concreto la condición va a ser el conocimiento o no del tamaño de la población M o lo que es equivalente el conocimiento o no del tamaño medio de los conglomerados de toda la población M M N = . Si el contenido de la celda C8 es vacío (C8=“”) se entenderá que no se conoce M y se procederá de una manera (acción si cierta), en cambio si la celda C8 no está vacía se utilizará dicha información y se procederá de otra forma (acción si falsa). En C13 y C19 las dos formas de proceder consisten en usar 11 m C = o 8 9 C M C = (aparece subrayado). C13⇒ =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 272 En D12 y D13 (también en D14, D15 y D16) dejaremos la celda en blanco (“”) si no tenemos la información de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos esa información, D12 ⇒ =SI(C8="";"";C12*C8) El resto de celdas de esta pre-práctica (C12, C17, D19, E12, E13, E17 y E19) se resuelven fácilmente a partir de las correspondientes expresiones del formulario. La función =SI se podría haber utilizado en el cálculo de las celdas E23 a E100 y F23 a F100 para evitar la aparición de ceros “falsos” como se anunció en la pre-práctica 4. En la celda E23 escribiríamos =SI(C23=“”;“”;C$12*C23) y copiaríamos su contenido hasta la celda E100. En la celda F23 escribiríamos =SI(D23=“”;“”;(D23-E23)^2) y copiaríamos su 273 contenido hasta la celda F100. Como puede comprobarse, de esta manera no aparecen ceros “falsos” y los problemas que comentábamos en la pre-práctica 4. PRE-PRÁCTICA 7 Estimación del tamaño de la población Utilizando las operaciones algebraicas básicas, potencias y logaritmos neperianos (=LN) se completan sin ningún tipo de nueva dificultad, a partir del formulario, las celdas C17, C18, D17, D18, E17, E18, E23, E24, F17, F18, F23 y F24. La cota del error de estimación y los intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de tipos de muestreo. 274 275 PRÁCTICAS 276 INTRODUCCIÓN Se han diseñado unas hojas de cálculo en Excel que permiten calcular todas las expresiones sobre muestreo, indicadores estadísticos regionales y medidas de localización espacial que se estudian en la asignatura. Aunque el formato de cada hoja es distinto dependiendo de los cálculos que en ella se realizan, hay unas características comunes que vamos a describir en primer lugar: Las celdas en las que debemos introducir los datos de la muestra son de color gris. Las celdas en las que calculamos el valor de las expresiones (coeficientes, índices, estadísticos,...) son de color amarillo. Las demás celdas de distintos colores (por motivos meramente estéticos) se corresponden con etiquetas para identificar los valores que aparecen en la hoja. En la parte superior de cada hoja se calculan los estimadores y errores asociados (además de otros valores necesarios y relativos como los intervalos de confianza,...) por debajo de estas filas y separadas por una o más filas de color blanco se calcula el tamaño de la muestra (o muestras) necesario para que se pueda hacer la estimación con un error máximo fijado de antemano, “COTA DEL ERROR DE ESTIMACION DESEADA” (o un coste total máximo, véase el muestreo estratificado) Para evitar que involuntariamente alteremos las expresiones de estas hojas de cálculo se ha protegido el contenido de todas las celdas salvo las de introducción de datos (celdas grises). Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger / Desproteger hoja o bien copiaremos la hoja del fichero original (“PRACTICAS”) en una nueva hoja no protegida (se aconseja esta segunda opción). En el desarrollo de la asignatura se propone a los alumnos la realización de 9 prácticas con la ayuda del fichero “PRACTICAS”. Para que puedan comprobar la correcta resolución de las mismas, se ofrecen resueltas en los ficheros: “PRACTICA 1 RESUELTA”,.... Las hojas de estos ficheros están protegidas para evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen previamente según se indica en el párrafo anterior. Una vez resueltos los ejercicios que aparecen en el enunciado de estas 9 prácticas (que se han seleccionado como representativos de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos problemas pueda de las relaciones de ejercicios, resueltos o no, que se le han facilitado. 277 Cuando se vaya a utilizar el fichero “PRACTICAS”, se debe borrar, antes de introducir los datos del problema, el contenido de todas las celdas de datos (celdas grises), pues dejar datos de ejercicios previos podría dar lugar a resultados erróneos. Cuando se borren los datos de las celdas grises aparecerán errores de cálculo en las celdas donde se evalúan las expresiones sobre dichos datos (#¡DIV/0!, #¡VALOR!, #¡NUM!, ..., dado que se evalúa la expresión considerando cero el valor de las celdas vacías). Estos errores desaparecerán en cuanto se introduzcan los correspondientes nuevos datos. En las celdas donde permanezcan dichos errores son expresiones que no se pueden calcular con la información de que disponemos y por tanto no podemos conocer. En algunas ocasiones será necesario introducir la información del problema en celdas distintas a las habituales (grises), para ello desprotegeremos previamente la hoja. Destacamos aquí, por ser muy frecuente, el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y muestreo estratificado en lugar de disponer de todos los datos que forman las muestras sólo tenemos la información resumida del tamaño, media y varianza (en variables numéricas) o del tamaño y proporción (en variables dicotómicas), en ese caso en las correspondientes celdas (marcadas con un color amarillo más intenso) escribiremos dichos valores, quedando vacías las celdas grises correspondientes a los datos muestrales. (Nota: en la hoja Razón, regresión y diferencia se utilizan distintos tonos de amarillo sólo con fines estéticos, no por los motivos indicados aquí para el muestreo aleatorio simple y estratificado). El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versión del programa y de la configuración de las barras de herramientas, zoom,..., de hecho en este documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no resta generalidad ni validez a los comentarios que se acompañan. Para cada una de las prácticas que siguen se han elegido ejercicios representativos, algunos están resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los capítulos. Sería conveniente resolver todos ellos a mano antes de hacerlo con el ordenador, eso ayudará a una mejor comprensión de cómo se ha construido la plantilla para la práctica y de la potencialidad del ordenador para resolver este tipo de problemas. Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que se resuelven con la ayuda del ordenador y otros a mano, sino que todos los ejercicios que hay 278 en las relaciones de cada capítulo se pueden resolver (salvo puntuales excepciones) de ambas formas y deberían resolverse cómodamente una vez que se dominen estas prácticas tras resolver los ejemplos que siguen. Las prácticas 10 y 11 sobre contrastes de hipótesis no paramétricos se realizarán con la ayuda del programa SPSS. Previo a estas prácticas se ofrece una “Introducción al SPSS” para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una “Guia breve de SPSS” para aquellos otros que quieran profundizar más en su uso. 279 PRÁCTICA 1 Muestreo Aleatorio Simple en poblaciones infinitas (o con reemplazamiento) 1. Con objeto de estimar la media poblacional de dos poblaciones infinitas, realizamos un muestreo aleatorio simple sobre ambas poblaciones, recogiendo en la primera una muestra de tamaño 36 y en la segunda una muestra de tamaño 45 MUESTRA 1 MUESTRA 2 26,3 28,5 31,6 25,5 24,6 32,3 35,5 29 27,3 34,6 29,5 28,8 26,6 27,5 35,4 38 29 27 31,5 30,2 29,4 30,6 31,4 25 26 24 29,2 25,5 27,8 26 24 26 31,5 35,3 32,2 34,1 1 0 1 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1 1 1 0 1 0 1 0 1 1 0 0 0 0 1 Obtenga en ambos casos: a. La media muestral. b. La cuasivarianza muestral. c. Límite para el error de estimación (95% de confianza) d. Intervalo de confianza para la media poblacional (nivel de confianza del 95%) Solución: MUESTRA 1 MUESTRA 2 a) Media muestral 29, 35 y = 51,11% p = b) Cuasivarianza muestral 2 1 13, 38 n S − = 2 1 0, 2556 n S − = c) Límite para el error de estimación 1,22 0,1507 d) Intervalo de confianza (28,13 , 30,57) (36,04% , 66,18%) Seleccionamos del fichero Excel “PRACTICAS” la hoja “MAS infinito” (Muestreo aleatorio simple en poblaciones infinitas) y antes de nada, tal y como se aconseja en la “INTRODUCCIÓN A LAS PRÁCTICAS EN EXCEL” debemos borrar toda la información numérica que hubiera en las celdas grises. Este primer paso común a todas las prácticas que siguen no se repetirá en la explicación de cada una para no aumentar innecesariamente la longitud del documento 280 Dado que los datos de la muestra 1 son numéricos los escribiremos en la columna correspondiente a “Datos numéricos” (columna C) y la muestra 2 por ser dicotómica la escribiremos en la columna D Obteniéndose la solución del apartado a) en C10 y D10, del apartado b) en C11 y D11, del apartado c) en C13 y D13, del apartado d) en C14, C15, D14 y D15. 281 2. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. Durante una semana observaron al azar 300 compras de las cuales 35 fueron pagadas con la tarjeta. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. b) Cuantas compras deberían observarse para estimar, con un error inferior al 2%, la proporción de compras pagadas con la tarjeta. (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta, cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 2%. Solución: a) (7,95%, 15,38%), b) n=1.030,6≈1.031, c) n=2.500. Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo más intenso (Herramientas/Proteger/Desproteger hoja...). Puesto que se trata de una variable dicotómica trabajaremos sobre la columna D. Escribimos en D9 el tamaño de la muestra (300) y en D10 el valor de la proporción muestral (=35/300) 282 Obteniéndose en D14 y D15 la solución al apartado a): (0,0795 , 0,1538). Si deseamos ver el valor de una o varias celdas con más decimales, seleccionaremos éstas y pulsaremos en el botón “aumentar decimales” de la barra de herramientas “formato” tantas veces como decimales se quieran añadir. Análogamente, con el botón “disminuir decimales” redondearemos el resultado con un menor número de decimales. (Si la hoja está protegida no nos permitirá hacer este tipo de acciones). 283 En casi todas las hojas (“MAS infinito”, “MAS finito”, “2 Estratos”, “3 Estratos”, “4 Estratos”, “Razón, regresión y diferencia” y “Conglomerados”) se ha adoptado un esquema similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y los errores de estimación asociados (y cálculos relacionados con los anteriores) en la parte inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se determina el tamaño de la muestra para un límite del error de estimación fijado (deseado). Para esta parte inferior de la plantilla se necesita como información, para realizar los cálculos, la cota del error de estimación deseada y en el caso numérico la varianza muestral que puede obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta “Muestra” o bien a partir del rango (como veremos en el ejercicio 5 de la práctica 2). En el caso dicotómico la varianza muestral depende de p (proporción muestral o estimación de la proporción) y este es el valor que debemos incluir en la plantilla para obtener el tamaño muestral, p puede obtenerse de una muestra previa que aparecería bajo la etiqueta “Muestra”, introducirse directamente si se conoce su valor (como en el apartado b de este ejemplo, 35/ 300 p = ), o bien, darle el valor 0.5 cuando no se tenga ninguna información acerca de su valor (como en el apartado c). NOTA: No debe confundirse el tamaño muestral que aparece etiquetado en rosa que corresponde al tamaño de una muestra que hemos observado, que ya tenemos, del tamaño muestral que aparece etiquetado en naranja y que nos dice cómo debe ser la muestra que debemos tomar, por tanto aún no se tiene, para conseguir que las estimaciones tengan 284 como máximo un determinado error de estimación. Asimismo no debemos confundir la cota del error de estimación etiquetada en rosa que se refiere al error asociado a una estimación hecha con la muestra que hemos observado y por tanto su valor no lo decidimos nosotros, con la cota del error de estimación etiquetada en naranja que la fijamos de antemano. Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 “COTA DEL ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solución: n=1030,6 Por último, para resolver el apartado c), dado que no se tiene información sobre la proporción de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167), suponemos que ese valor es ½=0,50. 285 En las celdas D11, D12, D13, D14 y D15 aparecen errores en el cálculo de dichas expresiones debido a que entienden que el tamaño muestral en D10 es cero, pero dichas celdas no afectan al cálculo de la expresión D18 donde aparece el tamaño muestral necesario para que el error de estimación no supere el 2% (D17=0,02) 3. Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 4.500€ (siendo la cuasivarianza de los datos 615,15). Estímese el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: 128, 57 8, 38 B µ = = Aunque en el mismo contexto que el ejercicio 2 de esta práctica, en este caso trabajamos con una variable numérica donde el tamaño de la muestra no es 300 sino 35 (clientes observados que pagaron con la tarjeta). En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos mediante su media (la calculamos como la suma de las compras dividida entre el número de ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja de cálculo para poder introducir directamente en las celdas color amarillo intenso los anteriores valores que la hoja de cálculo hubiese obtenido si le diéramos los datos de la muestra. La estimación de la media y el error de estimación asociado pueden leerse en las celdas C10 y C13. 286 PRÁCTICA 2 Muestreo Aleatorio Simple en poblaciones finitas. Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de poblaciones infinitas estudiado anteriormente y presenta análogas posibilidades y/o dificultades. Nos podemos encontrar con variables de tipo numérico (ejercicios 1, 2 y 3) y dicotómicas (ejercicios 3 y 4). Situaciones en las que conocemos explícitamente los datos de la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra en su media, varianza y tamaño muestrales (caso numérico, ejercicio 2) o en su proporción y tamaño muestrales (caso dicotómico, ejercicio 4). En cuanto a las diferencias entre un tipo de muestreo y otro, señalar que en el muestreo aleatorio simple en poblaciones finitas tiene sentido la estimación del total poblacional (como sabemos, a partir de la media o de la proporción) hecho que no se trata en el muestreo aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las estimaciones, errores de estimación e intervalos de confianza, tanto en el caso numérico como dicotómico, se han desdoblado para calcular los correspondientes valores relativos a la estimación de la media (o proporción) y del total. Dado que nos enfrentamos a una población finita debemos introducir el valor finito del tamaño de la población en C8 o E8. Cuando algunos valores (tamaño poblacional, tamaño muestral,..., datos muestrales) son comunes a la estimación de la media y del total se fusionan las celdas de las dos columnas para evitar repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en poblaciones finitas. 287 1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 a) Estime el total del dinero adeudado y establezca un límite para el error de estimación. b) ¿Cuántas cuentas deberían observarse para estimar el total de deuda con un error inferior a 200€? (considere los anteriores datos como una muestra previa) Solución: a) 3966,6 τ = 2 ( ) 381, 02 V τ = b) 18, 96 19 n = ≈ En este sencillo ejercicio sólo tenemos que borrar los datos de las celdas grises e introducir la información del enunciado. No es necesario desproteger la hoja porque no se modifica ninguna de las expresiones de las celdas amarillas. 288 Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el máximo error de estimación que deseamos en la celda D17 se obtiene el tamaño muestral necesario en D18, (si el error de estimación se refiere a la media, éste debe introducirse en C17). 2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una comunidad de regantes para estimar el promedio de consumo de agua diario (en m 3 ) durante un periodo estacional seco. La media y varianzas muestrales fueron 3 10, 31 y m = y 2 6 2, 25 s m = . Hay en total 750 regantes en la comunidad. a) Estime el consumo medio diario de toda la comunidad y establezca un límite para el error de estimación. b) Estime con un intervalo de confianza la cantidad total de litros de agua empleada diariamente. Solución: a) 3 3 10, 31 0, 41 y m B m = = , b) (7.425.090 litros , 8.039.910 litros). En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que desprotegerla para escribir en C9, C10 y C11 el tamaño, la media y varianza muestrales, además de no olvidar el tamaño de la población en la celda C8. En C10 y C13 está la respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores están expresados en m 3 y la respuesta la piden en litros por lo que se multiplicarán por 1000). 289 3. Para estimar el número de alumnos de un grupo de la asignatura Técnicas para el Análisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los 15 alumnos de un grupo de prácticas de la asignatura. La respuesta se recoge en la siguiente tabla 1-SI 2-SI 3-NO 4-SI 5-NO 6-NO 7-SI 8-SI 9-SI 10-NO 11-NO 12-NO 13-SI 14-SI 15-NO a) Estime, mediante un intervalo de confianza, cuántos de los 150 alumnos que hay en ese grupo tienen acceso en casa a Internet. b) ¿Le parece fiable la predicción?. c) A cuantos alumnos se tendría que preguntar para que la estimación se realizara con un error inferior a 10 alumnos. Solución: a) (42,05 , 117,95), b) No, el error es muy grande (37,95) y por tanto el intervalo de confianza muy amplio, c) n=90,1≈91. Este ejercicio es un sencillo ejemplo de datos dicotómicos donde se conocen los valores de la muestra, sólo tenemos que introducirlos en la columna correspondiente, etiquetando como 1 aquella respuesta cuya proporción o total queremos estimar (en este caso SI=1, NO=0). Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en la filas 14 y 15 la respuesta. El valor de la cota del error de estimación del total que vemos en F13=37,95 es importante si lo comparamos con la estimación del total F10=80 (casi la mitad), por lo que se concluye la poca fiabilidad de la estimación. Escribiendo el máximo error de estimación que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el tamaño muestral necesario para conseguirlo. 290 4. Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada para determinar la proporción de estudiantes que está a favor del cambio del sistema semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente. Estime la proporción de estudiantes que está a favor del cambio y establezca un límite para el error de estimación. Solución: 19, 44% 3, 74% p B = = En este ejemplo de datos dicotómicos (como el anterior) no tenemos explícitamente la lista de los 180 elementos observados pero conocemos el tamaño (180) y la proporción muestral (35/180). Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y E10 (=35/180) apareciendo en E10 y E13 la respuesta. NOTA: En ejemplos con datos dicotómicos donde se tenga la lista completa de los valores de la muestra se puede optar por este procedimiento de resolución que resulta a veces más cómodo. Así por ejemplo, en el ejercicio anterior podríamos haber contado los elementos de la muestra n=15, el número de respuestas SI=8, desproteger la hoja de cálculo y escribir en E9 (15) y en E10 (=8/15). 291 5. Encuentre el tamaño de muestra necesario para estimar el valor total de 1.000 cuentas por cobrar con un límite para el error de estimación de 10.000€. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600, 1.400). NOTA: En la casilla C11 estimamos la varianza mediante ( ) 2 2 2 1400 600 40.000 16 16 R σ − ≅ = = (se utiliza que la desviación típica en variables normales es aproximadamente la cuarta parte del rango o recorrido de los datos observados) Solución: 615, 62 616 n = ≈ En primer lugar, señalar que se trata de un problema con datos numéricos (valor de las cuentas) y que estamos interesados en la estimación del total. Según se sugiere en la nota, escribiremos en la celda C11 la expresión =((1400-600)^2)/16 ,o bien =(800^2)/16, que como puede observarse vale 40000. En D17 introduciremos el máximo error de estimación que queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta 292 293 PRÁCTICA 3 Muestreo Aleatorio Estratificado. En el fichero Excel de las prácticas de la asignatura hay tres hojas con las plantillas para los cálculos necesarios en el muestreo aleatorio estratificado de 2, 3 y 4 estratos, tanto para datos numéricos como dicotómicos. Para un mayor número de estratos se puede confeccionar la plantilla fácilmente copiando las dos columnas de un estrato tantas veces como se quiera e incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos columnas de toda la población donde se recopila la información del conjunto de todos los estratos (véase las notas sobre las preprácticas). El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los estratos, por lo que en cada estrato (en la parte superior de la plantilla) se han copiado, exactamente, las mismas expresiones que aparecen en el muestreo aleatorio simple. La determinación del tamaño muestral y su asignación (parte inferior de la plantilla) son mucho más complejas que en el muestreo aleatorio simple y no guardan relación con él. Al igual que el muestreo aleatorio simple, el muestreo aleatorio estratificado puede hacerse sobre poblaciones finitas e infinitas. Nosotros hemos supuesto el modelo con tamaños poblacionales de los estratos finitos (que aparecen en la fila 8), pero como veremos en algunos ejemplos ( ejercicios 4 y 8) se puede aplicar también al caso de tamaños poblacionales infinitos. Para simplificar las expresiones de la parte inferior de la plantilla (determinación del tamaño muestral y asignación) se han hecho unos cálculos previos en la banda blanca intermedia que aparecen en un negro menos intenso y carecen de una interpretación directa. 1. Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio, se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. Hay 210 hogares en el barrio A, 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A, 6 del barrio B, y 9 del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se 294 muestran en la siguiente tabla: BARRIO A BARRIO B BARRIO C 36 39 38 28 29 34 38 37 41 37 26 32 29 35 41 20 30 14 41 39 25 14 15 21 20 24 22 17 11 14 Estime el tiempo medio que se ve la televisión, en horas por semana, para: a) Los hogares del barrio A. b) Los hogares del barrio B. c) Los hogares del barrio C. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. e) ¿Qué tipo de asignación se ha utilizado? NOTA: Obsérvese que debido al tipo de asignación utilizado, st y y = . st y aparece en la celda I10=28,23. y lo podemos calcular, por ejemplo en la celda B28, escribiendo la función =PROMEDIO(C28:G100) que calcula la media aritmética de todos los datos incluidos en las tres muestras (columnas C, E y G), obteniéndose B28=28,23. Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. Se estima que el coste de una observación del barrio A es de 1€, 9€ para el barrio B y 4€ para el barrio C. f) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). NOTA: Para comprobar que la asignación óptima y de Neyman coinciden cuando los costes son iguales, escriba en las celdas C21, E21 y G21 el mismo valor para los tres costes y observará que las filas 22 y 23 de la tabla (asignación óptima y de Neyman) coinciden. g) Supóngase que se tiene sólo 600€ para gastar en el estudio, determine el tamaño de la muestra y la asignación que minimizan el error de estimación. (Como en el apartado anterior, tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos). 295 Solución: a) 34, 67 2, 40 A y B = = b) 28,17 8, 35 B y B = = c) 17, 56 2, 82 C y B = = d) 28, 23 2, 22 st y B = = e) proporcional f) 1 2 3 n=124,88 n =79,71 80 n =23,39 24 n =21,78 22 n=80+24+22=126 ≈ ≈ ≈ . En el caso de no querer sobrepasar un máximo error de estimación siempre redondearemos por exceso. g) 1 2 3 n=198,56 n =126,74 126 n =37,19 37 n =34,63 34 n=126+37+34=197 ≈ ≈ ≈ . Cuando no queramos superar un determinado presupuesto redondearemos por defecto, haciéndolo así : (1 126) (9 37) (4 34) 595€ coste total = × + × + × = sin embargo: (1 127) (9 38) (4 35) 609€ coste total = × + × + × = Estamos ante el caso más sencillo de estratos con datos numéricos donde sólo tenemos que introducir la información que tenemos en las celdas grises. No hace falta desproteger la hoja “3 Estratos” salvo para los cálculos del apartado e (motivo por el que lo resolveremos al final). Para responder a los apartados a, b, c y d , escribiremos los tamaños poblacionales de los estratos en la fila 8 y los valores de las muestras en las columnas C, E y G bajo las etiquetas “Muestra 1”, “Muestra 2” y “Muestra 3”. NOTA: No olvide pulsar “Enter” después de escribir el último dato pues en caso contrario la hoja de cálculo no lee éste. La estimación para la media y su límite para el error de estimación en cada uno de los estratos (barrios) pueden verse en C10, C13; E10, E13; G10, G13 y la estimación para el conjunto de todos los hogares de la población en I10, I13. 296 Para contestar al apartado f, escribiremos los costes de observación en C21, E21 y G21 y el máximo error de estimación que queremos cometer al estimar la media en I20 (si pretendiéramos estimar el total de horas con un determinado error utilizaríamos la celda J20). En las filas 22, 23 y 24 están los tres tipos de asignación estudiados. Nos fijaremos en los valores que aparecen en las columnas correspondientes a la media de cada estrato y de la población porque ha sido sobre la estimación de la media donde hemos impuesto la condición de que el error no supere 1 hora. A los valores que hay a la derecha de éstos y que se refieren al total no hay que prestarles atención, se han calculado suponiendo que queremos estimar el total con un error cero (celda J20 en blanco) y carecen de sentido, obsérvese que en el caso de la asignación óptima deberíamos observar 453 elementos de un total de 420 que hay en toda la población, con la asignación de Neyman habría que observar en el estrato 2 a 130 elementos, sin embargo sólo hay 84 en ese estrato. Hechas estas aclaraciones nos queda aún la decisión de cuál de las tres asignaciones debemos tomar. Salvo que se pregunte por una asignación concreta en el enunciado del ejercicio, debemos utilizar siempre que se pueda la asignación óptima, fila 22, pues como su nombre indica es la mejor. Cuando no conozcamos los costes de observación (bórrese estos de la fila 21) no se podrá obtener la asignación óptima, la hoja de cálculo nos dará errores de división por cero. 297 En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un presupuesto o coste total fijo, en este caso 600€. Para ello utilizamos la asignación óptima para un coste total fijo, fila 25. La solución la tenemos en la pantalla que aparece en la página 19 de este documento (celdas C25, E25, G25, I25). La celda B21 incluye dos etiquetas, la primera “COSTE DE UNA OBSERVACIÓN” se refiere a lo que cuesta una observación en cada estrato y debemos escribirlo en C21, E21 y G21, la segunda etiqueta “COSTE TOTAL” hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21. La determinación y asignación de las muestras en los apartados f y g utilizan las estimaciones de las varianzas de los datos en cada estrato (varianza muestral, fila 11) a partir de las muestras previas de 15, 6 y 9 elementos que disponemos en los respectivos estratos, tal y como se indica en el enunciado. En el apartado e vamos a verificar que se ha utilizado la asignación proporcional en la muestra observada. Para comprobarlo hay que ver que 3 1 2 1 2 3 n n n n N N N N = = = o equivalentemente 3 1 2 1 2 3 N N N N n n n n = = = . Para ello en cualesquiera tres celdas en blanco calcularemos: =C8/C9, =E8/E9, =G8/G9 y observaremos que coinciden. Nota: Para hacer esos cálculos en esta hoja habrá que desprotegerla. Si coinciden estos tres valores no es necesario comprobar la igualdad con =I8/I9. Consecuencia de haber utilizado la asignación proporcional es que st y y = . Ese hecho se ha comprobado calculando y en B28 y observando que coincide con st y en I10 (véase pantalla de la página 19). 2. En el caso anterior, también se desea saber qué proporción de hogares ven un determinado programa, para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO NO SI NO SI NO SI NO SI SI NO NO NO SI NO SI SI SI SI NO SI SI NO SI SI SI SI NO a) Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. b) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. (Supóngase que se realiza la entrevista por teléfono y el 298 coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) c) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa. Solución: a) (42,7% , 77,3%) b) 1 2 3 n=188,98 n =101,29 102 n =30,27 31 n =57,42 58 n=102+31+58=191 ≈ ≈ ≈ c) 1 2 3 n=204,88 n =102,44 103 n =40,98 41 n =61,46 62 n=103+41+62=206 ≈ ≈ ≈ Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aquí trabajamos con datos dicotómicos. Seleccionaremos en la hoja “3 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. En el enunciado de este ejercicio no se repiten los tamaños poblacionales de los estratos porque se sobreentiende que son los mismos al no cambiar de población en estudio. Tras introducir los datos, en S14 y S15 tenemos los extremos del intervalo de confianza pedido en el apartado a. Obsérvese que aunque se dice que los costes de observación por teléfono son los mismos, éstos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la 299 asignación óptima. Pero sabemos, como se ha comprobado en la nota al apartado f del ejercicio anterior, que las asignaciones óptima y de Neyman coinciden si los costes de observación son iguales (se conozcan o no). Se sugiere escribir unos costes de observación (los que se quieran) iguales para los tres estratos y comprobar que la asignación óptima nos daría los mismos valores que la asignación de Neyman (M23, O23, Q23 y S23) que son la solución al apartado b. Cuando, como en el apartado c, no se tienen datos previos para estimar la proporción en cada estrato y a partir de ella la varianza de los datos en cada estrato, suponemos que el valor de la proporción es 0,5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir en M10, O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas “MUESTRA 1”, “MUESTRA 2” y “MUESTRA3”. Al no introducir datos muestrales (por tanto, tamaño muestral = 0) aparecen errores de cálculo en las filas 11, 12, 13, 14 y 15, pero esos valores no afectan a la determinación del tamaño muestral que sólo tiene en cuenta los tamaños de los estratos (fila 8) y la estimación de la proporción (fila 10). Además se observa que al ser la proporción igual en los tres estratos y por tanto la varianza de los estratos, las asignaciones de Neyman y proporcional coinciden y son la solución al apartado c. 300 3. Una multinacional desea obtener información acerca de la efectividad de una máquina comercial. Se va a entrevistar por teléfono a un número de jefes de división, para pedirles que califiquen la maquina con base en una escala numérica. Las divisiones están localizadas en Norteamérica, Europa y Asia. Es por eso que se usa muestreo estratificado. Los costes son mayores para las entrevistas de los jefes de división localizados fuera de Norteamérica. La tabla siguiente proporciona los costes por entrevista, varianzas aproximadas de las calificaciones y número de jefes de división en cada zona. Estrato I (Norteamérica) Estrato II (Europa) Estrato III (Asia) 112 25 , 2 9 $ 1 2 1 1 = = = N c σ 68 24 , 3 25 $ 2 2 2 2 = = = N c σ 39 24 , 3 36 $ 3 2 3 3 = = = N c σ La multinacional quiere estimar la calificación media con un error inferior a 1 punto. Encuentre el tamaño apropiado de la muestra que conduce a este error para el estimador y su asignación. Solución: 1 2 3 n=11,26 n =6,84 7 n =2,99 3 n =1,43 2 n=7+3+2=12 ≈ ≈ ≈ En la hoja “3 Estratos”, tras borrar toda la información de las celdas grises, escribimos el valor de los costes de observación en la fila 21, las varianzas de los estratos en la fila 11 (hay que desproteger la hoja) y los tamaños de los estratos en la fila 8. El máximo error de estimación que se quiere cometer al estimar la media se sustituye en I20. La solución sería la asignación óptima (fila 22), valen los mismos comentarios hechos en el ejercicio 1, apartado f. 301 4. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que proceden de tres máquinas diferentes de producción. Ella sabe que de los circuitos integrados que van a ser inspeccionados, el 50% proceden de la máquina A, el 30% de la máquina B y el 20% de la máquina C. En una muestra aleatoria de 200 circuitos integrados, 80 provienen de la máquina A, 70 de la B y 50 de la C. De los circuitos integrados muestreados: son defectuosos 10 de la máquina A, de la B son defectuosos 6 y de la C son 5 defectuosos. Estratifique la muestra en circuitos integrados provenientes de las máquinas A, B y C, estime la proporción de defectuosos en la población y fije un límite para el error de estimación (omita los coeficientes correctores para poblaciones finitas en todos los casos). NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores para poblaciones finitas i i i N n N − en la correspondiente hoja de cálculo (tres estratos), lo que equivale a hacerlos igual a 1. Tendríamos que (por ejemplo en el estrato 1) borrar en las fórmulas de las celdas M12 y N12 las expresiones 8 9 8 i i i N n M M N M − − = (análogamente repetiríamos para los estratos 2 y 3 en las celdas O12, P12, Q12 y R12) . Lo anterior se puede resolver más fácilmente dando a los valores i N en las celdas M8, O8 y Q8 valores muy grandes de forma que 1 i i i N n N − ≅ . Por otra parte dado que los valores i N no son conocidos aunque sí i N N (0,50, 0,30 y 0,20), debemos respetar dichas proporciones (sugerencia M8=50.000.000, O8=30.000.000 y Q8=20.000.000). Solución: 10,82% 4, 56% st p B = = Al no disponer de las observaciones muestrales sino de los tamaños de las muestras ( 1 9 80 n M = = , 2 9 70 n O = = , 3 9 50 n Q = = ) y proporciones muestrales en cada estrato ( 10 10/ 80 M = , 10 6/ 70 O = , 10 5/ 50 Q = ), desprotegeremos la hoja y escribiremos esa información en las filas 9 y 10. No se conocen los tamaños poblacionales de los estratos por lo grandes que son estos (podemos considerarlos infinitos) pero sí se conoce la relación de estos tamaños con el de toda la población 3 1 2 100 50%, 100 30%, 100 20% N N N N N N | | = = = | \ . . 302 Como se indicaba en la introducción a la práctica 3, las plantillas para el muestreo aleatorio estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas, pero estas plantillas pueden utilizarse también para el caso de muestreo aleatorio estratificado con tamaños poblacionales de los estratos infinitos (tan grandes que su tamaño es desconocido). La clave para hacerlo está en la anterior nota. La diferencia entre las expresiones del muestreo aleatorio simple en poblaciones finitas e infinitas está en que en el primero aparece multiplicando el coeficiente corrector para poblaciones finitas N n N − y en el segundo no (o lo que es lo mismo, 1 N n N − = ). Así, borrando i i i N n N − de todas las expresiones o haciendo 1 i i i N n N − = , habremos adaptado nuestras plantillas al caso de muestreo estratificado con tamaños de los estratos infinitos. Dado que borrar y manipular sobre las expresiones escritas puede provocar fácilmente errores, si no se hace con toda cautela, proponemos la segunda alternativa como la forma más segura de transformar las expresiones del muestreo aleatorio simple finito en el caso infinito. Para ello en la fila 8 (TAMAÑO POBLACIONAL) escribiremos valores muy grandes para los tamaños de los estratos ( i N ) de forma que 1 i i i N n N − ≅ , lo que equivale prácticamente a quitarlo de las expresiones donde aparece. Pero con esto no acaba todo, no podemos escribir unos tamaños i N tan grandes como queramos a nuestro antojo, dichos tamaños han de respetar la relación entre los tamaños de los estratos, es decir, los valores i N N que habitualmente vienen dados en porcentajes. En este ejercicio: 1 100 50% N N = , 2 100 30% N N = , 3 100 20% N N = . Por último, una forma sencilla de asignar los tamaños a los estratos respetando dichos porcentajes consiste en añadir al porcentaje varios ceros (el mismo en todos los estratos). En este caso para el estrato 1 hemos tomado 50 millones como tamaño poblacional y análogamente para los otros estratos: 1 M8=50.000.000 N = , 2 O8=30.000.000 N = y 3 Q8=20.000.000 N = 303 La pequeña diferencia entre la solución del problema B=4,56% y el valor que aparece en la anterior pantalla (S13=0,0457, es decir, 4,57%) es debido a que trabajamos con 1 i i i N n N − ≅ y no exactamente 1. Si se quiere una mejor aproximación a la solución debemos escribir mayores valores en M8, O8 y Q8, lo que se consigue simplemente añadiendo más ceros a dichas cifras (¡ojo, el mismo número en todas!). 5. El Ministerio de Medio Ambiente quiere estimar el número total de hectáreas plantadas de árboles en las fincas de una comarca. Ya que el número de hectáreas de árboles varía considerablemente con respecto al tamaño de la finca, decide estratificar sobre la base del tamaño de las fincas. Las 240 fincas de la comarca son clasificadas en 4 categorías de acuerdo al tamaño. Una muestra aleatoria estratificada de 40 fincas, seleccionada mediante asignación proporcional, dio como resultado el número de hectáreas plantadas de árboles que se muestra en la siguiente tabla: 304 Estrato I Estrato II Estrato III Estrato IV 0-200 ha. 201-400 ha. 401-600 ha. +600 ha. 86 1 = N 72 2 = N 52 3 = N 30 4 = N 14 1 = n 12 2 = n 9 3 = n 5 4 = n 97 67 125 155 142 256 167 655 42 125 67 96 310 440 220 540 25 92 256 47 495 510 780 105 86 310 236 320 396 27 43 220 352 196 45 59 142 190 53 21 a) Estime el número total de hectáreas plantadas de árboles en las fincas de la comarca y fije el límite para el error de estimación. b) Este estudio se quiere hacer anualmente con un límite para el error de estimación de 5.000 hectáreas. Encuentre el tamaño muestral y su asignación para garantizar dicho límite de error si se usa la asignación de Neyman. Solución: a) ˆ 50505, 60 8663,12 B τ = = b) 1 2 3 4 n=59,7 n =6,9 7 n =16,7 17 n =16,4 17 19, 7 20 n=7+17+17+20=61 n ≈ ≈ ≈ = ≈ Este ejercicio es del mismo tipo que el ejercicio 1: datos numéricos y conocemos las observaciones muestrales, pero en este caso el número de estratos es 4. Salvo esa diferencia (por lo que seleccionaremos en este caso la hoja “4 Estratos”) no presenta ninguna dificultad nueva a las encontradas en el ejercicio 1. Sin necesidad de desproteger la hoja, escribiremos los tamaños poblacionales de los estratos en la fila 8 y las observaciones muestrales en las columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaños de las muestras pues la hoja de cálculo los obtiene al contar las observaciones muestrales que se han escrito debajo). En L10 y L13 está la solución al apartado a. Escribiendo en L20 el máximo error que se quiere cometer al estimar el total de hectáreas, se puede leer en la fila 23 (asignación de Neyman, dado que no tenemos información sobre costes para poder calcular la asignación óptima) la respuesta del apartado b (si queremos obtener la solución con un decimal podemos utilizar el botón “disminuir decimales” como se indicó en el ejercicio 2 de la práctica 1). Recordemos, dado que se va a estimar el total, que debemos leer de la fila 23 sólo la información de las celdas bajo las columnas “TOTAL”. 305 6. Para la comarca del ejercicio anterior, el gobierno también desea conocer la proporción de fincas que han sufrido algún incendio en los últimos diez años. Para ello, en la misma muestra se pregunta sobre el referido asunto, obteniéndose las siguientes respuestas Estrato I Estrato II Estrato III Estrato IV 0-200 ha. 201-400 ha. 401-600 ha. +600 ha. 86 1 = N 72 2 = N 52 3 = N 30 4 = N 14 1 = n 12 2 = n 9 3 = n 5 4 = n NO NO SI NO NO NO NO NO SI SI NO SI SI NO SI NO NO NO NO NO NO NO NO NO NO NO NO NO NO SI SI NO NO SI NO NO NO SI NO NO Estímese con un intervalo de confianza la proporción de fincas de la comarca que han sufrido algún incendio en los últimos diez años. Solución: (11,9% , 38,21%) 306 Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Seleccionaremos en la hoja “4 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. 7. Una psicóloga que está trabajando con un grupo de adultos con retraso mental, desea estimar su tiempo medio de reacción a un cierto estímulo. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción, por lo que desea estratificar con base en los sexos. El grupo de 96 personas tiene 43 varones. En estudios previos de este tipo de investigaciones se ha encontrado que los tiempos presentan una amplitud de variación de 5 a 20 segundos para varones y de 3 a 14 segundos para mujeres. Los costes del muestreo son los mismos en ambos estratos. Usando la asignación óptima, encuentre el tamaño muestral necesario para estimar el tiempo medio de reacción para el grupo, con un límite de error de un segundo. Solución: 1 2 28, 48 14, 96 15 13, 52 14 15 14 29 n n n n = = ≈ = ≈ = + = N=96, N 1 =43, por tanto N 2 =53 . Como en el ejercicio 5 de la práctica 2 estimaremos la varianza de los datos en cada estrato a partir del rango o recorrido de los mismos. En el primer estrato escribiremos en la 307 celda C11 ( ) 2 2 2 20 5 14, 06 16 16 R σ − ≅ = = . Análogamente en el estrato 2, ( ) 2 2 14 3 E11= 7, 56 16 16 R − = = . Como en el apartado b del ejercicio 2, los costes de observación en cada estrato son los mismos. Podemos optar por escribir el mismo coste de observación en C21 y E21 (cualquier valor, por ejemplo aquí hemos considerado 1) y leer la solución en las filas 22 y 23, o bien dejar esas celdas en blanco (C21 y E21) y tomar como solución la asignación de Neyman en la fila 23 (la asignación óptima en la fila 22 daría errores de cálculo, división por cero, en este caso) 8. Una verificación de control de calidad estándar para baterías de automóviles consiste simplemente en registrar su peso. Un embarque particular de una fábrica consistió en las baterías producidas en dos meses diferentes, con el mismo número de baterías producidas en cada mes. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de observar la variación mensual. Las muestras aleatorias simples de los pesos de las baterías para los dos meses dieron las siguientes mediciones (en libras): 308 Mes A Mes B 61,5 64,5 63,5 63,8 63,5 63,5 64,0 66,5 63,8 63,5 64,5 64,0 a) Estime el peso medio de las baterías del embarque (población), y fije un límite para el error de estimación. Descarte el coeficiente corrector para poblaciones finitas. b) El estándar de la fábrica para este tipo de baterías es de 69 libras. ¿Considera usted que el embarque cumple el estándar promedio? c) ¿Cree usted que la estratificación del ejercicio anterior es deseable, o será suficiente con muestreo aleatorio simple? Solución: a) 63, 88 0, 63 st y B = = b) No, 69 no pertenece al intervalo (63,26 , 64,51) c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendría 63, 88 0, 65 y B = = , que es muy similar a lo obtenido en a) (las medias coinciden por ser la asignación proporcional). Esta pequeña diferencia entre los errores del muestreo aleatorio simple y del estratificado se debe a que los estratos no están formados por datos más homogéneos que el conjunto de la población, como puede verse al comparar sus varianzas muestrales 2 2 2 1 2 1, 07 1, 30 1, 27 S S S = = = , por tanto no estaría justificado estratificar basándose en la producción por meses. La producción de baterías no es conocida exactamente debido a su alto número, sólo nos dice el enunciado que la producción es la misma en cada mes. Por tanto hemos de suponer los tamaños de los estratos infinitos e iguales. Este hecho se confirma cuando en el apartado a se sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. Este problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron vamos a resolver este otro. Así, daremos a los tamaños de los estratos en C8 y E8 valores elevados pero iguales 309 La solución al apartado a se puede leer en G10 y G13. Para responder al apartado b nos fijamos en los extremos del intervalo de confianza para la media (G14, G15), dado que el valor 69 no está entre ambos concluimos que nuestros datos rechazan la afirmación de que el peso medio de la producción de baterías examinada sea de 69 libras. Para el apartado c juntaremos las muestras de los dos estratos en una única muestra aleatoria simple y la analizaremos con la ayuda de la hoja “MAS infinito”. Observamos que la estimación de la media tiene una cota de error de estimación similar a la del apartado a (analizando los datos según un muestreo estratificado). Tal y como se indica en los comentarios a la solución del apartado c más arriba, esto es debido a la falta de homogeneidad de los datos dentro de cada estrato, hecho que se confirma comparando las varianzas de las muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusión de ambas (celda C11 de la siguiente pantalla). 310 311 PRÁCTICA 4 Estimadores de Razón, Regresión y Diferencia. En esta plantilla sólo tenemos que introducir los valores que aparecen en las celdas grises, no tenemos que modificar ninguna expresión. No es necesario, por tanto, desproteger la hoja. Se deberá tener cuidado en no confundir los papeles de las variables X e Y cuyos datos muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). La variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones sobre la variable Y. Por consiguiente, una forma sencilla de establecer claramente el papel de las variables es fijarnos en sobre qué variable debemos estimar el valor de su media y/o total (variable Y). Habitualmente sólo nos darán el valor de la media poblacional de X o del total poblacional de X, pero no ambos, dado que fácilmente se puede calcular uno a partir del otro x x x x N N τ µ τ µ | | = ⇔ = | \ . , en cualquier caso debemos completar el valor de los dos como se ha hecho en la siguiente pantalla 8 15000 9 75 10 200 C C C | | = = = | \ . y volveremos a ver en el ejercicio 1 de esta práctica. 312 Si se quiere realizar alguna de las estimaciones con un error de estimación inferior a un determinado valor B, escribiremos éste en la celda correspondiente de la fila 18. Para obtener el tamaño muestral necesario para conseguir dicho nivel de error tenemos que conocer además de éste (fila 18), el tamaño poblacional (C8) y la varianza residual asociada al modelo (fila 17), para estimar esta última necesitamos una muestra previa que debe aparecer en las columnas C y D. Sin embargo, los valores de la media poblacional de X ( ) x µ o del total poblacional de X ( ) x τ no son necesarios, salvo en el caso de que se quiera estimar la razón (R) con un determinado error B, entonces escribiremos el valor de x µ o en su defecto x (como en el ejercicio 2) en la celda C9. Nota: El valor del coeficiente b de la recta de regresión se ha obtenido en G22 y G23 utilizando dos expresiones distintas. Con esto se quiere mostrar al alumno que éste y otros valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas. 1. Los auditores frecuentemente están interesados en comparar el valor intervenido de los artículos con el valor asentado en el libro. Generalmente, los valores en el libro son conocidos para cada artículo en la población, y los valores intervenidos son obtenidos con una muestra de esos artículos. Los valores en el libro entonces pueden utilizarse para obtener una buena estimación del valor intervenido total o medio para la población. Supóngase que una población contiene 180 artículos inventariados con un valor establecido en el libro de 13.320€. Una muestra aleatoria simple de 10 artículos nos dio los siguientes resultados: Valor intervenido i y Valor en el libro i x 9 14 7 29 45 109 40 238 60 170 10 12 8 26 47 112 36 240 59 167 Estime el valor intervenido medio, mediante un estimador de razón, un estimador de regresión y un estimador de diferencia. Obtenga el intervalo de confianza en cada caso. Solución: Estimador de razón (72,79 , 76,03). 313 Estimador de regresión (72,80 , 75,97). Estimador de diferencia (72,86 , 75,94) En el enunciado del ejercicio está indicado quien es cada variable. Si no lo fuera así, utilizando la estrategia sugerida más arriba de que Y es la variable sobre la que se quiere hacer la estimación, es claro que Y = valor intervenido y por tanto X = valor en el libro. Conocemos C8=N=180 y C10= 13320 x τ = , escribiremos también 13320 9 180 x x C N τ µ = = = , colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente pantalla se lee la solución en las columnas de la estimación de la media, filas 15 y 16. 2. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año, para las familias de una pequeña comunidad. Una muestra aleatoria de 8 familias fue seleccionada de entre 100. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 314 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 Estime la razón poblacional, y establezca un límite para el error de estimación. Solución: 0,1531; 0, 0118 r B = = NOTA: Como no se conoce la media poblacional de X, debemos estimarla por su media muestral, es decir, C9=PROMEDIO(C22:C100). La nota anterior sólo es aplicable para estimar la razón r, pues si utilizamos x en lugar de x µ cuando queremos estimar la media de la variable Y mediante un estimador de razón, regresión o diferencia, obtendríamos que y yL yD y µ µ µ = = = , es decir, estimaríamos la media de la variable Y sólo mediante su media muestral y no estaríamos utilizando información auxiliar alguna. Si en el ejercicio 1 hacemos B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que y yL yD y µ µ µ = = = (D12=F12=H12=B22) Necesitamos conocer el valor de x µ (C9) y x τ (C10) cuando se quiere estimar la media o el total, por cualquiera de los tres métodos. Sin embargo, no es necesario el valor de x µ para estimar la razón R, aunque si es preciso al menos estimarla con x si queremos obtener la cota del error de estimación asociado. Al no conocer x µ en este ejemplo, escribiremos la media muestral de X ( ) =promedio(C22:C100) x en la celda C9. 315 Para identificar las variables X e Y recordemos que la razón se define como el cociente del total de Y sobre el total de X. Por tanto, en este ejemplo donde se quiere estimar la razón o proporción de dinero gastado en alimentos en relación al ingreso total por año, Y = gasto en alimentos, X = ingreso total. En cuanto a la nota sobre no usar x en lugar de x µ cuando estimemos la media de Y, se aclara con la siguiente pantalla. 316 Hemos escrito en C9 la media muestral de X ( ) =promedio(C22:C100) x en lugar de la media poblacional de X 13320 180 x x N τ µ | | = = | \ . . Se ha calculado en B22 la media muestral de Y ( ) =promedio(D22:D100) y para comprobar que si se utiliza x en lugar de x µ , la media de Y se estimaría, mediante los tres métodos, sencillamente por y . 317 PRÁCTICA 5 Muestreo Sistemático. El muestreo sistemático, bajo determinadas condiciones (muy generales), se comporta como el muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de estimación. Debido a esto, tras razonar que nos encontramos bajo esas condiciones, utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los problemas de muestreo sistemático. 1. La gerencia de una compañía privada está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo en particular. Use los datos de la tabla siguiente para estimar la proporción a favor de la nueva política, y establezca un límite para el error de estimación. Suponga que hay un total de 2.000 empleados. Empleado muestreado Respuesta 3 1 13 0 23 1 1993 1 ∑ = = 200 1 132 i i y Solución: 66% 6, 37% sy p B = = 318 Dado que no conocemos explícitamente los 200 valores de la muestra (y aunque se conocieran sería largo escribirlos) pero si conocemos la suma de ellos, ∑ = = 200 1 132 i i y , introduciremos directamente la estimación de p en E10 132 200 p | | = | \ . y el tamaño muestral en E9 (para lo que es preciso desproteger primero la hoja). El tamaño muestral se obtiene dividiendo el tamaño poblacional N=2000 entre 10 (muestra sistemática de 1 en 10) o sencillamente observando el índice superior de la sumatoria ∑ = = 200 1 132 i i y . 2. Con los datos del ejercicio anterior, determine el tamaño de muestra requerido para estimar p, con un límite para el error de estimación del 4,8%. ¿Qué tipo de muestra sistemática deberá obtenerse? Solución: 326, 2 327 n = ≈ . Sería suficiente con tomar una muestra sistemática de 1-en-6 donde 2000 333, 3 333 334 6 n o = = ≈ . La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamaño muestral necesario, en la celda E18 (326,2), para que la estimación de p no supere la cota B=0,048 (4,8%), pero no obtenemos directamente el valor de k que es sólo característico del muestreo sistemático. El valor de k se puede obtener fácilmente calculando en cualquier celda en blanco el cociente entre el tamaño poblacional y el tamaño muestral (por ejemplo, 8 22 6,13 18 N E B n E = = = ) y quedándonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente como se ha hecho en 8 23 6 18 N E B ENTERO ENTERO n E | | | | = = = | | \ . \ . 319 320 PRÁCTICA 6 Muestreo por Conglomerados. En esta plantilla utilizamos la función condicional SI para el cálculo de expresiones que tienen diferentes formas (o sencillamente no se pueden calcular) dependiendo de la información que tengamos. La función condicional SI cuya forma general es: =SI(condición; acción si la condición es cierta; acción si la condición es falsa) la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la media, si conocemos 8 9 C M C = (tamaños medio de todos los conglomerados de la población) se hará según 2 2 1 ( ) c S N n V y N n M − = , pero si no se conoce lo estimaremos mediante 11 m C = (tamaño medio de los conglomerados de la muestra). Así, en la condición preguntamos si la celda C8 está vacía (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en cuyo caso no es conocido 8 9 C M C = y utilizaremos 11 m C = (acción si la condición de no conocer M es cierta) y utilizaremos el valor de 8 9 C M C = cuando C8 contenga el valor de M, es decir, no esté vacía (acción cuando la condición de C8 vacía sea falsa). Observe que las dos acciones son iguales salvo esta diferencia que hemos subrayado. =SI(C8="";(C9-C10)*C17/(C10*C9*(C11^2));(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 321 En C19, para la determinación del tamaño muestral, se ha hecho igual que en C13. =SI(C8="";(C9*C17)/(C17+(C9*((C18*C11/2)^2)));(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2)))) En la parte inferior izquierda se ha calculado el coeficiente de correlación lineal entre los tamaños de los conglomerados y los totales por conglomerado para justificar la conveniencia de estimar el total considerando el tamaño de los conglomerados (TOTAL(M conocido), columna D) o sin utilizar dicha información (columna E). Cuando esta correlación es fuerte el método de estimación del total en la columna D nos proporciona mejores estimaciones (con menor error de estimación). La anterior pantalla recoge una situación donde la correlación es débil (los mayores tamaños de los conglomerados no están asociados con los mayores totales, ni los menores con los menores) y como puede verse el método de estimación del total en la columna D tiene un error asociado, 188218,94, mayor que el obtenido en la columna E, 184099,44. Lógicamente, cuando no podamos estimar el total por ambos métodos, todos estos comentarios sobran. También se ha utilizado la función SI en las expresiones de la estimación del total cuando M es conocido (columna D). Obviamente, éstas no pueden calcularse cuando M es desconocido. En este caso la acción cuando la condición (no conocemos M=C8) es cierta es que no se calcula nada (escribimos para dejar la celda vacía: abrir y cerrar comillas sin nada entre ellas) y si conocemos M=C8 (la condición es falsa) la acción es el cálculo de la correspondiente expresión (en D12 la estimación del total y en D13, D14, D15 y D16 el resto de valores asociados a dicha estimación) D12 ⇒ =SI(C8=””;””;C12*C8) En la anterior pantalla, donde M=1500, aparecen los valores para la estimación del total cuando M es conocido, sin embargo, en la siguiente donde C8 está en blanco (desconocemos el tamaño de la población) dichas celdas están vacías. 322 1. En una pequeña ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital, para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. d) Suponiendo que los datos de la tabla representan una muestra previa, cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. 323 Solución: a) 37,14% 11, 5% p B = = b) (423,25 , 616,75) c) (396,16 , 718,12) d) 154, 4 155 n = ≈ NOTA: Repetir este ejemplo con todos los i m iguales (por ejemplo, 7 i m i = ∀ ), supongamos conocido 200 7 1400 M = × = y estime el total por los dos métodos estudiados ( ) t t M y N y τ τ = = . Observe como coinciden las dos estimaciones D12=E12=520, así como la varianza del estimador D13=E13=2340 y el límite para el error de estimación D14=E14=96,75. En el muestreo por conglomerados no se distingue entre variables numéricas y variables dicotómicas. En ambos casos el total por conglomerado, i y , se calcula de igual forma, bien sumando valores numéricos o los ceros y unos de las variables dicotómicas. En este ejercicio estamos ante un ejemplo de variable dicotómica donde las respuestas interesado y no interesado se han codificado como 1 y 0, y posteriormente sumado para cada manzana o conglomerado. Conocemos el número de manzanas o conglomerados en la población, N=200, pero no sabemos el número de elementos en la población, M. Se sustituyen los valores del número de hogares en la manzana en el tamaño o número de elementos en el conglomerado, columna C, y el número de hogares que han mostrado interés, respuesta igual a 1, en el total o suma por conglomerado de la columna D. El máximo error que se quiere cometer al estimar la media (proporción en este caso) lo escribiremos en tanto por uno en C18=0,01. Las respuestas: al apartado a se lee en C12 y C14, al apartado b en E15 y E16 y al apartado d en C19. 324 En el apartado c se supone conocido M=1500. Al sustituir dicho valor en C8 se calculan las expresiones para la estimación del total cuando M es conocido, columna D. No obstante, esta estimación es peor que la obtenida en el apartado b como muestra la cota del error de estimación en D14=160,98 y E14=96,75. Lo anterior puede justificarse en base a la débil relación entre los tamaños y totales de los conglomerados, B27=0,083. 325 En la siguiente pantalla se comprueba la propiedad, que se recuerda en la nota, de coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual tamaño. 2. El gerente de un periódico desea estimar el número medio de ejemplares comprados cada semana por una familia de una localidad. Los 4000 hogares están agrupados en 400 edificios. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 edificios y se entrevistaron a todas las familias de estos edificios, obteniéndose los siguientes resultados: Edificio Periódicos comprados cada semana por familia 1 1 2 1 3 3 2 1 4 1 1 2 1 3 2 2 4 4 1 1 2 3 2 1 1 1 1 3 2 1 2 1 1 4 1 1 3 2 1 5 3 3 a) Estime con la encuesta piloto el número medio de periódicos comprados cada semana por las familias de la localidad y el error de estimación asociado. b) Determine, usando los datos de la encuesta piloto, cuántos edificios debe 326 tener la nueva muestra si se quiere estimar el número medio de periódicos comprados cada semana por familia, con un error de estimación inferior a 0,20 unidades. Solución: a) 1, 95 0, 40 y B = = b) 15, 21 16 n = ≈ En este ejemplo de muestreo por conglomerados nos dan explícitamente las observaciones individuales de la muestra, habrá que contar el número de elementos en cada conglomerado, i m , y hallar la suma de las observaciones en cada uno de ellos, i y . Para obtener el número de observaciones en cada edificio o conglomerado contaremos el número de familias que se han observado en cada edificio, 10 en el primero, ... Para calcular los totales i y podemos hacerlo como se indica en la siguiente pantalla, de forma que posteriores comprobaciones, correcciones de errores, ... pueden hacerse fácilmente editando el contenido de las celdas D23 y siguientes. 327 PRÁCTICA 7 Estimación del tamaño de la población. Las cuatro técnicas que se incluyen en esta práctica tienen elementos comunes como los correspondientes a la estimación del tamaño de la población y otros, como la estimación de la densidad,…, específicos de algunas de ellas. Se han marcado en negro las celdas cuyos valores o expresiones no se utilizan en alguna de las técnicas. 1. Se desea estimar la población de avutardas en determinada región. Para ello se capturan 30 avutardas que se devuelven marcadas a la población. En una segunda muestra de 20 avutardas se observaron 5 marcadas. Estímese el número de avutardas que viven en la región y la precisión del estimador usado. Solución: 120 92, 95 N B = = 2. Se desea estimar la población de ardillas en un parque. Para ello se capturan 50 ardillas que se devuelven al parque marcadas. Se toma una segunda muestra hasta que se consigue encontrar 5 marcadas, para lo cual fue necesario capturar 70 de ellas. Estime, usando un intervalo con el 95% de confianza, el número de ardillas que viven en el parque. Solución: (149, 24 , 1.250, 76) 3. La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: 328 Nº del cuadro Número de aficionados en el cuadro Nº del cuadro Número de aficionados en el cuadro 1 2 3 4 5 6 7 8 9 10 193 216 250 163 209 195 232 174 215 198 11 12 13 14 15 16 17 18 19 20 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. Solución: a) 2 2,16 (2,1 , 2, 23) aficionados m λ = b) 64.860 (62.887, 29 , 66.832, 71) M aficionados = 4. Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución: ˆ 86, 24 37, 8 M B = = Con estos cuatro ejemplos se ilustran las cuatro técnicas de estimación del total que estudiamos en este capítulo. En el primer y segundo ejercicios sólo tenemos que identificar si se trata de muestreo directo o inverso (dependiendo de si se ha fijado el tamaño de la segunda muestra o ésta se toma hasta conseguir un número de elementos marcados). Es claro que el primer ejercicio se trata de un caso de muestreo directo y el segundo de muestreo inverso. 329 En el muestreo por cuadros y por cuadros cargados se puede considerar una población en una superficie (ejercicio 3) o en un espacio temporal (ejercicio 4). El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el número de elementos observados en cada cuadro de la muestra. El área total se calcula multiplicando 300 cuadros por el área de cada uno (10x10), y el número total de elementos observados en la muestra, 1 n i i m m = = ∑ , sumando los elementos observados en los 20 cuadros (como indica la flecha en la anterior pantalla). El último ejercicio es un caso de muestreo por cuadros cargados, donde no es importante el número de elementos en cada cuadro puesto que éste es en general cero o uno y muy raras veces mayor a uno. Así sólo contaremos los cuadros con elementos (uno o más), cuadros cargados, y los cuadros sin elementos o cuadros no cargados. En este caso los cuadros en el espacio temporal son sencillamente intervalos de tiempo. Hay que tener cuidado en escribir el tamaño del área total y de cada cuadro en la misma unidad de medida. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren estimar los autobuses que circulan por un lugar se han expresado en minutos, 1080=(24-6)*60, al igual que los intervalos de tiempo controlados. 330 PRÁCTICA 8 Indicadores estadísticos regionales En las plantillas de la hoja “Indicadores estadísticos regionales” se encuentran resueltos los ejemplos 8.1 a 8.7 del capítulo 8 del mismo nombre. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises (como siempre, se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo problema para evitar trabajar por error con otros datos). 1. (ejercicio 3, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga el índice de concentración de Theil e interprete su valor. Solución: 1 ln ln 0,1597 N i i i T N x x = = + = ∑ 0,1152 ln T THEIL T I I N = = = Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el coeficiente e índice de Theil. Las diferencias entre los valores obtenidos a mano y con la hoja de cálculo son debidas sólo a errores de redondeo en las operaciones. 331 2. (ejercicio 4, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 R2 R3 R4 80 15 100 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: 1 1 1 1 1 2, 6865 0, 6716 4 4 4 N N N i i i i i i i D d f d d = = = = = = = = ∑ ∑ ∑ Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la desigualdad colectiva y en el margen derecho las desigualdades individuales. 3. (ejercicio 5, relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 R2 R3 R4 80 15 100 50 350 70 450 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor. 332 Solución: 1 1 1 0, 97959 2 N i i i F x y = = − − = ∑ Sustituyendo los valores de PIB y número de oficinas en las variables X e Y se obtiene a pie de tabla el índice de asociación geográfica de Florence. Obsérvese que es indiferente permutar los valores de X e Y. En la siguiente pantalla se han cambiado los valores de X e Y en relación a como se resolvió este ejercicio al final del capítulo 8, obteniéndose el mismo resultado. 333 PRÁCTICA 9 Medidas de localización espacial En las plantillas de la hoja “Medidas localización espacial” se encuentran resueltos los ejemplos 9.2, 9.3, 9.5 y 9.6 del capítulo 9 del mismo nombre. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja), sólo hay que escribir los datos del problema en las celdas grises de la tabla “DATOS” que aparece en la parte superior de la hoja. La hoja está preparada inicialmente para 10 sectores y 10 regiones pero puede fácilmente ampliarse a cualquier número de la siguiente forma: • Se desprotege la hoja. • Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la columna E y seleccionamos en el menú Insertar/Columnas). • Se copia la columna de alguno de los 10 sectores iniciales en ésta (siguiendo la conocida secuencia marcar+copiar+pegar, copiaremos la columna D en la E). Así, esta nueva columna ya tendrá todas las expresiones necesarias para los cálculos correspondientes (al copiar la columna se copian tanto las expresiones como los valores de la tabla “DATOS” y la cabecera, en este ejemplo: “S2”; tendremos que cambiar los datos y las etiquetas de la cabecera) 334 • Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para más de 11 sectores. Un procedimiento análogo nos permite ampliar la hoja para más de 10 regiones. En este caso se insertará una nueva fila (en cada una de las tablas) entre las regiones R1 y R10, y copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla. Esto último también es aplicable a la práctica 8 para ampliar el número de regiones o grupos de regiones. 1. (ejercicio 4, relación tema 9) En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. 335 Solución: Cocientes de localización y especialización ij L SECTOR REGION S1 S2 S3 S4 R1 100,00 100,00 100,00 100,00 R2 100,00 100,00 100,00 100,00 R3 100,00 100,00 100,00 100,00 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 j CL 0 0 0 0 Coeficientes de especialización regional REGION i CE R1 0 R2 0 R3 0 Coeficientes de diversificación de cada región REGION i CD * i CD R1 0,6178 0,49 R2 0,6178 0,49 R3 0,6178 0,49 Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los sectores con las regiones pues las medidas que se obtienen no son simétricas en relación a los datos, es decir, cambian si colocamos las regiones en los sectores y éstos en el lugar de las otras. Las distintas medidas de localización espacial pueden leerse en las tablas que hay bajo los DATOS. 2. (ejercicio 3, relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. 336 b) Calcule los coeficientes de especialización para cada comunidad. Solución: Coeficientes de localización sectorial SECTOR S1 S2 S3 CLj 0,2423 0,1219 0,2197 Coeficientes de especialización regional REGION CEi R1 0,192733 R2 0,047808 R3 0,234649 R4 0,170455 Colocando los datos del ejercicio en la tabla DATOS, igual que antes, se obtienen entre otros los coeficientes pedidos. 337 INTRODUCCIÓN AL SPSS 1.- INTRODUCCIÓN El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a la realización de análisis estadísticos aplicados a las ciencias sociales. Con más de 30 años de existencia es, en la actualidad, el paquete estadístico con más difusión a nivel mundial. El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del programa. Nosotros utilizaremos solo el módulo SPSS base. En los siguientes apartados se hace una breve introducción a los conceptos básicos de este programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción. 1.1.- PASOS BÁSICOS EN EL ANÁLISIS 1. Introducir los datos en SPSS. Es posible: o Abrir un archivo creado anteriormente o o Introducir nuevos datos (se verá más adelante en “1.3- Editor de datos”). Los archivos de datos con formato SPSS tienen extensión *.sav. Para abrir un archivo de datos de este formato, seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto, SPSS dará una relación de los archivos en su directorio con extensión *.sav. Busque y seleccione el archivo que se desee abrir. Además de los archivos con este formato, SPSS puede abrir 338 archivos de EXCEL, LOTUS 1-2-3, dBASE,… sin necesidad de convertirlos a un formato intermedio ni de introducir información sobre la definición de los datos. Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas como nombres de variables. Para ello elija en los menús: Archivo/Abrir/Datos y seleccione Excel(*.xls) en la lista desplegable Tipo Tras seleccionar el fichero Excel que queremos abrir, aparecerá el cuadro de diálogo Apertura de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables en la primera fila de la hoja de cálculo (Leer nombres de variables de la primera fila de datos), así como las casillas que se desean importar (Rango). En Excel 5 o posterior, también se pueden especificar la “Hoja de trabajo” que se desea importar. Si los encabezados de las columnas no cumplen las normas de denominación de variables de SPSS, se convertirán en nombres de variables válidos y los encabezados originales de las columnas se guardarán como etiquetas de variable (véase más adelante en “1.3.-Editor de datos”). 339 2. Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús. 3. Seleccionar las variables para el análisis. Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo del que se seleccionan. 4. Ejecutar el procedimiento y ver resultados. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de extensión *.spo. Los gráficos se pueden modificar en la ventana del editor de gráficos. 340 1.2.- ENTORNO DE TRABAJO Existen diversos tipos de ventanas en SPSS. Nosotros, principalmente, utilizaremos dos: • Editor de datos. Es la ventana que se abre automáticamente cuando se inicia una sesión de SPSS. Muestra el contenido del archivo de datos actual. Con él, se pueden crear nuevos archivos o modificar los ya existentes. • Visor de resultados. Todas las tablas, gráficos y los resultados estadísticos se muestran en el visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera vez que se ejecuta un procedimiento. Además de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que configuran la apariencia general del SPSS: • Barra de títulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar y cerrar ventana. 341 • Barra de menús. Recoge las denominaciones de los menús de SPSS a través de los cuales se pueden ejecutar todos los posibles comandos que proporciona el paquete. • Barra de herramientas. Proporciona un acceso rápido y fácil a las tareas más comunes de cada ventana de SPSS. El significado de cada icono puede verse situando el ratón sobre el propio icono. • Barra de estado. Suministra información sobre el estado en que se encuentra SPSS. Ejemplo 1.- - Abrir archivo de datos “Datos de empleados.sav” - Realizar el procedimiento: Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual” - Realizar lo mismo con la variable “Meses desde el contrato”. 1.3.- EDITOR DE DATOS El editor de datos proporciona dos vistas: • Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas. Las funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de cálculo, sin embargo, existen algunas diferencias: o Cada fila representa un caso u observación (atención en ejercicio 1). o Las columnas son variables. o Las casillas contienen valores numéricos o de cadena. A diferencia de una hoja de cálculo, las casillas del editor de datos no pueden contener fórmulas. • Vista de variables. Contiene descripciones de los atributos de cada variable del archivo de datos. Aquí: o Las filas son variables. o Las columnas son características de las variables. 342 Ejemplo 2.- Abrir “vista de datos” y “vista de variables” en el archivo de datos: “Datos de Empleados.sav”. Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de datos creado con anterioridad (como vimos en “1.1.- Pasos básicos en el análisis”) o crear un nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso es el de definir las variables que formarán el archivo. Para definir una variable se pueden seguir dos procedimientos: • En vista de datos, haciendo doble clic con el botón izquierdo del ratón cuando el puntero del mismo se encuentra situado en la palabra var del extremo superior de la columna o • Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable cuyos datos vamos a introducir según las indicaciones que siguen: Para la especificación del nombre de las variables se debe tener en cuenta: • El nombre debe comenzar por una letra. Los demás caracteres pueden ser letras, dígitos, puntos o los símbolos @, #, _ o $. • Los nombres de variable no pueden terminar en punto. • Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las variables creadas automáticamente por algunos procedimientos). • La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler a 64 caracteres en idiomas de un solo byte (por ejemplo, inglés, francés, alemán, español, 343 italiano, hebreo, ruso, griego, árabe, tailandés) y a 32 caracteres en los idiomas de dos bytes (por ejemplo, japonés, chino, coreano). • No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo, !, ?, ’ y *). • Cada nombre de variable debe ser único; no se permiten duplicados. • Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. • Los nombres de variable se pueden definir combinando de cualquier manera caracteres en mayúsculas y en minúsculas, esta distinción entre mayúsculas y minúsculas se conserva en lo que se refiere a la presentación. • Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados, SPSS intenta dividir las líneas aprovechando los subrayados, los puntos y los cambios de minúsculas a mayúsculas. Una vez que se haya determinado el nombre de la variable, hay que definir sus especificaciones: • Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botón tipo y luego los puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos más usuales son numérico y cadena. Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas las variables nuevas son numéricas. Se puede utilizar Tipo de variable para cambiar el tipo de datos. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el número de decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista desplegable de ejemplos. Los tipos de datos disponibles son los siguientes: • Numérico. Una variable cuyos valores son números. Los valores se muestran en formato numérico estándar. El Editor de datos acepta valores numéricos en formato estándar o en notación científica. • Coma. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores numéricos para este tipo de variables con o sin comas, o bien en notación científica. Los valores no pueden contener comas a la derecha del indicador decimal. 344 • Punto. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores numéricos para este tipo de variables con o sin puntos, o bien en notación científica. Los valores no pueden contener puntos a la derecha del indicador decimal. • Notación científica. Una variable numérica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. El Editor de datos acepta para estas variables valores numéricos con o sin el exponente. El exponente puede aparecer precedido por una E o una D con un signo opcional, o bien sólo por el signo (por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2 y 1,23+2). • Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo para los valores de año de dos dígitos está determinado por la configuración de las opciones (en el menú Edición, seleccione Opciones y, a continuación, pulse en la pestaña Datos). • Dólar. Una variable numérica que se muestra con un signo dólar inicial ($), comas que delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir valores de datos con o sin el signo dólar inicial. • Moneda personalizada. Una variable numérica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda del cuadro de diálogo Edición/Opciones. Los caracteres definidos en la moneda personalizada no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos. 345 • Cadena. Una variable cuyos valores no son numéricos y, por lo tanto, no se utilizan en los cálculos. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud definida. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se conoce como variable alfanumérica. • Nivel de medida. Puede especificar el nivel de medida como Escala (datos numéricos de una escala de intervalo o de razón), Ordinal o Nominal. Los datos nominales y ordinales pueden ser de cadena (alfanuméricos) o numéricos. • nominal. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca. Por ejemplo, el departamento de la compañía en el que trabaja un empleado. Son ejemplos de variables nominales: la región, el código postal o la confesión religiosa. • ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. Por ejemplo los niveles de satisfacción con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las puntuaciones de evaluación de la preferencia. • escala. Una variable puede ser tratada como de escala cuando sus valores representan categorías ordenadas con una métrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares. Nota: Para variables de cadena ordinales, se asume que el orden alfabético de los valores de cadena indica el orden correcto de las categorías. Por ejemplo, en una variable de cadena cuyos valores sean bajo, medio, alto, se interpreta el orden de las categorías como alto, bajo, medio (orden que no es el correcto). Por norma general, se puede indicar que es más fiable utilizar códigos numéricos para representar datos ordinales. • Anchura. Número de dígitos de los valores de esa variable. 346 • Columnas. Anchura de las columnas. Se puede especificar un número de caracteres para el ancho de la columna. Los anchos de columna también se pueden cambiar en la Vista de datos pulsando y arrastrando los bordes de las columnas. Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. Al cambiar el ancho de columna no se cambia el ancho definido de una variable. Si el ancho real y definido de un valor es más ancho que la columna, aparecerán asteriscos (*) en la ventana Vista de datos. • Decimales. Nº de decimales de los datos. • Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud (128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable. • Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar categorías que no son numéricas (por ejemplo, códigos 1 y 2 para hombre y mujer). Las etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden ocupar hasta 120 bytes. Las etiquetas de valor no están disponibles para las variables de cadena larga (variables de cadena de más de 8 caracteres). • Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado. Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayoría de los cálculos. • Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el usuario cada vez que se abre un archivo de datos. • Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de valores perdidos o un rango más un valor de tipo discreto. 347 • Sólo pueden especificarse rangos para las variables numéricas. • No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de más de ocho caracteres). • Se considera que son válidos todos los valores de cadena, incluidos los valores vacíos o nulos, a no ser que se definan explícitamente como perdidos. Para definir como perdidos los valores nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos debajo de la selección Valores perdidos discretos. • Alineación. Alineación de los datos (Izquierda, derecha o centro) Una vez definidas las variables, para la introducción de los datos (en la pestaña vista de datos) habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos valores, pulsando ENTER o moviéndonos con el cursor. También podemos modificar datos ya creados: • Insertar un nuevo caso entre los casos existentes. Seleccionar en la vista de datos, cualquier casilla debajo de la posición donde se desea insertar el nuevo caso y - Elija en la barra de menús: Datos/Insertar Caso o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar caso. • Insertar una nueva variable entre las variables existentes. Seleccionar en la vista de datos, una casilla de la variable a la derecha de la posición donde se desea insertar la nueva variable y - Elegir los menús: Datos/Insertar variable o - El correspondiente botón de la barra de herramientas o - Con el botón derecho del ratón elija Insertar variable • Mover variables. Si queremos mover una variable que está entre otras dos, en la vista de datos, podemos insertar un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por último pegar en la nueva variable insertada. 348 • Borrar algún caso o variable. Seleccionar previamente en la vista de datos las filas, las columnas o el área a borrar y pulsar SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar. • Ir a un caso en el editor de datos. Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el correspondiente botón de la barra de herramientas. Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús Archivo/Guardar como. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad. 349 EJERCICIOS 1. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado producto en una semana determinada. La variable edad es cuantitativa y mostramos sus valores, la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal: 1, hombre; 2, mujer). Los datos son los siguientes: Hombres 32 32 42 55 37 61 48 43 Mujeres 50 80 61 49 30 21 37 34 Se pide: a. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el nombre Edad.sav b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores Hombres 1 1 1 2 1 1 2 1 Mujeres 1 5 1 1 2 2 1 1 Sitúala entre las variables anteriores. 2. La siguiente tabla nos muestra los datos de los representantes de 16 empresas: SEXO REGION DE PROCEDENCIA MESES COMO REPRESENTANTE INGRESOS MENSUALES en € Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre Andalucía (1) Cataluña (2) Madrid (3) País Valenciano (4) Galicia (5) Cataluña (2) País Vasco (6) Andalucía (1) Madrid (3) Andalucía (1) País Vasco (6) Madrid (3) Galicia (5) Cataluña (2) Andalucía (1) Galicia (5) 60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10 1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456 Se pide: a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos de la tabla anterior, definiendo las variables de forma adecuada. b. Inserta una nueva variable que será el estado civil de los representantes con los siguientes valores. 350 soltero soltero casado soltero divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero c. Inserta un nuevo caso entre los existentes con estos valores: SEXO REGION DE PROCEDENCIA MESES COMO REPRESENTANTE INGRESOS MENSUALES en € ESTADO CIVIL Hombre Cataluña 48 1500 divorciado d. Obtenga el número medio de meses como representante y los valores máximo, mínimo y mediano de los ingresos. 3. Crear un archivo con los siguientes datos y llamarlo salarios.sav SALARIOS EMPLEADOS 0-700 700-1000 1000-1500 1500-3000 más de 3000 40 120 250 90 50 Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo, 1 a 5) y en Vista de variables en la columna Valores etiquetarlos como “0-700”,… Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo al SPSS. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación (variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una balanza. 351 PRÁCTICA 10 Contrastes no paramétricos para una muestra (SPSS) 1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE 3. CONTRASTE DE LAS RACHAS 1.- CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE El contraste Chi-cuadrado para una muestra permite averiguar si la distribución empírica de una variable categórica (o numérica) se ajusta o no a una determinada distribución teórica. La hipótesis nula de bondad de ajuste se pone a prueba utilizando un estadístico que compara las frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (teóricas según la hipótesis nula). La condición para que el test sea válido es que las frecuencias esperadas en todas las categorías sean mayores que 5, el SPSS da por valido el test siempre y cuando el número de frecuencias esperadas menores de 5 no superen el 20% del total de frecuencias esperadas, aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. En el caso de que haya frecuencias esperadas menores que 5 se procederá a agrupar modalidades semejantes, para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada (véase ejemplo 3). Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no paramétricas/Chi-cuadrado. La lista de variables del archivo de datos ofrece un listado de todas las variables. Para contrastar la hipótesis de bondad de ajuste referida a una variable hay que trasladar esa variable a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece tantos contrastes como variables. RECUADRO RANGO ESPERADO. En esta ventana es posible decidir qué rango de valores deben tenerse en cuenta en el análisis: ¾ Obtener de los datos. Cada valor distinto de la variable se considera una categoría para el análisis. ¾ Usar rango especificado. Solo se tienen en cuenta los valores comprendidos entre los límites especificados en los cuadros de texto Inferior y Superior. Los valores no incluidos en esos límites se excluyen del análisis. 352 RECUADRO VALORES ESPERADOS. Las opciones de este recuadro sirven para hacer explícitas las frecuencias esperadas con las que se desean comparar las observadas: ¾ Todas las categorías iguales. Las frecuencias esperadas se obtienen dividiendo el número total de casos válidos entre el número de categorías de la variable. ¾ Valores. Esta opción permite definir frecuencias esperadas concretas. Los valores que se introducen pueden ser porcentajes, probabilidades, frecuencias relativas o frecuencias absolutas. El orden en el que se introducen los valores es muy importante, pues la secuencia introducida se hace corresponder con las categorías de la variable cuando éstas se encuentran ordenadas de forma ascendente. Si se ha introducido como una variable numérica con etiquetas, el orden es el de los valores numéricos. Si se ha introducido como un variable de cadena (alfanumérica) el orden es el alfabético. BOTÓN OPCIONES. Permite obtener algunos estadísticos descriptivos y decidir qué tratamiento se desea dar a los valores perdidos. ¾ Estadísticos. Las opciones de este recuadro permiten obtener algunos estadísticos descriptivos: o Descriptivos. Ofrece el número de casos válidos, la media, la desviación típica, el valor mínimo y el valor máximo. o Cuartiles. Ofrece los centiles 25, 50 y 75. Hay que señalar que estos estadísticos no siempre tendrán sentido, pues la prueba de chi-cuadrado se utiliza generalmente con variables categóricas (no numéricas). Para contrastar la hipótesis de bondad de ajuste con variables cuantitativas es preferible utilizar el contraste de Kolmogorov-Smirnov. ¾ Valores perdidos. Estas opciones permiten decidir qué tratamientos se desea dar a los valores perdidos en el caso de que se haya seleccionado más de una variable: o Excluir casos según prueba. Se excluyen de cada contraste los casos con valor perdido en la variable que se está contrastando. Es la opción por defecto. o Excluir caso según lista. Se excluyen de todos los contrastes solicitados los casos con algún valor perdido en cualquiera de las variables seleccionadas. Ejemplo 1 (Ejercicio 1, relación Tema 10) El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas 353 completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( 05 . 0 = α ). (FICHEROS DE DATOS: Ejercicio1_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio1F_T10.sav (datos agrupados, con frecuencias)) NOTA: Cuando se utilicen ficheros con frecuencias se deberá indicar en que columna se encuentran éstas, seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos..., después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias. A continuación seleccionaremos Analizar/Pruebas no paramétricas/Chi-cuadrado 354 Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste (recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores esperados marcaremos Todas las categorías iguales (aparece marcada por defecto). Pulsaremos en Aceptar, obteniéndose en el visor de resultados lo que sigue: DiasSemana N observado N esperado Residual Lunes 49 40,0 9,0 Martes 35 40,0 -5,0 Miércoles 32 40,0 -8,0 Jueves 39 40,0 -1,0 Viernes 45 40,0 5,0 Total 200 355 Estadísticos de contraste DiasSemana Chi- cuadrado(a) 4,900 gl 4 Sig. asintót. ,298 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 40,0. Dado que el p-valor (0.298) es mayor que 05 . 0 = α , se mantiene la hipótesis nula de que el número de visitas al consultorio médico se distribuye de forma equitativa de lunes a viernes. Ejemplo 2 Una compañía de gas afirma, basándose en experiencias anteriores, que al final del invierno el 80% de las facturas ya han sido cobradas, un 10% se cobraran con pago aplazado a un mes, un 6% se cobrará a dos meses y un 4% se cobrará a más de dos meses. Al final del invierno actual, la compañía selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas ya cobradas, 49 cobradas a un mes, 30 a cobrar en dos meses y 34 a cobrar en un periodo superior a los dos meses. ¿Podemos concluir, a raíz de los resultados, que la experiencia de años anteriores se ha vuelto a repetir este invierno? (FICHERO DE DATOS: Ejemplo2F_T10.sav (datos agrupados, con frecuencias)) Seguiremos un procedimiento análogo al del ejemplo 1 pero marcaremos en Valores esperados la opción Valores e introduciremos los porcentajes del modelo que indica el enunciado en el orden 80, 10, 6 y 4 (según el orden de los valores numéricos que se han utilizado para indicar cada categoría) 356 El visor de resultados nos ofrece: facturas N observado N esperado Residual ya cobradas 287 320,0 -33,0 se cobran a un mes 49 40,0 9,0 se cobran en dos meses 30 24,0 6,0 se cobran a más de dos meses 34 16,0 18,0 Total 400 Estadísticos de contraste facturas Chi- cuadrado(a) 27,178 gl 3 Sig. asintót. ,000 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 16,0. Como el p-valor (0.000) es menor que 0.05, se rechaza la hipótesis nula de que los datos observados se ajustan a los datos esperados. Por tanto, la experiencia de años anteriores no se ha vuelto a repetir este invierno. Ejemplo 3 (Ejercicio 8, relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro 2, 7 λ = ? (utilice el contraste 2 χ ) (FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias)) Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados, vamos a introducir las probabilidades del modelo de la distribución de Poisson. Aunque en la muestra sólo aparecen valores entre cero y cinco, en la distribución de Poisson se puede presentar cualquier valor entero mayor o igual a cero. Según lo anterior consideraremos inicialmente las modalidades: 0 personas, 1 persona, 2 personas, ..., 5 o más personas. Consultando en la tabla de probabilidades de la distribución de Poisson con 2, 7 λ = obtenemos para las anteriores modalidades: 357 x p(x) 0 1 2 3 4 ... 0,0672 0,1815 0,2450 0,2205 0,1488 ... La probabilidad, p(x≥5), se puede obtener sumando p(5)+p(6)+p(7)+... , hasta el último valor que aparezca en la columna de 2, 7 λ = con probabilidad distinta de cero, o bien, restando a 1 las probabilidades asociadas a x<5, 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1- 0,8630=0,1370. (Introduciremos las probabilidas sin el cero de las unidades, pues sólo acepta valores con 5 dígitos incluida la coma: ,0672 ... ,1370) En el visor de resultados aparecerá: PersonasDia N observado N esperado Residual ,00 2 1,8 ,2 1,00 4 4,9 -,9 2,00 5 6,6 -1,6 3,00 8 6,0 2,0 4,00 5 4,0 1,0 5,00 3 3,7 -,7 Total 27 Estadísticos de contraste PersonasDia Chi- cuadrado(a) 1,655 gl 5 Sig. asintót. ,895 a 4 casillas (66,7%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 1,8. Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos últimas modalidades para que todas las frecuencias esperadas sean mayores que 5. 358 NOTA: La opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de independencia y homogeneidad. Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable. Seleccionamos como variable numérica PersonasDia y como variable de resultado escribimos PersonasDiaB. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 0->1 1->1 2->2 3->3 4->4 5->4 (posteriormente, si se quiere, se etiquetarán los valores 1 como 1 o menos y 4 como 4 o más). Se repetirá el contraste sobre la nueva variable PersonasDiaB, considerando las siguientes modalidades y probalidades asociadas 359 x p(x) 1 o menos 2 3 4 o más 0,2487=0,0672+0,1815 0,2450 0,2205 0,2858=0,1488+0,1370 Tras aceptar las selecciones de la anterior pantalla, en el visor de resultados observaremos: PersonasDiaB N observado N esperado Residual 1 o menos 6 6,7 -,7 2,00 5 6,6 -1,6 3,00 8 6,0 2,0 4 o más 8 7,7 ,3 Total 27 Estadísticos de contraste PersonasDiaB Chi- cuadrado(a) 1,184 gl 3 Sig. asintót. ,757 a 0 casillas (,0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mínima es 6,0. Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de 5 a 3 después de agrupar modalidades. Según el nivel de significación asociado al estadístico chi-cuadrado (0,757>>0,05) se aceptaría la hipótesis nula de que el número de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro 2, 7 λ = . 360 2. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE Al igual que el contraste chi-cuadrado para una muestra, la prueba de Kolmogorov-Smirnov es una prueba de bondad de ajuste: sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad. A diferencia del contraste Chi-cuadrado que fue diseñada para evaluar más bien el ajuste de variables categóricas, el contraste K-S para una muestra se usa sólo para evaluar el ajuste de variables cuantitativas. Para contrastar la hipótesis nula de bondad de ajuste, la prueba K-S se basa en la comparación de dos funciones de distribución: la empírica, n F , y la teórica 0 F . Para las distribuciones discretas (Poisson,...) se calculan las diferencias: 0 ( ) ( ) i n i i D F x F x = − Para las distribuciones continuas (Normal, Uniforme,...) se calculan las diferencias * 0 0 1 ( ) ( ) ( ) ( ) i n i i i n i i D F x F x y D F x F x + = − = − El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y del tamaño muestral n, ( ) * max , i i i Z n D D = , obteniéndose la significación asintótica bilateral a partir de la fórmula de Smirnov: ( ) ( ) ( ) 2 2 9 25 1,233701 4 9 16 2 0 0, 27 1 2, 506628 0, 27 1 1 ( ) 1 3,1 2 3,1 0 Z Z Si Z p Si Z p Q Q Q Q e Z Si Z p Q Q Q Q Q e Si Z p − − − ≤ ≤ ⇒ = ≤ ≤ ⇒ = − + + = ≤ ≤ ⇒ = − + − = ≤ ⇒ = Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona Analizar/Pruebas no paramétricas/K-S de 1 muestra. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para contrastar la hipótesis de bondad de ajuste referida a una variable se traslada a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. RECUADRO DISTRIBUCIÓN DEL CONTRASTE. Las opciones de este recuadro permiten elegir la distribución teórica a la cual se desea ajustar la distribución de la variable seleccionada: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse más de una). Los parámetros en las diferentes distribuciones se estiman a partir de los datos. BOTÓN OPCIONES. Conduce a un subcuadro de diálogo idéntico al del contraste de chi- cuadrado. 361 Ejemplo 4 (Ejercicio 8, relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov) (FICHERO DE DATOS: Ejercico8_T11.sav (datos sin agrupar, sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/K-S de 1 muestra. En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos PersonasDia, pulsando Aceptar en el visor de resultados aparecerá: 362 Prueba de Kolmogorov-Smirnov para una muestra PersonasDia N 27 Parámetro de Poisson(a,b) Media 2,7037 Absoluta ,085 Positiva ,057 Diferencias más extremas Negativa -,085 Z de Kolmogorov-Smirnov ,443 Sig. asintót. (bilateral) ,989 a La distribución de contraste es la de Poisson. b Se han calculado a partir de los datos. Como el p-valor (0,989) es mayor que 0,05 se acepta la hipótesis de que el número de personas que requieren información se distribuye como una Poisson (de parámetro 2,7). Ejemplo 5 (Ejercicio 7, relación Tema 11) Con un nivel de significación del 5%, contraste la hipótesis de que los siguientes valores muestrales 12, 15, 14, 14, 13, 18, 14, 17, 12, 15, proceden de una distribución normal de media 14 y varianza 2,25 (desviación típica 1,5). (FICHERO DE DATOS: Ejercicio7_T11.sav (datos sin agrupar, sin frecuencias)) El SPSS toma por defecto como valores de la media y de la desviación típica para la hipótesis nula los de la muestra (14,4 y 1,955). Prueba de Kolmogorov-Smirnov para una muestra N 10 Media 14,4000 Parámetros normales(a,b) Desviación típica 1,95505 Absoluta ,181 Positiva ,181 Diferencias más extremas Negativa -,119 Z de Kolmogorov-Smirnov ,573 Sig. asintót. (bilateral) ,898 a La distribución de contraste es la Normal. b Se han calculado a partir de los datos. Si queremos que la media y desviación típica tomen en la hipótesis nula unos valores concretos, como en este ejemplo, debemos seleccionar Pegar en la ventana de opciones del contraste de Kolmogorov-Smirnov para una muestra. Nos aparecerán los comandos de SPSS que siguen: NPAR TESTS /K-S(NORMAL)= DATOS /MISSING ANALYSIS. 363 A continuación del comando NORMAL escribiremos una coma seguida del valor de la media seguida de otra coma y del valor de la desviación típica. Si la media o desviación típica tuvieran decimales se usará el punto decimal (nunca la coma). Una vez modificado quedará como: NPAR TESTS /K-S(NORMAL,14,1.5)= DATOS /MISSING ANALYSIS. En esta misma ventana donde se ha hecho la modificación seleccionamos Ejecutar/Todo y obtendremos el resultado del contraste. Prueba de Kolmogorov-Smirnov para una muestra N 10 Media 14 Parámetros normales(a,b) Desviación típica 1,5 Absoluta ,200 Positiva ,109 Diferencias más extremas Negativa -,200 Z de Kolmogorov-Smirnov ,632 Sig. asintót. (bilateral) ,819 a La distribución de contraste es la Normal. b Especificado por el usuario Como el p-valor (0,819) es mayor que 0,05 se acepta la hipótesis de que la muestra procede de una distribución Normal de media 14 y varianza 2,25. 364 3. CONTRASTE DE LAS RACHAS La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones es aleatoria, es decir, para estudiar si las observaciones de una determinada muestra son independientes entre sí. Esta prueba permite detectar si el número de rachas observado en una determinada muestra de tamaño n es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la hipótesis de aleatoriedad en las observaciones. Para obtener el número de rachas de un conjunto de observaciones es necesario que éstas estén clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). Si no lo están, se deberá utilizar algún criterio (media, mediana, moda, etc.) para hacer que lo estén. Una vez clasificadas las observaciones en dos grupos, el SPSS utiliza una tipificación del número de rachas cuya distribución es una N(0,1). El SPSS ofrece el nivel crítico bilateral. Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramétricas/Rachas. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para contrastar la hipótesis de aleatoriedad o independencia referida a una variable se traslada esa variable a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. RECUADRO PUNTO DE CORTE. Para obtener el número de rachas es necesario que las observaciones estén claramente clasificadas en dos grupos. Si no lo están, debe utilizarse algún criterio para hacer que lo estén. Pueden usarse como criterio de dicotomización la mediana, la moda, la media o cualquier valor. En ese caso, los valores más pequeños que el punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el punto de corte pasan a formar parte del segundo grupo. Si se desea contrastar la hipótesis de independencia referida a una variable categórica o de cadena puede utilizarse en punto de corte la opción Personalizado. Si la variable es, por ejemplo, dicotómica, con códigos 0 y 1, puede utilizarse como punto de corte el valor 0.5 (o cualquier número comprendido entre 0 y 1), de modo que los casos con código 0 pasen a formar parte del primer grupo y los casos con valor 1 pasen a formar parte del segundo grupo. Para convertir las variables de cadena en variables numéricas (para poder aplicar este contraste) utilice el procedimiento Recodificación automática, disponible en el menú Transformar. BOTÓN OPCIONES. Igual que en los contrastes anteriores. 365 Ejemplo 6. (Ejercicio 14, relación Tema 11) Se desea verificar la aleatoriedad de la siguiente serie de valores 18, 17, 18, 19, 20, 19, 19, 21, 18, 21, 22 ( 0,10 α = ). (FICHERO DE DATOS: Ejercico14_T11.sav (datos sin agrupar, sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/Rachas. En el enunciado no se indica que se tome como punto de corte un valor en especial. Hemos tomado la mediana que es el valor marcado por defecto. Prueba de rachas ejemplo_rachas Valor de prueba(a) 19,00 Casos < Valor de prueba 4 Casos >= Valor de prueba 7 Casos en total 11 Número de rachas 4 Z -1,102 Sig. asintót. (bilateral) ,270 a Mediana Como el p-valor (0,270) es mayor que 0,10 se acepta la hipótesis nula de aleatoriedad de la muestra. 366 PRÁCTICA 11 Contrastes no paramétricos: Tablas de contingencia y contrastes para dos muestras independientes (SPSS) 1.- TABLAS DE CONTINGENCIA. CHI-CUADRADO. INDEPENDENCIA Y HOMOGENEIDAD. 2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. PRUEBA DE KOLMOGOROV-SMIRNOV. PRUEBA U DE MANN-WHITNEY 1.- TABLAS DE CONTINGENCIA Cuando se trabaja con dos variables categóricas, los datos suelen organizarse en tablas de doble entrada en las que cada entrada representa un criterio de clasificación o variable categórica. Como resultado de esta clasificación, las frecuencias aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios. A estas tablas de frecuencias se les llama tablas de contingencias. El procedimiento de tablas de contingencias permite obtener no solo las tablas, además incluye estadísticos y medidas de asociación que proporcionan la información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que conforman la tabla. Para utilizar este procedimiento seleccionamos en el menú Analizar la opción Estadísticos Descriptivos/ Tablas de contingencias. La lista de variables del archivo de datos muestra todas las variables numéricas y de cadena corta del archivo de datos. Para obtener una tabla de contingencia se traslada una variable a la lista filas y otra a la lista columna. Las opciones disponibles son: ¾ Mostrar los gráficos de barras agrupadas. Activando esta opción el visor de resultados muestra un gráfico de barras agrupadas con las categorías de la variable fila en el eje de abscisas y las categorías de la variable columna anidadas dentro de las categorías de la variable fila. Cada barra del diagrama, por tanto, representa una casilla y su altura viene dada por la frecuencia de la correspondiente casilla. ¾ Suprimir tablas. Esta opción puede activarse si no se desea obtener ninguna tabla de contingencias. Esto tendría sentido si únicamente interesara obtener un gráfico de barras o alguno de los estadísticos o medidas de asociación disponibles en el procedimiento Tablas de contingencias. 367 BOTÓN ESTADÍSTICOS El grado de relación existente entre dos variables categóricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencias. Incluso aunque la tabla recoja las frecuencias porcentuales en lugar de las absolutas, la simple observación de las frecuencias no puede conducir a una conclusión definitiva. Para determinar si dos variables se encuentran relacionadas debe utilizarse una medida de asociación, preferiblemente acompañada de su correspondiente prueba de significación. Una de las opciones disponibles es Chi-cuadrado. CHI-CUADRADO La opción Chi-cuadrado proporciona un estadístico que permite contrastar la hipótesis de que los dos criterios de clasificación utilizados (las dos variables categóricas) son independientes. Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables fueran independientes. Si los datos son compatibles con la hipótesis de independencia, la probabilidad asociada al estadístico Chi-cuadrado (el p-valor) será alta (mayor 0.05). Si esa probabilidad es pequeña (menor que 0.05), se considera que los datos son incompatibles con la hipótesis de independencia y se concluirá que las variables estudiadas está relacionadas. Para que el estadístico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas no sean demasiado pequeñas. Suele asumirse que, si existen frecuencias esperadas menores de 5, éstas no deben superar el 20% del total de frecuencias esperadas, aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. El SPSS muestra en una nota a pie de tabla un mensaje indicando el valor de la frecuencia esperada más pequeña; si existe alguna casilla con frecuencia esperada menor que 5, la nota a pie de tabla también informa acerca del porcentaje que éstas representan sobre el total de casillas de la tabla. En el caso de que ese porcentaje supere el 20%, el estadístico debe interpretarse con cautela o mejor proceder a agrupar filas y/o columnas de la tabla. Para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada. BOTÓN CASILLAS Las casillas o celdas de una tabla de contingencias pueden contener información muy variada, en concreto: frecuencias observadas, frecuencias esperadas, varios tipos de porcentajes y residuos brutos y tipificados. Parte de esta información es esencial para poder interpretar apropiadamente las pautas de asociación presentes en una tabla después de que se rechace la hipótesis de independencia. 368 Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias absolutas: Observadas. Número de casos resultantes de la clasificación. Esperadas. Número de casos que debería haber en cada casilla si las variables utilizadas fueran independientes. Recuadro Porcentajes. Es posible seleccionar uno o más de las siguientes frecuencias porcentuales: Fila. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su fila. Columna. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su columna. Total. Porcentaje que la frecuencia observada de una casilla representa respecto al número total de casos de la tabla. Recuadro Residuos. Los residuos son las diferencias existentes entre las frecuencias observadas y esperadas de una casilla. Son especialmente útiles para averiguar en qué grado se desvían de la hipótesis de independencia las frecuencias de cada casilla; consecuentemente, son útiles para interpretar las pautas de asociación presentes en la tabla. Es posible seleccionar una o más de las siguientes opciones: No tipificados. Diferencia entre la frecuencia observada y la esperada. Tipificados. Residuo no tipificado dividido por la raíz cuadrada de su correspondiente frecuencia esperada. Su valor esperado es 0 pero su desviación típica es menor que 1, lo cual hace que no puedan interpretarse como puntuaciones Z. Sin embargo, sirven como indicadores del grado en que cada casilla contribuye al valor del estadístico chi-cuadrado. De hecho, sumando los cuadrados de los residuos tipificados se obtiene el valor del estadístico chi- cuadrado. Los residuos tipificados son iguales a ( ) ( ) 2 ij ij ij ij ij ij n E n E E E − − = Tipificados corregidos. Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. Su utilidad radica en que, puesto que se distribuye como N(0,1), son fácilmente interpretables: utilizando un nivel de confianza 0.95, puede afirmarse que los residuos mayores de 1.96 delatan casillas con más casos de los que debería haber en esa casilla si las variables estudiadas fueran independientes; mientras que los residuos menores de -1.96 delatan 369 casillas con menos casos de los que cabría esperar bajo la condición de independencia. BOTÓN FORMATO Controla algunos detalles relacionados con el aspecto de las tablas de contingencias generadas. Recuadro Orden de filas. Permite controlar el orden en el que aparecen las categorías de la variable fila: Ascendente. Muestra las categorías de la variable fila ordenadas de menor a mayor. Es la opción por defecto. Descendente. Muestra las categorías de la variable fila ordenadas de mayor a menor. Ejemplo 1 (ejercicio 10, relación tema 10) Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? ( ( 0, 05) α = Salario\Antigüedad <5 años 5-10 10-20 >20 años i n • 0-500 500-1000 1000-2000 2000-3000 >3000 17 16 4 9 6 5 8 11 8 3 10 9 5 8 4 6 7 2 6 6 38 40 22 31 19 j n • 52 35 36 27 150 (FICHEROS DE DATOS: Ejercicio10_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio10F_T10.sav (datos agrupados, con frecuencias)) Recordemos que cuando se utilizan ficheros con frecuencias se deberá indicar en que columna se encuentran éstas, seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos..., después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias. Seleccionamos Analizar/Estadísticos Descriptivos/Tablas de contingencia 370 En situaciones reales, inicialmente no se dispone de los datos agrupados y ordenados en una tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un formato de dos columnas como aparece en estas pantallas. Por ello vamos a pedir que estos datos los represente en una tabla de contigencia (no marcaremos la opción Suprimir tablas) con los Salarios por filas y la Antigüedad por columnas. 371 En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de contingencia, en este ejemplo marcaremos Frecuencias observadas (aparece como recuento en la tabla), Frecuencias esperadas y Residuos tipificados corregidos. En Estadísticos seleccionaremos el estadístico Chi-cuadrado de Pearson para estudiar la independencia entre Salario y Antigüedad. Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen: • La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los residuos tipificados corregidos 372 Tabla de contingencia Salario * Antiguedad Antiguedad Total menos de 5 años 5-10 años 10-20 años más de 20 años Salario 0-500 Recuento 17 5 10 6 38 Frecuencia esperada 13,2 8,9 9,1 6,8 38,0 Residuos corregidos 1,5 -1,7 ,4 -,4 500-1000 Recuento 16 8 9 7 40 Frecuencia esperada 13,9 9,3 9,6 7,2 40,0 Residuos corregidos ,8 -,6 -,3 -,1 1000-2000 Recuento 4 11 5 2 22 Frecuencia esperada 7,6 5,1 5,3 4,0 22,0 Residuos corregidos -1,8 3,2 -,2 -1,2 2000-3000 Recuento 9 8 8 6 31 Frecuencia esperada 10,7 7,2 7,4 5,6 31,0 Residuos corregidos -,7 ,4 ,3 ,2 Más de 3000 Recuento 6 3 4 6 19 Frecuencia esperada 6,6 4,4 4,6 3,4 19,0 Residuos corregidos -,3 -,8 -,3 1,6 Total Recuento 52 35 36 27 150 Frecuencia esperada 52,0 35,0 36,0 27,0 150,0 • La prueba Chi-cuadrado de independencia Pruebas de chi-cuadrado Valor gl Sig. asintótica (bilateral) Chi-cuadrado de Pearson 15,932(a) 12 ,194 Razón de verosimilitudes 14,781 12 ,254 Asociación lineal por lineal 1,888 1 ,169 N de casos válidos 150 a 4 casillas (20,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,42. • Más 3000 2000-3000 1000-2000 500-1000 0-500 Salario 20 15 10 5 0 R e c u e n t o Gráfico de barras Más de 20 años 10-20 años 5-10 años < 5 años Años_Antiguedad 373 Según el p-valor (0.194) se aceptaría la hipótesis de independencia. Sin embargo, el residuo corregido para un salario (1000-2000) y una antigüedad (5-10) es 3.2 que no está comprendido entre -1.96 y 1.96, es decir, se escapa de la hipótesis de independencia al 5% de significación. Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 últimas filas y las dos últimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean mayores que 5. Recordemos que la opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para una muestra (como vimos en el ejemplo 3 de la práctica 10). Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta variable. Seleccionamos como variable numérica Salario y como variable de resultado escribimos SalarioB. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->4 5->4 (posteriormente, si se quiere, se etiquetaran los valores 1, 2 y 3 como en Salario y el nuevo valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Más de 2000). Repetiremos el mismo proceso con la variable Antigüedad. Seleccionamos como variable numérica Antiguedad y como variable de resultado escribimos AntiguedadB. (Nota: En la ventana Var. numérica->Var. de resultado hay que eliminar primero Salario->SalarioB, pues si no lo hacemos se aplicará también a ese par de variables la recodificación que queremos hacer en la pareja Antigüedad->AntiguedadB). En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->3 (posteriormente, si se quiere, se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como más de 10 años). Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros Ejercicio10_T10.sav y Ejercicio10F_T10.sav) obteniendo: 374 Tabla de contingencia SueldoB * AntiguedadB AntiguedadB menos de 5 años 5-10 años mas de 10 años Total Recuento 17 5 16 38 Frecuencia esperada 13,2 8,9 16,0 38,0 0-500 Residuos corregidos 1,5 -1,7 ,0 Recuento 16 8 16 40 Frecuencia esperada 13,9 9,3 16,8 40,0 500-1000 Residuos corregidos ,8 -,6 -,3 Recuento 4 11 7 22 Frecuencia esperada 7,6 5,1 9,2 22,0 1000-2000 Residuos corregidos -1,8 3,2 -1,0 Recuento 15 11 24 50 Frecuencia esperada 17,3 11,7 21,0 50,0 SueldoB más de 2000 Residuos corregidos -,8 -,3 1,1 Recuento 52 35 63 150 Total Frecuencia esperada 52,0 35,0 63,0 150,0 Pruebas de chi-cuadrado Valor gl Sig. asintótica (bilateral) Chi-cuadrado de Pearson 13,108(a) 6 ,041 Razón de verosimilitudes 12,069 6 ,060 Asociación lineal por lineal 1,537 1 ,215 N de casos válidos 150 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 5,13. Según el p-valor (0.041) se rechazaría la hipótesis de independencia a un nivel de significación del 5% (0,05), contrariamente a la conclusión obtenida antes de agrupar las frecuencias esperadas menores que 5. Ejemplo 2 (Ejercicio 11, relación Tema 10) A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B BAJA MEDIA ALTA 105 140 255 140 135 225 Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con 0, 01 α = ) (FICHEROS DE DATOS: Ejercicio11_T10.sav (datos sin agrupar, sin frecuencias). Ejercicio11F_T10.sav (datos agrupados, con frecuencias)) La tabla de contingencia, donde se reflejan las frecuencias observadas, las esperadas y los residuos corregidos, es la siguiente: 375 Tabla de contingencia Nota * Universidad Universidad A B Total Recuento 105 140 245 Frecuencia esperada 122,5 122,5 245,0 Baja Residuos corregidos -2,6 2,6 Recuento 140 135 275 Frecuencia esperada 137,5 137,5 275,0 Media Residuos corregidos ,4 -,4 Recuento 255 225 480 Frecuencia esperada 240,0 240,0 480,0 Nota Alta Residuos corregidos 1,9 -1,9 Recuento 500 500 1000 Total Frecuencia esperada 500,0 500,0 1000,0 Se puede observar como los residuos corregidos de las casillas “Nota baja” se salen del intervalo (-1.96, 1.96). Existe una desproporción significativa a favor de la “Universidad B” (residuo corregido 2.6 frente a -2.6) lo que significa que hay una proporción de alumnos de la universidad A menor de la esperada con notas bajas. En la prueba chi-cuadrado se obtiene: Pruebas de chi-cuadrado Valor gl Sig. asintótica (bilateral) Chi-cuadrado de Pearson 6,966(a) 2 ,031 Razón de verosimilitudes 6,984 2 ,030 N de casos válidos 1000 a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 122,50. El p-valor menor de 0.05 (0.031) nos lleva a rechazar la hipótesis de homogeneidad con un nivel de significación del 5% pero a aceptarla con un nivel de significación del 1% como aparece en el enunciado del ejercicio. Alta Media Baja Nota 300 250 200 150 100 50 0 R e c u e n t o Gráfico de barras B A Universidad 376 2. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES Este procedimiento contiene varias pruebas no paramétricas, todas ellas diseñadas para analizar datos provenientes de diseños con una variable independiente categórica (con dos niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos ordinal (en la cual interesa comparar los dos grupos o muestras). El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos muestras, la prueba U de Mann-Whitney, la prueba de reacciones extremas de Moses y la prueba de las rachas de Wald-Wolfowitz. Para obtener cualquiera de estas pruebas: Se selecciona la opción Pruebas no paramétricas/Dos muestras independientes del menú Analizar. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para obtener cualquiera de las pruebas no paramétricas incluidas en el procedimiento (puede seleccionarse más de una simultáneamente): ¾ Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista Contrastar variables. Si se selecciona más de una variable, el SPSS ofrece un contraste por cada variable seleccionada. ¾ Seleccionar la variable que define los grupos (muestras) que interesa comparar y trasladarla al cuadro Variable de agrupación. ¾ Pulsar el botón Definir grupos para acceder al subcuadro de diálogo que permite indicar cuáles son los dos códigos de la variable de agrupación que corresponden a los grupos que interesa comparar. ¾ En el recuadro Tipo de prueba, marcar la opción u opciones correspondientes a las pruebas que se desea obtener. Conviene tener en cuenta que no todas ellas permiten contrastar la misma hipótesis. El botón opciones conduce a un cuadro de diálogo que permite obtener algunos estadísticos descriptivos y controlar el tratamiento de los valores perdidos. PRUEBA DE KOLMOGOROV-SMIRNOV Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la misma población. Para ello compara las funciones de distribución empíricas de ambas muestras, ( ) ( ) n m F x y F x . Se calculan las diferencias ( ) ( ) i n i m i D F x F x = − . El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y de los tamaños muestrales n y m, 377 ( ) max i i nm Z D n m = + , obteniéndose la significación asintótica bilateral a partir de la fórmula de Smirnov: ( ) ( ) ( ) 2 2 9 25 1,233701 4 9 16 2 0 0, 27 1 2, 506628 0, 27 1 1 ( ) 1 3,1 2 3,1 0 Z Z Si Z p Si Z p Q Q Q Q e Z Si Z p Q Q Q Q Q e Si Z p − − − ≤ ≤ ⇒ = ≤ ≤ ⇒ = − + + = ≤ ≤ ⇒ = − + − = ≤ ⇒ = Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia central, simetría, variabilidad,… Ejemplo 3 (Ejercicio 9, relación Tema 11) Con nivel de significación de 5%, contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 2 4 2 3 5 6 7 8 9 3 Muestra 2 2 4 5 3 5 4 7 6 5 3 (FICHERO DE DATOS: Ejercicio9_T11.sav) Al tratarse de muestras independientes, aparecerán todos los datos de ambas muestras en la misma columna (Puntuación) y en la columna Muestras con los códigos 1 y 2 distinguiremos a qué muestra pertenece cada puntuación. Seleccionaremos Analizar/Pruebas no paramétricas/Dos muestras independientes del menú Analizar. 378 En la ventana que aparecerá, seleccionaremos Puntuaciones para Contrastar variables y Muestras para Variable de agrupación. En Definir grupos indicaremos que la primera muestra tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de Kolmogorov-Smirnov. En el visor de resultados se obtiene: Estadísticos de contraste(a) Valores Absoluta ,200 Positiva ,100 Diferencias más extremas Negativa -,200 Z de Kolmogorov-Smirnov ,447 Sig. asintót. (bilateral) ,988 a Variable de agrupación: Muestra Dado que la significación asintótica (0.988) es mayor que 0.05 se acepta la hipótesis de que ambas muestras proceden de la misma población. PRUEBA U DE MANN-WHITNEY Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se cumplen los supuestos en los que se basa la prueba (normalidad), o cuando no es apropiado utilizar la prueba T porque el nivel de medida de los datos es ordinal. Este test es sensible a las diferencias de medianas, algo sensible frente a las diferencias de asimetría e insensible frente a las diferencias de varianzas. Es fiable en la comparación de dos promedios poblacionales cuando ambas distribuciones tienen la misma forma. 379 Con muestras pequeñas el SPSS ofrece el nivel crítico bilateral exacto del estadístico U, el cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales que U. Con muestras grandes, el SPSS ofrece una tipificación del estadístico U denominada Z, que se distribuye aproximadamente como una N(0,1). El nivel crítico bilateral se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales a Z. Ejemplo 4 (Ejercicio 9, relación Tema 11) Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney. Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann- Whitney en Tipo de prueba Según el visor de resultados: Estadísticos de contraste(b) Valores U de Mann-Whitney 46,500 W de Wilcoxon 101,500 Z -,268 Sig. asintót. (bilateral) ,789 Sig. exacta [2*(Sig. unilateral)] ,796(a) a No corregidos para los empates. b Variable de agrupación: Muestra Al ser las muestras pequeñas observamos la significación exacta (0.796). Ésta es mayor que 0.05, concluimos que ambas muestras proceden de la misma población. 380 Nota: Según Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de 8 8 m y n ≥ ≥ . Hay autores que consideran m y n grandes cuando 60 m n + ≥ . En nuestro ejemplo n=10, m=10 y la significación exacta y asintótica son muy próximas. 381 FORMULARIOS Y TABLAS ESTADÍSTICAS 382 383 MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS (O CON REEMPLAZAMIENTO) MEDIA PROPORCION ESTIMADOR 1 1 n i i y y n = = ∑ 1 1 , 0, 1 n i i i p y y n = = = ∑ CUASIVARIANZA MUESTRAL ( ) 2 2 1 1 1 n i i S y y n = = − − ∑ 2 2 1 2 1 1 n i n i i i y y n S n = = | | | \ . − = − ∑ ∑ ( ) 2 2 1 1 1 1 n i i n pq S y y n n = = − = − − ∑ 1 q p = − VARIANZA DEL ESTIMADOR 2 2 ( ) ( ) S V y V y n n σ = = ( ) ( ) 1 pq pq V p V p n n = = − LIMITE DEL ERROR DE ESTIMACIÓN = B 2 ( ) 2 S V y n = 2 ( ) 2 1 pq V p n = − INTERVALO DE CONFIANZA 2 , 2 S S y y n n | | − + | \ . 2 , 2 1 1 pq pq p p n n | | | − + | − − \ . TAMAÑO MUESTRAL 2 2 ( ) 2 V y B n σ = = 2 2 2 2 , 4 4 B n D B D σ σ = = = 2 ( ) 2 pq V p B n = = 2 2 , 4 4 pq pq B n D B D = = = 384 MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS SIN REEMPLAZAMIENTO MEDIA TOTAL PROPORCION TOTAL ESTIMADOR 1 1 n i i y y n = = ∑ 1 n i i N N y y n τ = = = ∑ 1 1 , 0, 1 n i i i p y y n = = = ∑ N p τ = VARIANZA DEL ESTIMADOR 2 ( ) S N n V y n N − = 2 2 ( ) ( ) ( ) ( ) S V V N y N V y N N n n τ = = = − ( ) 1 pq N n V p n N − = − 2 ( ) ( ) ( ) ( ) 1 pq V V N p N V p N N n n τ = = = − − LIMITE DEL ERROR DE ESTIMACIÓN = B 2 ( ) V y 2 ( ) 2 ( ) V N V y τ = 2 ( ) V p 2 ( ) 2 ( ) V N V p τ = INTERVALO DE CONFIANZA 2 ( ) , 2 ( ) ( ) y V y y V y − + 2 ( ) , 2 ( ) ( ) V V τ τ τ τ − + = 2 ( ) , 2 ( ) ( ) ( ) ( ) N y V y N y V y = − + 2 ( ) , 2 ( ) ( ) p V p p V p − + 2 ( ) , 2 ( ) ( ) V V τ τ τ τ − + = 2 ( ) , 2 ( ) ( ) ( ) ( ) N p V p N p V p = − + TAMAÑO MUESTRAL 2 2 ( 1) N n N D σ σ = − + 2 ( ) 4 B D media = 2 2 ( ) 4 B D total N = ( 1) Npq n N D pq = − + 2 ( ) 4 B D proporcion = 2 2 ( ) 4 B D total N = 385 MUESTREO ALEATORIO ESTRATIFICADO MEDIA TOTAL PROPORCION TOTAL ESTIMADOR 1 1 L i st i i y N y N = = ∑ 1 L st i st i i N y N y τ = = = ∑ 1 1 L i st i i p N p N = = ∑ 1 L st i st i i N p N p τ = = = ∑ VARIANZA DEL ESTIMADOR 2 2 1 1 ( ) ( ) L i st i i V y N V y N = = = ∑ 2 2 2 1 1 L i i i i i i i S N n N N n N = − = ∑ 2 2 2 1 ( ) ( ) L i i i st i st i i i S N n V N V y N n N τ = − = = ∑ 2 2 1 1 ( ) ( ) L i st i i V p N V p N = = = ∑ 2 2 1 1 1 L i i i i i i i i p q N n N N n N = − = − ∑ 2 2 1 ( ) ( ) 1 L i i i i st i st i i i p q N n V N V p N n N τ = − = = − ∑ TAMAÑO MUESTRAL MEDIA TOTAL PROPORCION TOTAL FORMULACIÓN GENERAL 2 2 1 2 2 1 L i i i i L i i i N n N D N σ ω σ = = = + ∑ ∑ 2 1 2 1 L i i i i i L i i i i N p q n N D N p q ω = = = + ∑ ∑ 386 MUESTREO ALEATORIO ESTRATIFICADO TAMAÑO MUESTRAL MEDIA TOTAL PROPORCION TOTAL ASIGNACIÓN ÓPTIMA 1 1 2 2 1 ( ) L L i i i i i i i i L i i i N N c c error fijo B n N D N σ σ σ = = = = + ∑ ∑ ∑ 1 1 ( ) L i i i i L i i i i N C c coste fijo C n N c σ σ = = = ∑ ∑ 1 j j j j L i i i i N c N c σ ω σ = = ∑ 1 1 2 1 L L i i i i i i i i i i L i i i i p q N p q c N c n N D N p q = = = = + ∑ ∑ ∑ 1 1 L i i i i i L i i i i i p q C N c n N p q c = = = ∑ ∑ 1 j j j j j L i i i i i p q N c p q N c ω = = ∑ ASIGNACIÓN DE NEYMAN 2 1 2 2 1 ( ) L i i i L i i i N n N D N σ σ = = = + ∑ ∑ 1 j j j L i i i N N σ ω σ = = ∑ 2 1 2 1 ( ) L i i i i L i i i i N p q n N D N p q = = = + ∑ ∑ 1 j j j j L i i i i N p q N p q ω = = ∑ ASIGNACIÓN PROPORCIONAL 2 1 2 1 1 L i i i L i i i N n ND N N σ σ = = = + ∑ ∑ j j N N ω = 1 1 1 L i i i i L i i i i N p q n ND N p q N = = = + ∑ ∑ j j N N ω = D 2 ( ) 4 B D media = 2 2 ( ) 4 B D total N = 2 ( ) 4 B D proporcion = 2 2 ( ) 4 B D total N = 387 ESTIMACIÓN DE RAZÓN RAZÓN MEDIA TOTAL ESTIMADOR 1 1 n i i n i i y y r x x = = = = ∑ ∑ y x r µ µ = y x r τ τ = VARIANZA RESIDUAL ( ) 2 2 1 1 1 n r i i i S y rx n = = − − ∑ VARIANZA DEL ESTIMADOR 2 2 1 ( ) r x N n S V r N n µ − = 2 2 ( ) ( ) r y x N n S V V r N n µ µ − = = 2 2 2 ( ) ( ) r y x N n S V V r N N n τ τ − = = DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 2 2 2 r r r r N n S de una muestra previa ND σ σ σ = = + 2 2 ( ) 4 x B D para estimar R µ = 2 2 2 ( ) ( ) 4 4 y y B B D para estimar D para estimar N µ τ = = 388 ESTIMACIÓN DE REGRESIÓN MEDIA TOTAL VARIANZA, COVARIANZA Y COEF. DE CORRELACIÓN MUESTRALES ( ) ( ) 2 2 2 2 2 2 1 1 1 1 ( 1) 1 n n x i x i x x i i S x x s x x n S ns n n = = = − = − − = − ∑ ∑ ( )( ) ( )( ) 1 1 1 1 1 1 1 n n n xy i i xy i i i i i i i S x x y y s x x y y x y x y n n n = = = = − − = − − = − − ∑ ∑ ∑ 2 2 2 2 2 2 2 xy xy xy x y x y S s r S S s s = = ESTIMADOR ( )( ) ( ) 1 2 2 2 1 ( ) n i i xy xy i yL x n x x i i x x y y S s y b x b S s x x µ µ = = − − = + − = = = − ∑ ∑ yL yL N τ µ = VARIANZA RESIDUAL ERROR TÍPICO DE ESTIMACIÓN ( ) ( ) ( ) 2 2 2 2 2 2 2 1 1 ( ) 1 2 2 2 n xy L i i y y xy i x s n n S y y b x x s s r n n s n = | | = − + − = − = − | | − − − \ . ∑ 2 L L S S = VARIANZA DEL ESTIMADOR 2 ( ) L yL N n S V N n µ − = 2 ( ) ( ) yL yL V N V τ µ = DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 2 2 2 L L L L N n S de una muestra previa ND σ σ σ = = + 2 2 2 ( ) ( ) 4 4 y y B B D para estimar D para estimar N µ τ = = 389 ESTIMACIÓN DE DIFERENCIA MEDIA TOTAL ESTIMADOR ( ) yD x x y x d d y x µ µ µ = + − = + = − yD yD N τ µ = VARIANZA RESIDUAL ( ) ( ) 2 2 2 1 1 1 1 ( ) 1 1 n n D i i i i i i i i S y x d d d d y x n n = = = − + = − = − − − ∑ ∑ VARIANZA DEL ESTIMADOR 2 ( ) D yD N n S V N n µ − = 2 ( ) ( ) yD yD V N V τ µ = DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 2 2 2 D D D D N n S de una muestra previa ND σ σ σ = = + 2 2 2 ( ) ( ) 4 4 y y B B D para estimar D para estimar N µ τ = = 390 MUESTREO POR CONGLOMERADOS MEDIA o PROPORCIÓN TOTAL (M conocido) TOTAL NOTACIÓN conglomerados en la población N = conglomerados en la muestra n = i elementos en el conglomerado i m = i suma de las observaciones del conglomerado i y = 1 N i i elementos en la población M m = = = ∑ 1 n i i elementos en la muestra m m = = = ∑ 1 1 N i i tamaño medio de los conglomerados de la población M m N = = = ∑ 1 1 n i i tamaño medio de los conglomerados de la muestra m m n = = = ∑ ESTIMADOR 1 1 n i i n i i y y m µ = = = = ∑ ∑ M y τ = 1 1 n i t i y y n = = ∑ t t N y τ = VARIANZA DEL ESTIMADOR ( ) 2 2 1 1 1 n c i i i S y ym n = = − − ∑ 2 2 1 ( ) c S N n V y N n M − = 2 2 ( ) ( ) ( ) c S V M V y N N n n τ = = − ( ) 2 2 1 1 1 n t i t i S y y n = = − − ∑ 2 ( ) t t S N n V y N n − = 2 2 ( ) ( ) ( ) t t t S V N V y N N n n τ = = − TAMAÑO MUESTRAL 2 2 2 2 c c c c de una muestra previa N n S ND σ σ σ = = + 2 2 ( ) 4 B M D media = 2 2 ( ) 4 B D total N = 2 2 2 2 t t t t de una muestra previa N n S ND σ σ σ = = + 2 2 ( ) 4 B D total N = 391 ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO DIRECTO MUESTREO INVERSO NOTACIÓN elementos marcados t = total de elementos en la muestra de recaptura n = elementos marcados en la muestra de recaptura s = ESTIMADOR t nt N s p = = t nt N s p = = PROPIEDADES DEL ESTIMADOR ( ) ( ) N N t E N N nt − = + ( ) 2 3 ( ) t n n s V N s − = ( ) E N N = ( ) 2 2 ( ) ( 1) t n n s V N s s − = + 392 ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO POR CUADROS DENSIDAD TOTAL NOTACIÓN área total A = área de cada cuadro a = número de cuadros en la muestra n = número medio de elementos por cuadro en la muestra m = ESTIMADOR m a λ = M A λ = VARIANZA DEL ESTIMADOR ( ) V an λ λ = ( ) ( ) 2 2 A V M A V an λ λ = = CUADROS CARGADOS DENSIDAD TOTAL NOTACIÓN área total A = área de cada cuadro a = número de cuadros en la muestra n = y = número total de cuadros no cargados ESTIMADOR 1 ln y a n λ | | = − | \ . ln A y M A a n λ | | = = − | \ . VARIANZA DEL ESTIMADOR ( ) 2 1 n y V a ny λ − = ( ) ( ) 2 2 2 A n y V M A V a ny λ − = = 393 INDICADORES ESTADÍSTICOS REGIONALES Medidas de desigualdad-concentración regional: j x = valores porcentuales (proporciones) de la variable respecto del total= 1 j N j j X X = ∑ Coeficiente de Theil 1 ln ln N j j j T N x x = = + ∑ Propiedad de agregación: 1 1 ln ln k k g g g g g g g x T N x x T N = = | | = + + | | \ . ∑ ∑ 1 k g g N N = = ∑ g g j j G x x ∈ = ∑ ln ln g j j g g j G g g x x T N x x ∈ | | = + | | \ . ∑ Índice de Theil: 1 1 ln ln ln 1 ln ln ln N N j j j j j j T THEIL N x x x x T I I N N N = = + = = = = + ∑ ∑ Desigualdad individual: 1 i i i i x X x d X X − = = − Desigualdad colectiva: 1 N i i i D d f = = ∑ Propiedad de agregación: 1 1 1 k k g g g g g g g N x D d N D N N x = = = + ∑ ∑ g g j g j j G j x X D f X ∈ − = ∑ g g g x x d x − = Medidas de dispersión regional: Varianza: ( ) ( ) 2 1 1 N j j V X X x N = = − ∑ Varianza normalizada: ( ) 2 ( ) V X VN X x = Coeficiente de asociación geográfica de Florence : 1 1 1 2 N j j j F x y = = − − ∑ 394 MEDIDAS DE LOCALIZACIÓN ESPACIAL ij j Y Y → i participación de la región i en el sector j i Y Y → i participación de la región i en la población ij i Y Y → i participación del sector j en la región i ij i Y Y → i participación del sector j en la región i Cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) : / / 100 100 / / ij i ij j ij j i Y Y Y Y L Y Y Y Y = = i i i i Coeficiente de localización sectorial (del sector j-ésimo): 1 1 2 N ij i j i j Y Y CL Y Y = = − ∑ i i Coeficiente de especialización regional (de la región i-ésima): 1 1 2 L ij j i j i Y Y CE Y Y = = − ∑ i i Coeficiente de diversificación (de la región i-ésima): 2 2 1 2 2 1 1 L ij j i i L L ij ij j j Y Y CD L Y L Y = = = | | | \ . = = ∑ ∑ ∑ i Coeficiente de diversificación normalizado: * 1 1 i i L CD CD L L | | = − | − \ . 395 Contrastes 2 χ de Pearson n i =nº de observaciones en la clase i. E i =np i =nº esperado de observaciones en la clase i bajo H 0 . ( ) 2 2 1 k i i i i n E E χ = − = ∑ ij n = nº de elementos en la categoría i A de X y j B de Y. 1 c i ij j n n • = = ∑ = nº de elementos en la categoría i A de X. 1 r j ij i n n • = = ∑ = nº de elementos en la categoría j B de Y. n = nº de elementos en la muestra. i j ij n n E n • • = ( ) 2 2 1 1 r c ij ij i j ij n E E χ = = − = ∑∑ ij n = nº de elementos en la categoría i A de X, de la población j B . 1 c i ij j n n • = = ∑ = nº de elementos en la categoría i A de X. 1 r j ij i n n • = = ∑ = nº de elementos en la población j B . n = nº de elementos en la muestra. i j ij n n E n • • = ( ) 2 2 1 1 r c ij ij i j ij n E E χ = = − = ∑∑ 0 H : X F(x) → H 0 : X e Y son independientes. H 0 : Las c poblaciones son homogéneas (se distribuyen igual) : ( ). ( ) ( ) 1 H X G x G x F x → ≠ H 1 : X e Y no son independientes. H 1: Las c poblaciones no se distribuyen igual 2 2 1,1 0 k rechazamos H si α χ χ − − > 2 2 ( 1)( 1); 1 o r c rechazamos H si α χ χ − − − > 2 2 ( 1)( 1); 1 o r c rechazamos H si α χ χ − − − > 396 Contrastes de Kolmogorov-Smirnov (muestras independientes). | | 0 ( ) F x P X x = ≤ ( ) º n n observaciones x F x n ≤ = ( ) ( ) 0 max exp n D F x F x = − ( ) 1 º n muestra n observaciones x F x n ≤ = ( ) 2 º m muestra n observaciones x F x m ≤ = exp max ( ) ( ) n m D F x F x = − 0 H : X F(x) → : ( ). ( ) ( ) 1 H X G x G x F x → ≠ Contraste bilateral: 0 1 : ( ) ( ) : ( ) ( ) n m n m H F x F x H F x F x = ¦ ¹ ´ ` ≠ ¹ ) Contrastes unilaterales: 0 0 1 1 : ( ) ( ) : ( ) ( ) (1) (2) : ( ) ( ) : ( ) ( ) n m n m n m n m H F x F x H F x F x ó H F x F x H F x F x = = ¦ ¹ ¦ ¹ ´ ` ´ ` < > ¹ ) ¹ ) ( .14) 0 exp rechazamos H si D D tabla A α > distinguiendo si n m = o n m ≠ y si el test es unilateral o bilateral. Se rechaza 0 H si exp D D α > . (Tablas A.18 y A.19) 397 Contraste de Mann-Whitney (muestras independientes). 0 . ( ) ( ) n m H Las dos muestras proceden de la misma población F x F x = = 1 . ( ) ( ) n m H Las muestras proceden de poblaciones distintas F x F x = ≠ 1 ( ) ( ) ( ). n m H F x F x La muestra de tamaño n toma valores mayores que la muestra de tamaño m = < 20 40 ( 3.17 3.20) n y m tablas a ≤ ≤ ( ) 60 (0,1) n m z N + > → 2 nm µ = 2 ( 1) 12 nm n m σ + + = 0 0 U z µ σ − = 0 2 Se rechaza H si p α ≤ muestras de tamaños n y m n m ≤ 0 1 2 min ( , ) U U U = 1 1 ( 1) 2 n n U nm R + = + − 2 2 ( 1) 2 m m U nm R + = + − 0 0 ( ) Se rechaza H si U U U valor crítico para el test unilateral α α ≤ 0 Se rechaza H si p α ≤ 0 Se rechaza H si p α ≤ | | 0 p P z z = ≤ 0 0 ( ) Se rechaza H si U U U valor crítico para el test bilateral α α ≤ 0 0 ( ) Se rechaza H si U U U valor crítico para el test unilateral α α ≤ 1 ( ) ( ) ( ). n m H F x F x La muestra de tamaño n toma valores menores que la muestra de tamaño m = > 398 Test de las rachas (aleatoriedad, muestras independientes). 0 ( ) H El orden de los valores de la muestra es aleatorio casual = 0 H Las dos muestras proceden de la misma población = ( ) A H El orden de los valores de la muestra NO es aleatorio casual = 1 ( ) A H Efecto de aglomeración pocas rachas = 2 . ( ) A H Los valores se suceden de forma regular muchas rachas = 1 . ( ) A H Las dos muestras proceden de poblaciones distintas pocas rachas = 1 2 20 ( 4.40) n y n tabla ≤ ( ) 1 2 20 (0,1) n o n N > 1 2 1 2 2 1 n n n n µ = + + ( ) ( ) 2 1 2 1 2 1 2 2 1 2 1 2 2 (2 ) 1 n n n n n n n n n n σ − − = + + − R z µ σ − = 0 ( %) 2 u o Se mantiene H si r R r límites inferiores y superiores del α < < 0 ( u Se mantiene H si r R límites inferiores del %) α < 0 ( o Se mantiene H si R r límites superiores del %) α < 0 ( u Se mantiene H si r R límites inferiores del %) α < 0 2 2 Se mantiene H si z z z α α − < < 0 Se mantiene H si z z α − < 0 Se mantiene H si z z α − < 0 Se mantiene H si z z α < 399 Test de los signos (muestras dependientes). 0 1 2 : . ( ) ( ) H La mediana de las diferencias es cero Las dos muestras proceden de la misma distribución F x F x ≈ = 1 1 2 : . ( ) ( ) H Las dos muestras proceden de distribuciones distintas F x F x ≠ 100 ( 4.4) n tabla ≤ 101 1000 ( 4.5) n tabla ≤ ≤ ( ) 30 (0,1) n N ≤ 0 1 2 , , i i i Se rechaza H cuando hay demasiadas diferencias de un signo y por tanto muy pocas del signo contrario d x x d diferencias de signo positivo d diferencias de signo negativo + − = − = = 2 2 4 n n µ σ = = { } 0 , Se acepta H si EI d d ED + − ≤ ≤ 1 1 2 : . ( ) ( ) ( 1 2). H Las dos muestras proceden de distribuciones distintas F x F x La muestra toma valores mayores que la muestra < 1 1 2 : . ( ) ( ) ( 1 2). H Las dos muestras proceden de distribuciones distintas F x F x La muestra toma valores menores que la muestra > { } 0 , Se acepta H si d ED EI d + − ≤ ≤ { } 0 , Se acepta H si d ED EI d − + ≤ ≤ { } 0 2 2 , Se acepta H si z z z z α α + − − ≤ ≤ { } 0 , Se acepta H si z z z z α α + − ≤ − ≤ { } 0 , Se acepta H si z z z z α α − + ≤ − ≤ { } 0 , Se acepta H si EI d d ED + − ≤ ≤ d z µ σ + + − = d z µ σ − − − = d z µ σ + + − = d z µ σ − − − = { } 0 , Se acepta H si d ED EI d + − ≤ ≤ { } 0 , Se acepta H si d ED EI d − + ≤ ≤ 400 Test de Wilcoxon de los signos-rangos (muestras dependientes). ( ) 65 4.2 n tabla ≤ ( ) 25 (0,1) n N > 1 2 ( 1) min( , ) 2 i i i i n n d x x ordenar d de menor a mayor R y R verificar R R R R R + − + − + − + = − ⇒ ⇒ ⇒ + = ⇒ = 0 : 0 H La distribución de las diferencias es simétrica alrededor de su mediana 0 Las dos muestras proceden de la misma distribución. H : f(+d)= f(-d) F(+d)+F(-d)=1 ≈ 0 ( ) Se rechaza H si R R R valor crítico para el test α α ≤ 1 : . H Las dos muestras proceden de distribuciones distintas ( )( ) 2 1 2 1 ( 1) 4 24 n n n R n n z µ µ σ σ + + − + = = = 0 2 ( ) Se rechaza H si z z test bilateral α ≤ − 0 ( ) Se rechaza H si z z test unilateral α ≤ − 2 INFORMACIÓN GENERAL (Exámenes, temario, bibliografía,...) . . . . . . . . APUNTES: 1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . . 1.1 Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Selección de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Métodos de recolección de datos. . . . . . . . . . . . . . . . . . . . . . . . 1.5 Diseño del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Planificación de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . . 2. Muestreo aleatorio simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Muestreo aleatorio simple en poblaciones infinitas. . . . . . . . . . . . . . 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 2.3 Muestreo aleatorio simple en poblaciones finitas. . . . . . . . . . . . . . . 2.3.1 Estimación de la media, proporción y total poblacionales. . . . . . . 2.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Muestreo aleatorio estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Selección de una muestra aleatoria estratificada. . . . . . . . . . . . . . . . 3.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 3.3 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . 3.4 Asignación de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Asignación óptima. . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Asignación de Neyman. . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Asignación proporcional. . . . . . . . . . . . . . . . . . . . . . . . 3.5 Estratificación después de seleccionar la muestra. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Muestreo con información auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimación de razón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.2.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.3 Estimación de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.3.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 4.4 Estimación de diferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Estimación de la media y total poblacionales. . . . . . . . . . . . . 4.4.2 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . 6 11 11 12 13 13 15 16 16 16 17 18 18 19 19 23 23 24 25 27 30 38 38 39 42 43 43 44 44 50 52 63 63 64 65 68 69 70 71 72 72 74 3 Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Muestreo sistemático. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Selección de una muestra sistemática. Usos. Ventajas. . . . . . . . . . . . . 5.2 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Muestreo por conglomerados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Necesidad y ventajas del muestreo por conglomerados. . . . . . . . . . . . 6.2 Formación de los conglomerados. Conglomerados y estratos. . . . . . . . . 6.3 Estimación de la media, proporción y total poblacionales. . . . . . . . . . . 6.4 Determinación del tamaño muestral. . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Estimación del tamaño de la población. . . . . . . . . . . . . . . . . . . . . . . 7.1 Muestreo directo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Muestreo inverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. . . . . . . . . 7.3.2 Muestreo por cuadros en el espacio temporal. . . . . . . . . . . . . 7.3.3 Cuadros cargados. . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Indicadores estadísticos regionales. . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Medidas de desigualdad-concentración regional. . . . . . . . . . . . . . . . 8.2.1 Curva de Lorenz. Índice de Gini. . . . . . . . . . . . . . . . . . . . 8.2.2 Coeficiente de Theil. Índice de Theil. . . . . . . . . . . . . . . . . . 8.2.3 Desigualdad individual y colectiva. . . . . . . . . . . . . . . . . . . 8.3 Medidas de dispersión regional. . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Coeficiente de asociación geográfica de Florence. . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Medidas de localización espacial. . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Cocientes de localización y especialización. . . . . . . . . . . . . . . . . . . 9.3 Coeficientes de localización sectorial. . . . . . . . . . . . . . . . . . . . . . 9.4 Coeficientes de especialización regional. . . . . . . . . . . . . . . . . . . . . 9.5 Coeficientes de diversificación. . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10. Contrastes χ 2 de Pearson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Contrastes χ 2 de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . 10.2 Contrastes χ 2 de independencia. . . . . . . . . . . . . . . . . . . . . . . . 10.3 Contrastes χ 2 de homogeneidad. . . . . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 75 82 82 84 86 88 89 92 92 92 92 97 98 108 108 109 110 112 112 114 117 117 117 117 119 123 126 126 128 130 130 131 132 134 136 137 143 143 147 150 152 11. Inferencia no paramétrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. . . . . . . . . . . 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. . . . . . . . . . . . . 11.3 Contraste de Mann-Whitney. . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Test de las rachas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Test de los signos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Test de Wilcoxon de los signos-rangos. . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . EJERCICIOS: Ejercicios del capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios del capítulo 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PRE-PRÁCTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PRÁCTICAS: Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Práctica 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FORMULARIOS Y TABLAS ESTADÍSTICAS . . . . . . . . . . . . . . . . . 162 162 165 168 176 178 179 181 190 196 207 217 220 230 234 236 240 248 259 276 279 286 293 311 317 320 327 330 333 337 351 366 381 5 INFORMACIÓN GENERAL Licenciatura: Economía Carácter: Obligatoria Créditos: 4,5 Periodo lectivo: Segundo curso. Segundo cuatrimestre. Departamento: Métodos Cuantitativos para la Economía y la Empresa Objetivos de la Asignatura: o Completar los conocimientos previos de estadística con el estudio de nuevos conceptos en muestreo en poblaciones finitas, técnicas cuantitativas para el análisis regional e inferencia no paramétrica, dotando al alumno de las herramientas estadísticas e informáticas necesarias para poder abordar la resolución de supuestos prácticos. o La asignatura es de tipo teórico-práctico. Se considera fundamental la comprensión de los conceptos, la capacidad de elección del método en la resolución de los problemas prácticos que se planteen, la solución de dichos problemas mediante la hoja de cálculo Excel y el paquete estadístico SPSS, así como la interpretación de los resultados. o Una hora de clase a la semana será en el aula de informática donde se utilizarán los programas Excel y SPSS. Sistema de Evaluación: • En cualquiera de las convocatorias de examen de esta asignatura se realizarán dos pruebas: una escrita (valorada en al menos el 60% de la calificación) y otra con ordenador (valorada como máximo en el 40% de la calificación), siendo necesario superar como mínimo un 35% en cada una para hacer media y en su caso aprobar la asignatura. En ambas pruebas los alumnos podrán utilizar el “formulario” (con todas las expresiones utilizadas en la asignatura) y las “tablas estadísticas”, dicha información se facilitará por internet y/o en la fotocopiadora del centro. También se permite el uso de calculadora no programable en la prueba escrita. • Los alumnos podrán ser evaluados mediante un examen previo a la convocatoria oficial de Junio. La superación de este examen o parte del mismo eximirá de la realización de todo el examen final (escrito y ordenador) o de alguna de las partes en esa convocatoria. 6 TEMARIO 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 3. Muestreo aleatorio estratificado. 3.1 Selección de una muestra aleatoria estratificada. 3.2 Estimación de la media, proporción y total poblacionales. 3.3 Determinación del tamaño muestral. 3.4 Asignación de la muestra. 3.4.1 Asignación óptima. 3.4.2 Asignación de Neyman. 3.4.3 Asignación proporcional. 3.5 Estratificación después de seleccionar la muestra. 4. Muestreo con información auxiliar. 4.1 Introducción. 4.2 Estimación de razón. 4.2.1 Estimación de la media y total poblacionales. 4.2.2 Determinación del tamaño muestral. 4.3 Estimación de regresión. 4.3.1 Estimación de la media y total poblacionales. 4.3.2 Determinación del tamaño muestral. 4.4 Estimación de diferencia. 4.4.1 Estimación de la media y total poblacionales. 4.4.2 Determinación del tamaño muestral. 5. Muestreo sistemático. 5.1 Selección de una muestra sistemática. Usos. Ventajas. 5.2 Estimación de la media, proporción y total poblacionales. 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas. 7 5.4 Determinación del tamaño muestral. 6. Muestreo por conglomerados. 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. 6.3 Estimación de la media, proporción y total poblacionales. 6.4 Determinación del tamaño muestral. 7. Estimación del tamaño de la población. 7.1 Muestreo directo. 7.2 Muestreo inverso. 7.3 Muestreo por cuadros. 7.3.1 Estimación de la densidad y tamaño de la población. 7.3.2 Muestreo por cuadros en el espacio temporal. 7.3.3 Cuadros cargados. 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 9. Medidas de localización espacial. 9.1 Introducción. 9.2 Cocientes de localización y especialización. 9.3 Coeficientes de localización sectorial. 9.4 Coeficientes de especialización regional. 9.5 Coeficientes de diversificación. 10. Contrastes χ 2 de Pearson. 10.1 Contrastes χ 2 de bondad de ajuste. 10.2 Contrastes χ 2 de independencia. 10.3 Contrastes χ 2 de homogeneidad. 11. Inferencia no paramétrica. 11.1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. 11.2 Contraste de Kolmogorov-Smirnov para 2 muestras. 11.3 Contraste de Mann-Whitney. 11.4 Test de las rachas. 11.5 Test de los signos. 11.6 Test de Wilcoxon de los signos-rangos. 8 . International Thomson Editores.G. Información en la WEB: En el TABLON DOCENCIA de la página web de la Universidad se facilitará información a los alumnos sobre: Profesores que imparten la asignatura.. S. V.. International Thomson Editores. PALACIOS. Programa de la asignatura Bibliografía Apuntes de clase Relaciones de ejercicios Prácticas de ordenador Sistema de evaluación Fechas de exámenes Calificaciones Revisión de exámenes Cualquier otra información que los profesores consideren importante. L. y MARTÍN PLIEGO. Estadística Aplicada. despacho. Muestreo: Diseño y Análisis. J. AC. y OTT. (2004). Curso básico de estadística económica. L. Editorial Universidad de Granada. MENDENHALL. Ariel. Técnicas Cuantitativas para el Análisis Regional. horario de tutorías..a. (1996). Madrid. CASAS SÁNCHEZ. J. ROJAS. y CALLEJÓN. 9 . LOHR. Labor s.. A. Ed. J. correo electrónico.M. (1993). (2006).S. Inferencia Estadística para Economía y Administración de Empresas. (1978). (1996). W.BIBLIOGRAFÍA SCHEAFFER. P. MARTÍN-GUZMÁN. A. y FERNÁNDEZ. MANZANO. S. J. R. Ed. (1999).J. F.L. SACHS. F. Centro de Estudios Ramón Areces. Manual para Encuestadores. Ed. Elementos de muestreo. 10 . 1. Elementos del problema de muestreo. 1.1 Definiciones básicas. 1.2 Selección de la muestra. 1.3 Fuentes de error. 1.3.1 Errores de muestreo. 1.3.2 Errores de no muestreo. 1.4 Métodos de recolección de datos. 1.5 Diseño del cuestionario. 1.6 Planificación de la encuesta. 1.7 Razones para el uso del muestreo. El objetivo fundamental de la estadística es hacer inferencia acerca de una población con base en la información contenida en una muestra representativa. La información obtenida de las encuestas por muestreo afecta a casi todos los aspectos de nuestra vida: IPC, audiencia de televisión, intención de voto,... Un área particular de actividad comercial que depende de las técnicas de muestreo es el análisis de mercados. Decisiones sobre qué producto comercializar, cuándo, dónde, cómo anunciarlo son frecuentemente tomadas sobre la base de la información de encuestas por muestreo. 1.1 Definiciones básicas En la actualidad, las encuestas y las muestras están presentes en nuestra vida diaria. Muchas nos dan información valiosa, pero otras están mal concebidas y aplicadas. Una muestra perfecta sería una versión a escala reducida de la población, que reflejaría cada una de las características de toda la población. Una buena muestra reproduce las características de interés que existen en la población de la manera más cercana posible. Para precisar el concepto de “buena muestra” necesitamos una serie de definiciones previas que ilustraremos apoyándonos en el siguiente ejemplo: supongamos que en cierta ciudad se quiere realizar una encuesta telefónica con el objetivo de conocer la proporción de votantes que apoyarán a un determinado candidato Un elemento de muestreo es un objeto en el que se toman las mediciones. En nuestro ejemplo un elemento de muestreo es un votante y la medición que se toma es si apoyará o no al candidato. La población objetivo es el conjunto de elementos que deseamos estudiar. La definición debe contener: una descripción de los elementos que serán incluidos, y una especificación de las mediciones que se van a considerar. 11 Una muestra es un subconjunto de la población. El muestreo de la población deseada no es siempre posible, y el investigador tendrá que reunir información adicional a las preguntas de interés. Por ejemplo, en la encuesta sobre un candidato en una votación, la información disponible para el muestreo puede ser el censo de residentes en la ciudad, entonces debemos recolectar información acerca de si cada persona muestreada es un votante censado o no. La población muestreada es la colección de todos los elementos posibles que podrían seleccionarse para la muestra. Las unidades de muestreo son conjuntos (no solapados) de elementos de la población que cubren la población completa. Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una lista de los teléfonos de todos los individuos que pertenecen a la población objetivo. En vez de esto, las familias sirven como unidades de muestreo y los elementos son los individuos que viven en una familia. El marco de muestreo es la lista de las unidades de muestreo. Por ejemplo, para las encuestas telefónicas, el marco de muestreo puede ser una lista de todos los números de teléfono residenciales de la ciudad. Casi todos los marcos presentan inconvenientes: listas no actualizadas, algunos votantes pueden no aparecer en las listas,... Sin embargo, cabe esperar que la separación entre el marco y la población sea lo bastante pequeño como para permitir que se hagan inferencias acerca de la población basándose en una muestra obtenida del marco. 1.2 Selección de la muestra Si el muestreo se realiza de manera adecuada, con una muestra relativamente pequeña se puede llevar a cabo inferencias de una población arbitrariamente grande. La cantidad de información contenida en una muestra se controla por medio del número de datos muestrales y por el método usado para seleccionar los datos muestrales. Veamos algunos métodos: 1. Muestreo aleatorio simple. Es la forma más sencilla de realizar un muestreo. Consiste en seleccionar n unidades muestrales de tal manera que cualquier muestra de tamaño n tenga la misma probabilidad de ser elegida. Este tipo de muestreo es la base de otros diseños de muestreo. 2. Muestreo aleatorio estratificado. Supongamos que los habitantes de una ciudad se pueden dividir en grupos con diferentes opiniones sobre un determinado candidato. Obviamente nos interesa tener información de cada uno de esos grupos. Entonces se 12 divide a la población en esos grupos o estratos y se selecciona una muestra aleatoria simple de cada grupo. A la muestra resultante se le llama muestra aleatoria estratificada. 3. Muestreo por conglomerados. En una muestra por conglomerados, los elementos que componen una población se reúnen en unidades de muestreo de mayor tamaño, llamadas conglomerados. Para nuestra encuesta podemos muestrear familias en lugar de votantes individuales. En este caso las familias forman los conglomerados y los miembros de las familias son las unidades de muestreo. 4. Muestreo sistemático: Es un tipo de muestreo que muchas veces se utiliza como sustituto del muestreo aleatorio simple. Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos. 1.3 Fuentes de error 1.3.1 Errores de muestreo El error de muestreo es el que surge al considerar una muestra y no examinar toda la población. El error de muestreo puede ser controlado y medido mediante un diseño cuidadoso de la muestra. Nuestro objetivo a lo largo de la asignatura será conocer o investigar alguna característica de una población que, en principio, vamos a denotar por θ . Por ejemplo, estudiaremos la audiencia televisiva una determinada noche, la intención de voto de una región,.... Claramente la recogida de información sobre toda la población resultaría cara y lenta. Por ello es preferible utilizar un subconjunto pequeño de la población, la muestra. ˆ Denotando por θ a un estimador de la característica θ , definimos el error de estimación como ˆ error de estimación = θ - θ Dado que el estimador es una variable aleatoria, no podemos asegurar que siempre el estimador y θ están dentro de una distancia especificada B, pero podemos expresar que eso ocurre con una determinada probabilidad ˆ P  θ −θ ≤ B  = 1−α   ,0 < α <1 donde  Límite para el Error de Estimación (LEE) con nivel de confianza 1 − α  B = Cota para el error de estimación con nivel de confianza 1-α  Error de estimación máximo con nivel de confianza 1-α  13 A continuación veremos que forma tiene B bajo distintas hipótesis sobre el estimador: ˆ ˆ 1. θ es un estimador insesgado de θ y tiene una distribución Normal θ → N (θ , σ θˆ ) . ( ) ˆ Dado que θ − θ → N (0, σ θˆ ), entonces ˆ ˆ P  θ − θ ≤ B  = P − B ≤ θ − θ ≤ B       B B = P − ≤ Z ≤  = 1− α σ θˆ   σ θˆ   donde Z = θ −θ B → N (0,1) . Por tanto, = z α (podemos obtenerlo en una tabla de 1− σθ σ θˆ 2 1− probabilidades de la N(0,1)) y el límite del error de estimación es B = z α 2 σ θˆ . Como se puede observar, el límite del error de estimación dependerá del nivel de confianza y de la desviación típica del estimador (esto último dependerá de la variabilidad de la muestra y del tipo de muestreo). Tomando una confianza del 95% el límite del error de estimación será: B = z 0,975σ θˆ = 1,96σ θˆ ≅ 2σ θˆ . Entonces ˆ P  θ − θ ≤ 2σ θˆ  = 0,95   Es decir, con una confianza del 95%, el límite del error de estimación es dos veces la desviación típica del estimador. (En muchos textos se denomina error típico a la desviación típica del estimador) ˆ 2. θ es un estimador insesgado de θ con desviación típica (error típico) σ θˆ . Por la desigualdad de Tchebyshev: 1 ˆ ˆ P  θ − E θ ≤ kσ θˆ  ≥ 1 − 2     k Dado que el estimador es insesgado y tomando k = 2 , 1 ˆ P  θ − θ < 2σ θˆ  ≥ 1 − 2 = 0, 75   2 Luego, con una confianza mayor del 75%, el límite del error de estimación es dos veces la desviación típica del estimador. Resumiendo, el límite del error de estimación es dos veces la desviación típica del estimador con una confianza del 95% si el estimador tiene distribución Normal y con una confianza 14 () , k ≥1 mayor del 75% si no tiene esa distribución. Además, si el tamaño muestral es mayor que 30, los estimadores que usaremos tendrán una distribución aproximadamente Normal, en virtud del Teorema central del límite. ˆ La expresión P  θ − θ ≤ B  = 1 − α tiene una segunda lectura. Dado que   ˆ ˆ ˆ ˆ P  θ − θ ≤ B  = P  − B ≤ θ − θ ≤ B  = P θ − B ≤ θ ≤ θ + B  = 1 − α       ˆ ˆ el verdadero valor del parámetro se encuentra entre los extremos del intervalo θ − B, θ + B con una confianza de 1 − α . 1.3.2 Errores de no muestreo ( ) Otro tipo de errores, más difícil de controlar, pueden ocurrir en la encuesta. Estos errores se llaman errores de no muestreo. En muchas encuestas, el error de muestreo cometido para esa encuesta puede ser despreciable en comparación con los errores que no son de muestreo. Los errores de no muestreo más comunes son: 1. Sesgo de selección. Este error ocurre cuando alguna parte de la población objetivo no está en la población muestreada. Una muestra así obtenida no es representativa de la población objetivo. 2. Sesgo de medición. El sesgo de medición ocurre cuando los datos observados difieren del valor verdadero. La obtención de respuestas precisas en las encuestas es fundamental pero esto a veces no se consigue por diversos motivos: A veces, las personas no dicen la verdad. Las personas no siempre comprenden las preguntas. Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera equivocada. La formulación y el orden de las preguntas tiene un gran efecto sobre las respuestas obtenidas. 3. No respuesta. La no respuesta de un individuo seleccionado para formar parte de la muestra puede causar un sesgo en los datos muestrales similar al sesgo de selección. Puede ocurrir que las personas que respondan no representen a la población bajo estudio. Los errores de no muestreo pueden controlarse con las siguientes acciones: 1. Reentrevistas. 15 2. Recompensas e incentivos. 3. Entrevistadores adiestrados. 4. Verificación de datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.4 Métodos de recolección de datos También el método de recolección de datos es fundamental en la reducción de los errores de no muestreo. Destacamos como métodos más habituales: (A) Entrevista personal. (B) Entrevista por teléfono. (C) Cuestionarios autoaplicados. (D) Observación directa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.5 Diseño del cuestionario Uno de los objetivos en cualquier diseño de encuesta es minimizar los errores de no muestreo que pueden ocurrir. Algunos consejos interesantes para la construcción del cuestionario son los siguientes: Decidir lo que se quiere descubrir. Verificar las preguntas antes de realizar la encuesta. Elaborar las preguntas de manera sencilla y clara. Prestar atención al orden de las preguntas. Decida si desea utilizar preguntas abiertas o cerradas. Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar. Utilice preguntas de opción forzosa. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.6 Planificación de la encuesta Teniendo en cuenta todo lo anteriormente expuesto, los siguientes aspectos deben de tenerse en cuenta en la planificación de una encuesta: 1. Establecer objetivos. 2. Población objetivo. 16 3. El marco. 4. Diseño del muestreo. 5. Método de recolección de datos. 6. Instrumentos de recolección de datos. 7. Selección y preparación de investigadores de campo. 8. Prueba piloto. 9. Organización del trabajo de campo. 10. Organización de la administración de datos. 11. Análisis de los datos. (Véase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.) 1.7 Razones para el uso del muestreo Entre otras muchas razones, destacamos: (a) Evitar la destrucción de la población. En algunos casos, una unidad de observación debe ser destruida para ser observada. En ese caso, un censo destruiría a toda la población. Por ejemplo el muestreo en el control de calidad. (b) Rapidez. Los datos se pueden reunir más rápido, de modo que las estimaciones se pueden publicar de una manera programada. Por ejemplo las elecciones. (c) Economía y precisión. El muestreo puede proporcionar información fiable con costes mucho menores que los de un censo. Las estimaciones basadas en las encuestas y sus respectivas muestras son, con frecuencia, más precisas que las basadas en un censo, pues los investigadores pueden tener más cuidado al reunir los datos. Un censo completo necesita, por lo regular, de una gran organización administrativa e implica a muchas personas en la recolección de los datos. Con tal complejidad administrativa y la presión por producir las estimaciones a tiempo, se pueden cometer muchos errores en la elaboración del censo. En una muestra, se puede dedicar más atención a la calidad de los datos, a entrenar al personal y realizar un seguimiento de quienes no contestan la encuesta. 17 2. Muestreo aleatorio simple. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. 2.2 Muestreo aleatorio simple en poblaciones infinitas. 2.2.1 Media, varianza y proporción muestrales: Propiedades. Error de estimación. 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis. 2.2.3 Determinación del tamaño muestral. 2.3 Muestreo aleatorio simple en poblaciones finitas. 2.3.1 Estimación de la media, proporción y total poblacionales. 2.3.2 Determinación del tamaño muestral. 2.1 Selección de una muestra aleatoria simple. Números aleatorios. Rutas aleatorias. Si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra así seleccionada se le llama muestra aleatoria simple. En el muestreo aleatorio con reemplazamiento el comportamiento de cada observación da lugar a variables aleatorias independientes e idénticamente distribuidas. El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus distribuciones marginales (no así las condicionadas) son idénticamente distribuidas pero falla la hipótesis de independencia. Si el número de elementos de la población es muy grande (poblaciones infinitas) la anterior distinción es irrelevante. En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona más información. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin reemplazamiento. En la práctica, la condición de que cada muestra tenga la misma probabilidad de ser seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la muestra. Para ello la selección de cada elemento de la muestra se hace sobre la base de un sorteo completamente aleatorio. Para facilitar la obtención de los resultados de ese sorteo aleatorio existen lo que se conoce como tablas de números aleatorios y que, junto con otras tablas, suelen aparecer en un apéndice al final de muchos libros de estadística. Cada vez más, estas tablas de números aleatorios son sustituidas por la generación de números aleatorios mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos números aleatorios con los elementos de la población necesitamos que ésta esté numerada, en caso contrario deberíamos formar una lista y numerarla. Esto último, en muchos casos, no es tan sencillo. Una alternativa a la formación de una lista numerada para la selección mediante números aleatorios de los elementos de la muestra es el método de las rutas aleatorias. Según 18 Como estimador de la media de la población. tomamos una muestra que respete esos tamaños.d. una muestra aleatoria simple de tamaño n estará representada por n variables: Y1.2. la siguiente (3) la planta del edificio y la última (2) la letra B de dicha planta.este método cada número aleatorio o grupo de números aleatorios describe el camino hasta el elemento de la muestra.).2 Muestreo aleatorio simple en poblaciones infinitas. 19 . (Observaciones en poblaciones infinitas y también en poblaciones finitas si se hacen con reemplazamiento nos conducen a variables i..i.1 Media. Muestreo por cuotas (o representativo).. 2.. varianza y proporción muestrales: Propiedades. así el número aleatorio 7836 podría interpretarse como que se selecciona la página 78 de la guía y dentro de ésta al abonado del teléfono que aparece en el lugar 36 de dicha página. EL NÚMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIÓN ALEATORIA.. Estos muestreos están sujetos al sesgo del investigador y conducen a estimadores cuyas propiedades no pueden ser evaluadas estadísticamente (incurrimos en errores de no muestreo). las dos siguientes (10) el número de la calle. seleccionamos una muestra que consideramos representativa de la población. las dos siguientes (07) la calle del distrito. las dos primeras cifras (11) indican el distrito de la ciudad. Por ejemplo si en la población hay un 65% de mujeres y un 35% de hombres.d. sobretodo si la entrevista es por teléfono.) 2. y . usamos nuestro criterio para seleccionar aleatoriamente la muestra. Error de estimación.i. Otros tipos de muestreo que se utilizan con cierta frecuencia son: Muestreo causal. respetando el tamaño relativo de los grupos que la integran. En muchos casos para llevar a cabo este procedimiento se recurre a la guía telefónica. se utiliza la media muestral. Supongamos que la característica en estudio de la población está representada por la variable Y (con media µ y varianza σ2). la forma adecuada de seleccionar una muestra aleatoria es mediante el uso de números aleatorios. Yn. µ. independientes e idénticamente distribuidas (i. Veamos cómo se aplicaría este método con un sencillo ejemplo: Se ha seleccionado el número aleatorio 11071032. por p p= 1 n ∑ yi . Este estimador tiene propiedades deseables como ser insesgado y tener mínima varianza E y =µ ( ) V y = ( ) σ2 n Como estimador de la varianza de la población.y= 1 n ∑ yi n i =1 Un valor aislado y del estimador revela poco acerca de la media poblacional. Yn. se utiliza la cuasivarianza muestral. 1 Este estimador. la proporción muestral. Yn son dicotómicas. S 2 . su media µ representa una proporción y se nota como p y el estimador de la misma. La varianza de la población es en este caso σ 2 = pq . . si Y → N ( µ .. Así. donde q=1-p. σ 2 . σ 2 ) y−µ σ 2 conocida → N (0.. Y1. como media muestral que es. sólo toman dos valores (0 y 1).. Como antes..1) σ n 20 .. aparte de las mencionadas. S2 = 1 n ∑ yi − y n − 1 i =1 E (S2 ) = σ 2 ( ) 2 que también tiene la propiedad de ser insesgado de forma que la varianza de la media muestral se estima de forma insesgada por V ( y) = S2 n Cuando las variables Y. deberíamos evaluar también su bondad.. n i =1 yi = 0. conoceremos más propiedades de la media muestral. Y1.. el estimador insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a S2 = n pq n −1 Si conocemos más características de las variables aleatorias Y. tiene las mismas propiedades mencionadas antes. 1) y= p (en la práctica. De forma que podemos conocer la probabilidad de que dicha variable tome determinados valores.1) S n si Y → cualquier distribución (por el Teorema Central del Límite) cuando n → ∞ σ ≈ (en la práctica. para n>30) n un caso particular del anterior es cuando Y → B(1.si Y → N ( µ .96 ≤ σ     n   o en un caso más general     y−µ P  − Zα ≤ ≤ Zα  = 1 − α σ 2 2     n   α=nivel de significación 1-α=nivel de confianza Para un nivel de confianza del 95% (el más habitual) se suele redondear el anterior valor 1. o dicotómicas. σ 2 ) σ 2 desconocida (en la práctica. p) .96≈2 De las probabilidades anteriores se puede hacer dos lecturas. p ) sigue o se puede aproximar. y .95 ⇒ P  y − µ ≤ 2  = 0. por ejemplo (tomando una de las anteriores expresiones de la media muestral tipificada.95 n n n   21 . La primera: σ σ  σ    P  −2 ≤ y−µ ≤2  = 0. por una distribución normal. si el tamaño de la muestra es suficientemente grande. para n > 30) y−µ → tn −1 ≈ N (0. para n>30) Todo lo anterior puede resumirse diciendo que la media muestral (de variables numéricas.95 P  −1. donde µ = p p− p ≈ pq n p− p n pq n −1 n = p− p pq n −1 → N (0.96  = 0.1) S n y−µ y−µ → N (0. siendo válido lo que sigue también para las otras)     y−µ ≤ 1. y − µ = error de estimación o diferencia entre la estimación que hacemos. En ese caso la desigualdad de Tchebychev nos da la respuesta. 22 . 2 σ n = cota o límite para el error de estimación.En esta última expresión aparecen valores y expresiones fundamentales en las técnicas de estimación: 1-α=0. con una confianza del 95%. es el máximo error de estimación que se S . en particular. 75 n  resultado parecido al que obteníamos anteriormente σ   P y−µ ≤ 2  = 0. entonces P  X − µ ≤ kσ  ≥ 1 −   1 k2 Aplicando lo anterior. µ.95 n  salvo que en este caso lo más que podemos asegurar es que la probabilidad de que y−µ ≤2 σ n es mayor de 0. Pero qué ocurre si no es así. n puede estar cometiendo. n n  Todo lo anterior se puede asegurar si el tamaño de la muestra es suficientemente grande. y el verdadero valor del parámetro que se quiere estimar. n>30.95 n n  expresa la confianza que tenemos de que el verdadero valor del parámetro µ se encuentre σ σ   entre los extremos del intervalo  y − 2 . En la práctica se estima por 2 La segunda lectura: σ σ   Py −2 ≤ µ ≤ y+2  = 0.95= nivel de confianza del 95%.75. La desigualdad de Tchebychev dice que si X es una variable aleatoria con media E ( X ) = µ y varianza V ( X ) = σ 2 . a la media muestral para k=2 se obtiene σ  1  P y−µ ≤ 2  ≥ 1 − 4 = 0. y .y+2 . Si dicha estimación puntual se acompaña de un margen de error (límite para el error de estimación) y de una medida de la certidumbre que se tiene en tal estimación (nivel de confianza). por ejemplo. Intervalos de confianza. La cantidad de información necesaria para conseguir lo anterior depende del tamaño de la muestra según la siguiente expresión 4 σ2 n = B2 ⇒ n = σ2 B2 4 = σ2 D . teniendo en cuenta que σ 2 = pq n= pq . a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta. 2 σ n = B . el intervalo de confianza para la media poblacional µ con un nivel de confianza del 95% es S S   . hablamos de intervalo de confianza. relación tema 2) Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. rechazándose en caso contrario. 23 .2.2 Estimación puntual.3 Determinación del tamaño muestral. Por ejemplo.2.2. D D= B2 4 Ejemplo 2. (ejercicio 13.y+2  y−2  n n  En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de que el verdadero valor de un parámetro de la población sea un determinado valor. 2.y+2  n n en cuyo caso se aceptaría la hipótesis nula. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. hacemos una estimación puntual. se quiere contrastar la hipótesis nula H 0 : µ = µ0 con un nivel de significación del 5%. Contrastes de hipótesis. D= B2 4 El caso de la proporción es análogo al de la media.1. En ocasiones se fija de antemano el máximo error de estimación que estamos dispuestos a aceptar en una estimación. Lo anterior equivale a comprobar si µ0 ∈  y − 2   S S  . Cuando estimamos el valor de un parámetro poblacional con el valor que ha presentado en una determinada muestra el estimador asociado. utilizando muestras grandes. 000726 n −1 B = 2 V ( p ) = 0.11% .825 p ∈ (12.d. Suponemos que la población es finita.5 n= pq = 1111.b) ¿Cuantas compras deberían observarse para estimar.3 Muestreo aleatorio simple en poblaciones finitas. Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. tiene N elementos. d) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. 000225 4 n= pq = 641. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5.89% ) V ( p) = pq = 0. 000225 4 p = q = 0.175 = 0. Solución: a) p= 1 n 35 ∑ yi = 200 = 0.i. 03 c) B = 0.600€ (siendo la cuasivarianza de los datos 625).175 n i =1 n = 200 q = 1 − 0. 6 ≈ 642 D n = 35 y= 1 n 5600 ∑ yi = 35 = 160€ n i =1 B = 2 V ( y ) = 8.) 24 . con un error inferior al 3%. 0539 b) B = 0. cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 3%. la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta.8571 n 35 2. y además que la muestra se selecciona sin reemplazamiento (en caso contrario estaríamos ante el modelo del muestreo aleatorio simple en poblaciones infinitas con variables i. 03 d) D= B2 = 0.1 ≈ 1112 D B2 D= = 0. 22. 45€ S 2 = 625 V ( y) = S 2 625 = = 17. En muchos casos N no está claramente definido o se desconoce.p. Para estimar la media poblacional. suele despreciarse si   ≥ 0. con un 95% de confianza.  N  Para calcular el límite para el error de estimación . se utiliza la media muestral 1 n ∑ yi n i =1 Este estimador es insesgado y su varianza decrece conforme crece el tamaño de la muestra µ=y= E y =µ ( ) V y = ( ) σ2  N −n   n  N −1  En este tipo de muestreo la cuasivarianza muestral no es un estimador insesgado de la varianza de la población E (S2 ) = N σ2 N −1  N −1 2  E S  =σ2 N   De lo anterior se sigue que la varianza de la media muestral puede ser estimada insesgadamente por 2  N −1 2  1  N − n  S  N − n  V y = S   =     N  n  N −1  n  N  ( )  S2  expresión igual a la del caso de poblaciones infinitas.  V ( y ) =  .p. 25 .f. según la desigualdad de Tchevychev. pero si 20  N −n N se supone suficientemente grande el c.p.).  N   N −n En la práctica el coeficiente c. Igual que en el caso de poblaciones infinitas.f. Pero en algunos casos. se omite. µ. se habla de un nivel de confianza del 95% cuando trabajamos con el coeficiente 1. se halla 2 V ( y ) .1 Estimación de la media. (A) Estimación de la media poblacional.95 o lo que es equivalente  N  si n ≤ 1 N = 5% N .3.96≈2.   ≅ 1. sólo se puede asegurar que este nivel es mayor de un 75%. salvo el coeficiente n    N −n   que se denomina coeficiente corrector para poblaciones finitas (c.2.f. proporción y total poblacionales. 000€ 2 V (τ ) = N 2 V ( y ) = 1000 × 20. Ejemplo 2. τ.(B) Estimación del total poblacional. Para estimar la proporción poblacional p . Solución: 2 Sn −1 N − n 45000 1000 − 300 = = 105 300 1000 n N V ( y) = 2 V ( y ) = 2 105 = 20.000 cuentas de las cuales se examinan 300. 49 ) = (1. Para hallar su varianza.000 ∓ 20. la referencia al límite para el error de estimación. 1. En lo sucesivo se dará el valor la varianza del estimador para los distintos tipos de muestreo.019. dado que se trata de una media usaremos la media muestral que tiene la siguiente notación en este caso 26 . 49 ) τ = N y = 1000 ×1040 = 1.019.000€2.060.2. Valiendo comentarios análogos a los hechos anteriormente.510 . el límite para el error de estimación con una confianza del 95% está dado por 2 V (τ ) .000 cuentas abiertas con un intervalo de confianza al 95%.490 ) = (1. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1. (ejercicio 1.040.060. 1. relación tema 2) Un auditor examina las cuentas abiertas con diferentes clientes de una empresa.51 . La media muestral de las cuentas fue y = 1. Suponga que existen 1.040€ y la varianza muestral (“cuasivarianza”) es S2=45. Para estimar el total poblacional.9) (1.490 ) (C) Estimación de la proporción poblacional. recordemos las propiedades de la varianza V (kX ) = k 2V ( X ) V ( X + Y ) = V ( X ) + V (Y ) Varianza estimada de τ V (τ ) = V ( N y ) = N 2 V ( y ) = N 2 S2 N − n S2 = N ( N − n) n N n ( X e Y incorreladas) Como en el caso de la media. 49 = 20.490€ (valor exacto 20. omitiéndose.040 ∓ 20. dado que µ = τ N ⇒ τ = N µ utilizaremos el estimador τ =Ny= N n ∑y i =1 n i .493.040. 49€ (1. para no repetirnos más. . 68%) 2 V ( p 2 ) = 0.p= 1 n ∑ yi .100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando Sean yi . 0016835 n −1 N 2 V ( p1 ) = 0.3. 70 (70%) p2 = ∑z i =1 i 100 = 0. estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. 21%) 2 V (τ 2 ) = 900 × 0. 0821 (8. n i =1 yi = 0. teniendo en cuenta que S 2 = V ( p) = S2 N − n pq N − n = n N n −1 N Para estimar el total poblacional de una variable dicotómica usamos τ =Np V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) pq n −1 2 V (τ ) = N 2 V ( p ) Ejemplo 2. Según la muestra ∑ yi = 70 i =1 100 ∑z i =1 100 i = 25 Usando los datos de la muestra. 0018855 n −1 N V ( p2 ) = p2 q2 N − n = 0. 25 = 225 2.. El número de observaciones necesarias para estimar µ con un límite para el error de estimación de magnitud B se obtiene resolviendo 2 V ( y ) = B 27 .3. (ejercicio 2.2 Determinación del tamaño muestral. La proporción de ellos que tienen algún tipo de trabajo.. 0868 (8. 1 n pq . 25 (25%) p1 q1 N − n = 0. Solución: 100 100 p1 = V ( p1 ) = ∑y i =1 i 100 = 0. 0821 = 73. análogamente para zi ). yi = 1 cuando responden SI. (i = 1.89 τ 2 = N p 2 = 900 × 0. zi responden NO. es igual a n −1 su varianza estimada.. relación tema 2) Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • • La proporción que votarán a un determinado representante de centro. 000€. obteniéndose n= Npq ( N − 1) D + pq D= B2 4 ( proporcion) D= B2 4N 2 (total ) En la práctica p se desconoce.  aunque la estimación insesgada de σ es N   Si no se dispone de información previa para estimar la varianza podemos usar que en variables normales el rango de la muestra es aproximadamente cuatro veces su desviación típica R2 16 σ≅ R 4 ⇔ σ2 ≅ La proporción poblacional p es la media µ de una variable dicotómica ( B (1. suponiendo p = 1 se obtiene un tamaño muestral conservador (mayor que el 2 requerido para obtener la cota del error de estimación prefijada).2 V ( y) = B ⇔ V y = V ( y) = ( ) B2 =D 4 σ2 N −n n N −1 =D ⇒ n= Nσ 2 ( N − 1) D + σ 2 Para estimar el total poblacional con un límite para el error de estimación B. (ejercicio 3. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600. 1. V ( X ) = pq ). 28 .4. se llega a la misma expresión de n pero con D = B2 4N 2 En la práctica la varianza poblacional σ 2 es desconocida. relación tema 2) Encuentre el tamaño de muestra necesario para estimar el valor total de 1. dado que 2 V (τ ) = N 2 V ( y ) = B . luego el problema de determinar el tamaño muestral se hace de forma análoga sustituyendo σ 2 por pq. Una aproximación al mismo se obtiene reemplazándolo por el valor estimado p obtenido en encuestas preliminares. p ) . E ( X ) = p .000 cuentas por cobrar con un límite para el error de estimación de 10. Si no se cuenta con información anterior. Si disponemos de S 2 de un estudio anterior podemos obtener el valor de n sustituyendo en la anterior expresión σ 2 por S 2 .400). Ejemplo 2. N −1 2   2 S . 40) p2 = proporción de estudiantes que apoyan al equipo decanal. 40 = = 93. Solución: p1 = proporción de estudiantes que prefieren los exámenes en sábado. 000625) + (0. 05) 2 = = 0. 05 ≈ 94 ( N − 1) D1 + p1q1 (2. 60 × 0.000 − 354 =2 = 0.0002 4σ ≅ 800 ⇒ σ ≅ 200 ⇒ σ 2 ≅ 40. 0489 (≅ 4. 60 × 0. (ejercicio 4.50) para cumplir con ambos objetivos habría que tomar n=354 con lo que el límite para el error de la estimación de p1 disminuiría (con un 95% de confianza) hasta: 2 V ( p1 ) = 2 p1 q1 N − n 0.50 × 0.50 = = 353. Ejemplo 2. 60 × 0.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer los exámenes en sábado con un límite para el error de estimación del 10%.000 × 0. 40 3. 000625 4 4 Np2 q2 3.000 o bien la cota del error de estimación del 10% se tiene con un nivel de confianza mucho mayor 29 .9%) n −1 N 353 3.999 × 0. La información previa disponible indica que el 60% preferían los exámenes en sábado.Solución: B2 10. se calcularán los tamaños muestrales que satisfacen los límites para el error de estimación fijados para cada estimación y finalmente el mayor de los dos será el tamaño de la muestra que satisface ambos límites. 0025) + (0.0002 D= = = 25 4 N 2 4 ×1. 0025 4 4 Np1q1 3. D2 = n2 = 2 B2 (0. relación tema 2) Los alumnos de TAM de una facultad con 3.999 × 0. Determínese el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados.10) 2 = = 0. D1 = n1 = B12 (0.50 × 0.000 × 0. 62 ≈ 616 ( N − 1) D + σ 2 Si se realizan dos preguntas (o más) a cada elemento de la muestra.000 Nσ 2 n= = 615. 04 ≈ 354 ( N − 1) D2 + p2 q2 (2.5. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error de estimación del 5%. prácticamente del 100%. relación tema 2) Se han entrevistado 1. 67 9 −1 V y = ( ) ( ) S2 = 3. .91. 67 ≈ 36 compras B B 1 4 4 2..963 n B = 2 V y = 3. 44. ¿Se puede afirmar que la mayoría de los habitantes están en contra? σ2 30 .09) se obtiene 0.87 ) b) No.87 ) S 2 35.s.09 .000 vecinos.99995684.10 ⇒ Zα 0.91..89 ) = 35. elegidos aleatoriamente entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales.89 − 3. 44. 67 c) n = 2 ≅ 2 = = 35. EJERCICIOS RESUELTOS 1.89 € 9 1 2 2 ( 33..Zα 2 V ( p1 ) = 0.5 32 52 43 40 41 45 42. (Ejercicio 17. 09 2 2 buscando en la tabla de la normal (o con ayuda de la hoja de cálculo Excel.5 39 a) Obtener un intervalo de confianza para el valor medio de las compras.98 € ( ) ( 40. 655 manifestaron su opinión desfavorable. porque 45 ∉ ( 36. 40..10 ⇒ Zα = 4. es decir.5 + . + ( 39 − 40. relación tema 2) Se selecciona una m. 4. + 39 = 40. (Ejercicio 19. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente.98 . b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? SOLUCIÓN: a) µ = y = S2 = 33..5 − 40.) la probabilidad comprendida entre (-4. 02445 = 0.89 ) + . Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación.98) = ( 36. VALOR en € 33.89 + 3..a. 49% . 01%) = (62.51%) p ∈ (62.51%) ⇒ habitantes están en contra p > 50% ⇒ sí se puede afirmar que la mayoría de los 3. (Ejercicio 18.000 1002 4 4 90.700-500=1.SOLUCIÓN: p= 655 = 0. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€?` SOLUCIÓN: Ri 2. 01% . 68. Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros.500 62.5% + 3. 01% (65. (Ejercicio 14.200=1000 1.500 90.200 y 2.000 p = 65.5% V ( p) = pq 0. El salario de los contratos fijos está comprendido entre los 1.500 = = 25 10.400 1202 4 4 n2 = σ 22 D2 = 2 σ2 B 4 2 2 = n = n1 + n2 = 50 4.000 = = 25 14. 0002262012 n −1 999 2 V ( p ) = 0.000 σ 12 D1 = σ 12 B 4 2 1 = 62. 655 ⇒ 1. 68. 65. 655 × (1 − 0. relación tema 2) Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. 655) = = 0. el salario de los contratos temporales está comprendido entre 500 y 1.200-1. 0301 ⇒ 3.700 euros mensuales.200 euros mensuales. los que poseen contrato fijo y los que tienen un contrato temporal. 49% .200 n1 = Ri ≈ σi 4 250 300 σ i2 62.5% − 3. siendo de casi 11000 31 .000 90. Se decide clasificarlos en dos estratos. relación tema 2) El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. 200 = 9.euros el de mayor cuantía.1 ≈ 75 ( N − 1) D + σ 2 D= B 2 0.000 R = 11. 47 ≈ 334 ( N − 1) D + pq Para conseguir estimar los dos parámetros con los niveles de error especificados necesitamos un tamaño muestral igual al máximo de 140 y 334.000 − 1.500 = 300 ⇒ σ ≅ D= B 2 102 = = 25 4 4 R = 75 σ 2 ≅ 5625 4 Nσ 2 n= = 74.800 ⇒ σ ≅ D= n= R = 2450 σ 2 ≅ 6. 65 ≈ 140 ( N − 1) D + σ 2 D= p = q = 0.000 4 4 Nσ 2 = 139.052 = = 0. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. relación tema 2) Se desea estimar el salario medio de los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: la cuantía media de los prestamos cometiendo un error de estimación menor de 400 euros y la proporción de préstamos pendientes de amortizar más de la mitad de la deuda cometiendo un error máximo del 5%? SOLUCIÓN: N = 2.022 = = 0. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? SOLUCIÓN: N = 110 R = 1. 5. 0001 4 4 32 . n = 334 .002. 000625 4 4 Npq n= = 333. (Ejercicio 15.500 4 B 2 4002 = = 40.5 B 2 0.800 − 1. 8 ⇒ τ = N y = 70 5 S2 12. relación tema 2) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. Véase ejercicio 10 de la relación del capítulo 6) b) p= 2 = 0. Calcule el límite para el error de estimación. (Ejercicio 16. relación tema 2) El consumo medio de combustible de los taxis de una ciudad es 5. en 600 taxis se monta un dispositivo para disminuirlo. 24 = 25 × 20 = 30 n −1 4 V (τ ) = N ( N − n) B = 2 V (τ ) = 10. 4 ≈ 106 ( N − 1) D + pq 6. Calcule el límite para el error de estimación. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. El número de bajas en el último año. Pasado cierto tiempo se 33 . Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil. SOLUCIÓN: a) N = 25 n=5 14 y = = 2.p = q = 0. Puesto que se considera que el consumo es demasiado elevado.6 litros cada 100 Km.9545 7. b) Estime el número de empresas que usarían los servicios ofertados. 7 = 25 × 20 = 1270 V (τ ) = N ( N − n) n 5 B = 2 V (τ ) = 71. 4 ⇒ τ = N p = 10 5 pq 0. (Ejercicio 21.5 n= Npq = 105. 2741 Nota: este apartado podrá resolverse de otra forma cuando estudiemos el muestreo por conglomerados. 94 '53% ) ( 0 '10 ) 4 2 = 0 '0025 n= Npq 600 × 0 '75 × 0 '25 = = 66 '77 ≈ 67 ( N − 1) D + pq ( 599 × 0 '0025 ) + ( 0 '75 × 0 ' 25 ) 8.1 19 5.4 15 5.3 11 3.9 8 5 13 5.00 44. elegidos entre los 600 que colocaron el dispositivo.2 18 4. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35. práctica 2) Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas.50 Estime el total del dinero adeudado y establezca un límite para el error de estimación. por tanto p= 15 = 0 '75 20 V ( p) = pq N − n 0 '75 × 0 '25 580 = = 0 '00954 n −1 N 19 600 2 V ( p) = 0 '1953 ( 0 '75 − 0 '1953 .toma una muestra aleatoria de 20 taxis.4 20 6.8 5 4. El consumo en litros de combustible por cada 100 Km.7 17 4.5 14 5.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.9 9 4.6 litros/100 Km.8 3 6.50 32. (ejercicio 1. 0 '9453) b) B = 0 '10 D= ( 55'47% .4 2 5.00 43. 0 '75 + 0 '1953) = ( 0 '5547 . 34 .7 4 3. se recoge en la siguiente tabla Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.5 7 5.00 41.6 16 5.4 6 6.00 42.5 10 4.4 12 6. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? SOLUCIÓN: a) 15 de los 20 taxis no superan el consumo de 5’6 litros/100 Km. 00 1849.50 32.SOLUCIÓN: yi 35. realizado en una pequeña ciudad.25 1024. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n − 1 = Sx de forma inmediata.25 ∑y i =1 n i = 238.00 ∑y i =1 n 2 i = 9556. (Ejercicio 16. en 51 habita al menos una persona mayor de 65 años. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.00 42.1667 = 2 100(100 − 6) = 381.00 44. según la guía de teléfonos más reciente.00 1806. La ciudad tiene 5000 hogares. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.00 1681.00 1936. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía. σ n = sx = desviación típica σ n − 1 = S x = cuasidesviación típica 9.6 6 2 S2 = 1 n ∑ yi − y n − 1 i =1 ( ) 2  n   ∑ yi  n ∑ yi2 −  i=1 n  1  2382  = i =1 =  9556.00 43. relación tema 2) En un estudio sociológico.1667 5 6  n −1 S2 23.50 yi2 1260. 02 n 6 2 V (τ ) = 2 N ( N − n) Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común.50 −  = 23.50 τ =Ny= N n ∑y i =1 n i = 100 238=3966. Al terminar la investigación de campo. de los 300 hogares muestreados. 35 .00 41. 00044359197 2 V ( p) = 0. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1.35 INTERV .563 S2 N − n = 0.3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? SOLUCIÓN: (con las funciones del modo SD de la calculadora) N=45. 21. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo.) n N Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza. 11. 4556 2 V ( y ) = 1. CONF . relación tema 2) Con objetivos benéficos.9 3.450. (Ejercicio 11. 21% ) = (12. (Ejercicio 8.: ( 3. una asociación filantrópica ha solicitado firmas para una petición en 700 hojas.. 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. n=5 V ( y) = y= 1 n ∑ yi = 5. n=300 p= 51 pq N − n = 0.91 min .2 5. n=50  n   ∑ yi  n ∑ yi2 −  i =1 n  S 2 = i =1 = 254 n −1 2 y= 1 n 1450 ∑ yi = 50 = 29 n i =1 36 . 26 n i =1 S2 = 1 n ∑ yi − y n − 1 i =1 ( ) 2 = 2. 10. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor.1 7.83 V ( p) = = 0. El taller tiene 45 operadores. 61 min . 79%.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? SOLUCIÓN: N=700.17 q = 1 − p = 0. ∑ Y i =1 i i =1 2 i = 54. relación tema 2) El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla.SOLUCIÓN: N=5000. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4. 0421 300 n −1 N 25% ∉ (17% ∓ 4. 6. por tanto no podemos aceptar esa hipótesis.8 5. 34 .400 n B = 2 V (τ ) = 3.040.300 ∓ 3. previsión más pesimista: 17.340 .259.340.259 37 . 66 ) Previsión más optimista: 23.040. 66 ) = (17. 66 ( 20.300 V (τ ) = N ( N − n) S2 = 2.τ = N y = 20.311. 23. 5 Estratificación después de seleccionar la muestra. llamados estratos. Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en conjuntos que no presenten intersección. este muestreo permite hacer estimaciones de los parámetros poblacionales para los estratos.2 3. a la derecha para la muestra): L = número de estratos N = tamaño de la población n = tamaño de la muestra N i = tamaño del estrato N = ∑ Ni i =1 L ni = tamaño de la muestra del estrato i n = ∑ ni i =1 L µi = media poblacional del estrato i τ i = total poblacional del estrato i y i = media muestral del estrato i 38 . Además de las estimaciones para toda la población. Antes de continuar fijemos la notación que va a utilizarse (a la izquierda para la población.1 Selección de una muestra aleatoria estratificada.3 3. 3.4. Estimación de la media. 3. Los estratos deben formarse de manera que los elementos de cada estrato sean lo más homogéneos que se pueda entre sí (más homogéneos que el conjunto de la población) y las diferencias entre un estrato y otro sean las mayores posibles. 3. Esta forma de construir los estratos conduce a muestras con poca variabilidad entre las mediciones que producirán pequeñas varianzas de los estimadores y por tanto menores límites para los errores de estimación que con otros diseños de la muestra. 3.4. 3.4. Otras ventajas adicionales que presenta este tipo de muestreo son las siguientes: A veces los estratos se corresponden con zonas compactas bien definidas con lo que se reduce el coste (en tiempo y/o dinero) de la muestra.1 Asignación óptima. Muestreo aleatorio estratificado.1 3. Asignación de la muestra.4 Selección de una muestra aleatoria estratificada. y la selección posterior de una muestra aleatoria simple en cada estrato.3.3 Asignación proporcional.2 Asignación de Neyman. 3. Determinación del tamaño muestral. proporción y total poblacionales. σ i2 = varianza poblacional del estrato i pi = proporción poblacional del estrato i Si2 = varianza muestral del estrato i p i = proporción muestral del estrato i ci = coste de una observación del estrato i 3. En cada estrato se ha realizado un muestreo aleatorio simple.2 Estimación de la media.A.S.) Varianza estimada de y st S2 N − n 1 L 2 1 L N i V ( y i ) = 2 ∑ N i2 i i i ∑ N 2 i =1 N i =1 ni N i (se obtiene aplicando las propiedades de la varianza mencionadas en el capítulo 2) V ( y st ) = Varianza estimada de τ st Si2 N i − ni V (τ st ) = N V ( y st ) = ∑ N ni N i i =1 2 L 2 i En el caso de variables dicotómicas los estimadores de la proporción y total poblacionales así como sus varianzas toman valores similares a los anteriores salvo las diferencias de notación vistas en el capítulo anterior. parece razonable estimar τ = ∑ τ i por i =1 L τ st = ∑ Ni y i y la media poblacional µ = i =1 L τ N mediante y st = 1 N ∑N i =1 L i yi NOTA: y st ≠ y en general ( y = media muestral de las n observaciones) τ st ≠ τ en general ( τ = N y = estimador del total según un M. sabemos que en cada estrato N i y i es un estimador insesgado del total τ i . Estimador de la proporción poblacional p p st = 1 N ∑N i =1 L i pi Varianza estimada de p st p q N −n 1 L 2 1 L N i V ( p i ) = 2 ∑ N i2 i i i i 2 ∑ N i =1 N i =1 ni − 1 N i Estimador del total poblacional τ V ( p st ) = τ st = N p st = ∑ Ni p i i =1 L 39 . proporción y total poblacionales. 57 S32 = 19. Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. para: y1 = 34. en horas por semana. 6 del barrio B. d) Todos los hogares Para todos los casos fije un límite para el error de estimación. (Ejercicio 1. 23 S 2 = 92. Solución: en primer lugar se calculan las medias y varianzas muestrales en cada estrato BARRIO B 25 20 30 14 41 39 BARRIO C 22 14 17 15 11 21 14 20 24 Estime el tiempo medio que se ve la televisión. con mediciones del tiempo que se ve la televisión en horas por semana. c) Los hogares del barrio C. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Los resultados.56 h / s S12 = 23. b) Los hogares del barrio B. práctica 3) Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio. y 9 del barrio C. 74 A partir de estos valores calculamos las varianzas de los estimadores de la media en cada estrato y los límites para los errores de dichas estimaciones N1 = 210 N 2 = 84 N 3 = 126 N = N1 + N 2 + N 3 = 420 n1 = 15 n2 = 6 n3 = 9 n = n1 + n2 + n3 = 30 40 . se muestran en la siguiente tabla: BARRIO A 26 34 36 32 38 39 29 37 38 35 41 28 41 37 29 a) Los hogares del barrio A. 67 horas / semana y 2 = 28.1.Varianza estimada de τ st V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 L p i q i N i − ni ni − 1 N i Ejemplo 3. 24 S 2 = 112. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A. 84 en el barrio B y 126 en el barrio C. Hay 210 hogares en el barrio A. se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. 28 y = 28.17 h / s 2 y 3 = 17. también se desea saber qué 1 N2 ∑N i =1 3 2 i V ( y i ) = 1.82 h / s Para el conjunto de todos los hogares el estimador de la media es 1 3 ∑ Ni yi = 28. 00748 N 2 i =1 i i y el intervalo de confianza expresado en porcentajes es V ( p st ) = 2 V ( p st ) = 0. 6667 9 La estimación puntual de la proporción de hogares del municipio donde se ve el programa es 1 3 ∑ Ni pi = 0. 22 h / s Ejemplo 3. 44 n1 N1 V ( y2 ) = 2 S2 N 2 − n2 = 17. 40 h / s 2 V ( y 2 ) = 8.173 41 . si se prefiere. (Ejercicio 2. 23 h / s N i =1 y la varianza de este estimador la podemos calcular basándonos en las varianzas de los y st = estimadores de la media en cada estrato mediante V ( y st ) = o.8333 6 p3 = 6 = 0.V ( y1 ) = S12 N1 − n1 = 1. 4667 15 p2 = 5 = 0.35 h / s 2 V ( y 3 ) = 2. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI SI NO SI SI NO SI SI SI NO SI SI SI SI SI SI NO NO NO NO NO SI NO SI NO SI SI NO NO SI Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. utilizando 1 3 2 Si2 N i − ni ∑ Ni n N N 2 i =1 i i el error para la estimación de la media para todos los hogares está dado por V ( y st ) = 2 V ( y st ) = 2. Solución: en primer lugar se calculan las proporciones muestrales en cada estrato p1 = 7 = 0. 60 N i =1 la varianza y error de estimación asociados son p st = 1 3 2 p i q i N i − ni ∑ Ni n − 1 N = 0. para decidir la conveniencia de insertar un anuncio en los intermedios del mismo.2. 42 n2 N 2 V ( y3 ) = S32 N 3 − n3 = 1. práctica 3) En el caso anterior.99 n3 N 3 2 V ( y1 ) = 2. 24 proporción de hogares ven un determinado programa. para poder usar la anterior ecuación necesitamos conocer las varianzas poblacionales de los estratos o valores aproximados de ellas. viene 1 dado por 2 V ( y st ) = B donde V ( y st ) = 2 N ∑N i =1 L 2 i σ i2 Ni − ni ni N i − 1 . No podemos despejar el valor de todos los ni de una sola ecuación a menos que conozcamos la relación entre los ni y n . En el caso de variables dicotómicas se obtiene una expresión similar.A. sustituyendo lo anterior en V ( y st ) se puede despejar n en función de los ωi obteniendo el tamaño muestral aproximado que se requiere para estimar µ con un límite para el error de estimación B (aproximado porque se hacen algunas modificaciones como N i − 1 ≅ N i .S. 4N 2 Al igual que en el M.( 60% ∓ 17. 4 4N 2 42 . para resolver la anterior ecuación).3 Determinación del tamaño muestral. teniendo en cuenta que en este caso particular σ i2 = pi qi n= ∑ i =1 L N i2 pi qi ωi N 2 D + ∑ N i pi qi i =1 L D= B2 B2 (para estimar p) y la misma expresión vale para el total tomando D = . para lo cual se pueden usar las varianzas muestrales de un estudio previo o conocer la amplitud de variación de las observaciones dentro de cada estrato..3% ) 3. Hay diversas formas de asignar el tamaño muestral n en los diferentes estratos ni = nωi (problema de la asignación de la muestra que estudiaremos más adelante) . El tamaño muestral para conseguir un límite para el error de estimación de la media. B.. 77.3% ) = ( 42. . n= 2 ∑ i =1 L N i2σ i2 ωi N 2 D + ∑ N iσ i2 i =1 L B D= 4 B2 y la misma expresión vale para el total tomando D = . 7%. La asignación que minimiza el coste para un límite para el error de estimación fijado se denomina asignación óptima y está dada por N jσ j cj ωj = ∑ i =1 L N iσ i ci sustituyendo los ω j en la expresión que obteníamos antes para n se tiene el tamaño total de la muestra según la asignación óptima n= ∑ Ni σ i ci i =1 L i =1 L ∑ i =1 L Ni σ i ci N 2 D + ∑ N iσ i2 En el caso dicotómico las anteriores expresiones toman los valores Nj p jq j cj i ωj = ∑N i =1 L pi qi ci n= ∑N i =1 L i pi qi ci L ∑N i =1 i =1 L i pi qi ci N 2 D + ∑ N i pi qi En algunas ocasiones interesa encontrar la asignación que minimiza el error de estimación para un coste fijo de obtención de la muestra. El mejor esquema de asignación está influido por: • • • El número total de elementos en cada estrato. Hay diversas formas de asignar el tamaño muestral n en los distintos estratos.4. en este caso la asignación óptima también es la respuesta y la elección de n viene dada por 43 . La variabilidad de las observaciones en cada estrato. 3.4 Asignación de la muestra.1 Asignación óptima. El coste de obtener una observación en cada estrato. El objetivo del diseño de una encuesta por muestreo es proporcionar estimadores con varianza pequeña (por tanto.3. pequeño error de estimación) al menor coste posible. Las expresiones de esta asignación son más simples que las de la óptima y se utiliza aún cuando los costes de observación no son idénticos.4.n= C∑ i =1 L i L N iσ i ci i ∑Nσ i =1 ci donde C representa el coste total de obtención de la muestra (véase ejemplo 3. las expresiones de la asignación óptima se simplifican y transforman en: Caso numérico N jσ j ωj = ∑Nσ i =1 i L i i L i n= (∑ N σ ) i =1 2 L i =1 2 N D + ∑ N iσ i2 Caso dicotómico ωj = N j p jq j ∑N i =1 i L i pi qi n= (∑ N L i =1 pi qi L ) 2 N 2 D + ∑ N i pi qi i =1 A este tipo de asignación se le denomina de Neyman. Cuando los costes de observación de cada estrato son los mismos. Si además de los costes coincide el valor de las varianzas en cada uno de los estratos las expresiones de la asignación óptima se simplifican y reducen a 44 . a veces.3).4.3 Asignación proporcional. sencillamente porque no se conocen.2 Asignación de Neyman. 3. que como acabamos de decir coincide con la asignación óptima cuando los costes de observación son iguales en todos los estratos. Análogamente para el caso dicotómico sustituyendo σ i = pi qi . 3. En la práctica se usa la asignación proporcional cuando se observan varias variables porque usualmente está cercana al óptimo y si se usa la asignación óptima obtendríamos distintas asignaciones para cada variable que se mide. Aclarémoslo con un ejemplo.Caso numérico ωj = L Nj N 2 i 2 i n= ∑N σ i =1 i ND + Caso dicotómico 1 N ∑Nσ i =1 i L ωj = L i Nj N i i n= ∑N pq i =1 ND + 1 N ∑N pq i =1 i L i i La asignación proporcional puede y suele utilizarse cuando las varianzas y costes de observación no son iguales para cada estrato.90 ⇒ n2 = 90 2ª estimación: n = 40 ω1 = 0.10 ⇒ n1 = 10 ω2 = 0. Con la asignación proporcional y tomando como n el máximo de los valores encontrados para cada estimación.50 ⇒ n1 = 20 ω2 = 0. En la asignación óptima y en la de Neyman los ωi dependen de las varianzas y pueden ser distintos de una variable a otra 1ª estimación: n = 100 ω1 = 0. estaremos utilizando estimadores. y st = y (análogamente para p st y el total). en muchos casos.50 ⇒ n2 = 20 45 . Cuando se toma más de una medición en cada unidad muestral para estimar más de un parámetro poblacional aparecen complicaciones en la asignación y determinación del tamaño muestral. con un límite para el error mucho más pequeño que el establecido. por la simplicidad de los cálculos y por las ventajas que presenta frente a los anteriores tipos de asignaciones: Cuando se utiliza la asignación proporcional el estimador y st coincide con la media muestral de toda la muestra. 3 30 420 luego la asignación utilizada ha sido la proporcional. 2 30 420 9 126 = = 0. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). así si en dos estimaciones para los niveles de error requeridos tenemos lo siguiente 1ª estimación: n = 100 ω1 = 0. (Como en el apartado anterior. Ejemplo 3. c) Supóngase que se tiene sólo 600€ para gastar en el estudio. determine el tamaño de la muestra y la asignación que minimizan el error de estimación.56 σ 3 = S32 = 19. En la asignación proporcional no ocurre lo anterior pues los ω j = Nj N son iguales para todas las variables al no depender de sus varianzas. se tiene garantizado que se cumple con los límites para el error fijados para todas las estimaciones. Se estima que el coste de una observación del barrio A es de 1€.1 a) ¿Qué tipo de asignación se ha utilizado? Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro.30 ⇒ n1 = 12 ω2 = 0. 9€ para el barrio B y 4€ para el barrio C. 70 ⇒ n2 = 70 2ª estimación: n = 40 ω1 = 0. b) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. 28 .3 (Ejercicio 1. tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos).5 30 420 ni N i = n N ∀i 6 84 = = 0. Solución: a) Podemos comprobar que se cumple que 15 210 = = 0. 24 46 σ 2 = S22 = 112.Aún tomando el mayor de los tamaños muestrales (100) y pasando la encuesta a 10 individuos del estrato 1 y 90 del estrato 2 no tenemos garantizado que se satisfaga el error de estimación fijado para la segunda estimación que necesita al menos 20 individuos de cada estrato. práctica 3) Continuando con el ejemplo 3. b) Según los datos anteriores estimaremos las varianzas de cada estrato por 2 2 2 σ 1 = S12 = 23.30 ⇒ n1 = 30 ω2 = 0. 70 ⇒ n2 = 28 tomando como n el máximo de los dos (o de los k si hay k variables que se observan). 0632 276.39 ≈ 24 n = 80 + 24 + 22 = 126 n3 = nω3 = 21. 78 ≈ 22 c) En el supuesto de que se disponga sólo de 600€ para realizar el estudio 600∑ i =1 3 n= N iσ i ci i ∑Nσ i =1 i 3 = ci 600 × 1586. 0679 = 198.1873 ω3 = 0.1744 n1 = nω1 = 79.8208 10.Ni σi 4. 71 ≈ 80 n2 = nω2 = 23. 25) + 16764. 25 4 4 n= ∑N σ i =1 i 3 i ci 3 ∑ i =1 i =1 3 Ni σ i ci N 2 D + ∑ N iσ i2 N1σ 1 c ω1 = 3 1 = 0.28 16764.89 ( 4202 × 0.72 D= B2 1 = = 0. 0579 = 124. 4436 × 1586.368 297. 47 . 72 ω2 = 0.04 2429. 6383n = 126.4 9455. 63 ≈ 34 o bien resolviendo la ecuación donde ni = ωi n c1ω1n + c2ω2 n + c3ω3 n = 600 n= 600 600 = = 198.0579 4880. 6383 Nσ ∑ ic i i =1 i = 4792.4436 1012.6094 4. 4436 y los tamaños de la muestra en cada estrato están dados por la asignación óptima n1 = 0.368 2673.1873n = 37.19 ≈ 37 n = 126 + 37 + 34 = 197 c1n1 + c2 n2 + c3 n3 = 600 n3 = 0. 75 ≈ 126 n2 = 0.1744n = 34. 0216 A partir de n se obtienen los ni = ωi n según la asignación óptima.57 c1ω1 + c2ω2 + c3ω3 3.6267 1586.57 4792.5688 1106.5068 4792.3909 ci Niσ i ci N iσ i ci N iσ i2 210 84 126 420 1 3 2 1012. 5 N i pi qi 52.3333 52.2671 11.5 0.5 0.9342 104.3955 195. (Supóngase que se realiza la entrevista por teléfono y el coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados.5 21 31.98 i pi qi análogamente n2 = 30. 42 ≈ 58 ⇒ n = 102 + 31 + 58 = 191 pi 0. 000625 4 4 n= (∑ N 3 i =1 i pi qi 3 ) 2 N 2 D + ∑ N i pi qi i =1 = 195.878 n1 = 204. 439 ≈ 103 análogamente n2 = 40. 000625) + 91.98 ( 4202 × 0.5 qi 0. 29 ≈ 102 195.5 0.3075 59. 46992 = 188. 7669 = 101. 46 ≈ 62 48 .9342 104. Solución: a) Ni pi qi N i pi qi N i pi qi 210 84 126 420 0.98 ≈ 41 420 n = 103 + 41 + 62 = 206 n3 = 61. 4699 n1 = nω1 = n N1 p1q1 ∑N i =1 3 = 188.6685 27.1667 0.4699 B 2 0.5 105 n= ∑N pq i =1 i i i 1 ND + N ∑N pq i =1 i L = 105 i i ( 420 × 0.4 (Ejercicio 2.6667 0.Ejemplo 3.878 210 = 102. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) b) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.8333 0.5 0.9986 91.2 a) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. 052 D= = = 0.5333 0.4667 0. 000625) + 105 420 = 204.7669 31. 27 ≈ 31 b) Ni 210 84 126 420 L n3 = 57. práctica 3) Continuando con el ejemplo 3. Se sabe que el 20% de la población de la comarca vive en el municipio 1. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. 20 × 507. esto suele ocurrir cuando los estratos no incluyen datos homogéneos. Ejemplo 3. Este problema queda bien ilustrado con el siguiente ejemplo.5€ n i =1 49 .5 ) + ( 0. 25 N y st = 1 N ∑ Ni yi = ∑ i =1 i =1 4 Ni y i = ( 0.5 (Ejercicio 1.30 × 505 ) + ( 0. aplica asignación proporcional. relación tema 3) Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios.5€ N Obsérvese que cuando se utiliza la asignación proporcional y st = y . el 30% en el municipio 2.El muestreo estratificado no siempre conduce a un estimador con menor error de estimación. efectivamente y= 1 20 10010 ∑ yi = 20 = 500. n1 = n Estrato 1 470 510 500 550 y1 = 507. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. 20 N 4 Solución: N2 = 0. N1 = 0. en un estudio regional también se quieren obtener estimaciones a nivel provincial) frente al objetivo de minimizar los errores de los estimadores. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio. Esto es debido muchas veces a que predomina el deseo de obtener estimaciones en cada estrato (por ejemplo. 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . 67 Estrato 2 490 500 470 520 550 500 2 y 2 = 505 S 2 = 750 Estrato 3 540 480 500 470 470 Estrato 4 450 560 460 440 580 2 y 3 = 492 S32 = 870 y 4 = 498 S 4 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación.5 S12 = 1091. N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). la cual conduce a N1 = 20 × 0. 25 × 492 ) + ( 0. 25 N N4 = 0. el 25% en el municipio 3 y el 25% restante en el municipio 4.30 N N3 = 0. 25 × 498 ) = 500. 5 Estratificación después de seleccionar la muestra.5 € n i =1 que coincide con el estimador del muestreo estratificado por las razones mencionadas anteriormente. podemos usar y st siempre que Ni sea conocido para todo i. 25  = 88. 04 20 n N 2 V ( y ) = 17.30  +  0. 3. 44 € Se observa que el error de estimación es menor en el caso del muestreo aleatorio simple. .p. esto es debido a que el distribuidor no tuvo en cuenta que el consumo varía mucho dentro del cuarto municipio. Entonces en lugar de usar y para estimar µ .. 79 = = 76. Luego esto no es una muestra aleatoria estratificada en su pleno sentido. N Obsérvese que en esta situación los ni son aleatorios. 67      2 750  2 870  2 4420  =  0.e. ya que varían de una muestra a otra aunque n sea fijo.f. los mismos 20 de la tabla anterior. Supóngase una muestra aleatoria simple de n personas para una encuesta. 29 4 6   5   5     2 V ( y st ) = 18.f. entonces el estimador de la media es y= 1 20 ∑ yi = 500.En la siguiente expresión consideramos los c. 25  +  0. colocando los hogares pequeños en un estrato. A veces no se sabe a qué estrato pertenece un dato hasta que no se observa (p.p. 79 € Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20 hogares.. 50 .): 2 S n −1 = 1520. Pudo haber obtenido un error menor si hubiera estratificado en base al tamaño de las familias u hogares. 79 V ( y) = 2 Sn −1 N − n 1520. en cada estrato iguales a la unidad 1 V ( y st ) = 2 N 4 2  N  S2 S2 N − n N2 S2 N i i i = ∑ i2 i = ∑  i  i = ∑ n N ni i =1  N  ni i =1 i =1 N i i 4 2 i 2 1091. estratos según sexo y entrevista telefónica). 202  +  0. esto es. pero la varianza estimada y error de estimación asociados toman los valores (se omite el c. los medianos en otro. La muestra puede ser dividida en n1 masculinos y n2 femeninos después de que ha sido realizada. 6 (Ejercicio 17. Dé un límite para el error de estimación. 51 . entonces la proporción de varones en la muestra va a ser pequeña. 225 60   40  N 2 ni i =1  N  ni  2 V ( y st ) =25. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. y se podría conseguir un estimador ajustado mediante la estratificación después del muestreo. es conveniente la estratificación después de que se ha seleccionado la muestra aleatoria simple.60=60/100) está muy alejada de la proporción verdadera (0.30). 70 × 52) = 65. Por ejemplo. N selección es casi tan exacto como el muestreo aleatorio estratificado con asignación proporcional. relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica.5) + (0. Si este método no debe usarse. y1 = y st = 5730 = 95. Solución: Ya que la proporción observada de facturas de hogares con calefacción eléctrica (0. Además el procedimiento se justifica pues tanto n1 como n2 superan 20.pero si Ni es conocido y ni ≥ 20 ∀i .302 +  0.30 × 95. 702   = 159. Ejemplo 3.24€ A veces este método de estimación se utiliza para ajustar por no respuesta. entonces este método de estratificar después de la N Ni se desconoce o no se puede tener una buena aproximación de su valor. si muchos de quienes no respondieron a una muestra aleatoria simple son varones.5€ 60 2 y2 = 2080 = 52€ 40 1 N ∑ Ni y i = ∑ i =1 i =1 2 Ni y i = (0. 05€ N 2 2 Si2 Ni − ni N2 S2 N − n = ∑ i2 i i i ni N i ni N i i =1 N V ( y st ) = 1 N2 ∑ Ni2 i =1 2 omitiendo el coeficiente corrector por poblaciones finitas se tiene V ( y st ) = ∑ i =1 2 2  N  S2  N i2 Si2 2002   902  = ∑  i  i =  0. relación tema 3) De una ciudad con 350 casas.721 159.13 74.19 = 2.118 245.721 a.624. 45 = = 2. (Ejercicio 10.19 ni N i 3502 2 2.Así. Ni ni yi Si2 Ni y i N i − ni Ni 164 186 350 24 36 972 463 202.50 350 V ( y st ) = 1 N2 ∑ Ni2 i =1 Si2 N i − ni 268.526 = 0.32 268.854 0. Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad.526 = 701.396 No eléctrica 36 463 96.s. Dé un límite para el error de estimación. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202.408 86.45 2 i y st = 1 N L ∑N y i =1 i L i 245. Dé un límite para el error de estimación. Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. b. en este ejemplo la baja representación en la muestra de facturas sin calefacción eléctrica y la alta de facturas con calefacción eléctrica conducen a una sobreestimación del valor medio de las facturas si se utiliza m. SOLUCIÓN: a.806 Si2 N i − ni N ni N i 193.96 52 .396 96. y no se ajusta la estimación de la media con la estraficación después de seleccionar la muestra: 5730 + 2080 7810 = = 78.699.925.10€ 60 + 40 100 y= EJERCICIOS RESUELTOS 1. se sabe que 164 de ellas tienen calefacción eléctrica.624.a. 5 2.0000 n1 = nω1 = 1.784.000 = 1. 0603 = 107.809n = 11.000 c1ω1n + c2ω2 n = 20.59 ≈ 107 n = n1 + n2 = 1784 O bien c1n1 + c2 n2 = 20.000 tienen teléfono.000 20.226 182.846.028.477.05/3.000 euros para realizar una encuesta sobre el número medio de coches por hogar.000 10.000 × 3. 726 Ni 9.0603 33.784.937.460.8 = n 11.17 n2 N 2 36 186 2 2. Suponga que las varianzas en los estratos con y sin teléfono son iguales.000 hogares de la ciudad. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? SOLUCIÓN: n= C∑ i =1 L i L N iσ i ci i ∑Nσ i =1 = C∑ i =1 L i L N iσ ci ci ci ∑Nσ i =1 = Cσ ∑ i =1 L L Ni ci σ ∑ N i ci i =1 = C∑ i =1 L Ni ci i ∑N i =1 L = ci 20. 206n = 20.937.17 = 2. 721 186 − 36 = = 2.05 182. y 2 = 463 V ( y2 ) = 2 S 2 N 2 − n2 96. 206 Y a partir de n se obtienen n1 y n2 como antes. (Ejercicio 11.028. Se sabe que de los 10. 624 = 1784.574 3.81× 0.81× 0.81 33.000 1.574/3. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado.000 ci 10 30 Ni ci 2.726 1.624=0. relación tema 3) Un analista de la opinión pública tiene un presupuesto de 20.9397 = 1677.028.624=0.784.9397 5.624 N i ci ωi 28. 2 ≈ 1677 n2 = nω2 = 1.000 9.397n + 1.94 2.b. 9.028. 53 .846. 15 N 2 Si N i − ni 1 = 1 ⇒ V ( y st ) = 2 Ni N ∑ Ni2 i =1 L Si2 N i − ni 1 = 2 ni N i N ∑ Ni2 i =1 L L L Si2 N2 S2 = ∑ i2 i = ∑ ni i =1 N ni i =1 2  N i  Si =    N  ni 60.3. 4252  +  0. determine cuántos pertenecerían al barrio 3.9 1. b) Si se asigna la muestra de 100 hogares de la mejor forma.56 25 y2 = 174 = 9.5 3. 24  =  0.7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio.9 3.6 3.30 × 9.8 S i 0.87 16 ∑ Ni y i = ∑ i =1 i =1 Ni y i = ( 0.107 25   19   16   2 1.1 4.56 ) + ( 0.30  +  0. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto.107 = 2. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera. SOLUCIÓN: y1 = y st = 1 N L L 239 = 9. obteniéndose los siguientes datos: Número de hijos ni i =1 n ∑ yi S i2 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. 425 × 9. (Ejercicio 12. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos. (Ejercicio 6.87 ) = 8. relación tema 3) Se desea conocer el número de fines de semana que las familias de una gran ciudad salen fuera de ella. 275  = 1.16 19 y3 = 78 = 4. relación tema 3) Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios. el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. (Suponga iguales los costes de observación) 54 .8 0. 01   2 78. 275 × 4. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3.2 0. 77    2 63.16 ) + ( 0. Omitir el corrector por población finita. Para ajustar sus tarifas desea estimar el gasto en pequeñas reparaciones de mantenimiento (objeto del seguro) de dichas empresas. 00973 ni N i B = 2 V ( y st ) = 0. El número de empresas de cada tipo. (Ejercicio 20. 725 i =1 L V ( y st ) = 1 N2 ∑ Ni2 i =1 L Si2 N i − ni = 0. 7) = 100 × 0.8) + (190 × 0. relación tema 3) Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación.9223) b) n3 = nω3 = 100 N 3σ 3 ∑Nσ i =1 i 4 = 100 i 350 × 1. Usamos que R≈4σ y por tanto estimamos que σ ≈ Ni ci ci 4 3 2 Ri R . 4 N iσ i ci σi ωi 100 16 500 9 700 4 600 = 16n1 + 9n2 + 4n3 600-400 50 360-240 30 130-70 15 ( ni = ωin ) 1250 0’1087 5000 0’4348 5250 0’4565 11500 1 600 = 1’7392n + 3’9132n + 1’826n = 7’4784n 55 . 2 = (240 × 0. Se clasifican las empresas en función de su tamaño. ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? SOLUCIÓN: La asignación que minimiza la cota del error de estimación para un coste fijo es la asignación óptima.82 ≈ 45 5.9) + (350 × 1. 4482 = 44. el coste de obtención de esta información en cada empresa así como los valores mínimos. 2) + (220 × 0. 3.1973 µ ∈ ( 3.SOLUCIÓN: a) N = ∑ N i = 1000 i =1 L y st = 1 N ∑ Ni y i =3.5277 . 000.460 788.16 i =1 i i 2 29.000 16. (Ejercicio 14. relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión.85185 N i2 2.16 = 10.460 y st = 1 V ( y st ) = 2 N L 1 N ∑N y i =1 i 2 i L i 975.399. (Ejercicio 13.000 Ni y i N i − ni Ni 0.700 400 250 9.200 100 400 500 120 250 300.399.5 5. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio.000 = 187.700 5.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error.000 = Si2 N i − ni ni N i 540.000 16.500 2.500 100 120 MUJERES 2. SOLUCIÓN: Ni ni yi Si2 9.000 248. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres.96 0.8 7.460 ∑ N n N = 5. Se lleva a cabo la encuesta por teléfono mediante 56 .399.000 675. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni ni yi HOMBRES 2.n = 600/7’4784 = 80’231 n1 = ω1n = 8’72 ≈ 8 n2 = ω2n = 34’88 ≈ 34 n3 = ω3n = 36’63 ≈ 36 C = (16×8) + (9×34) + (4×36) = 578 < 600 C’ = (16×9) + (9×35) + (4×37) = 607 > 600 pero 6. relación tema 3) En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio.2002 = 29.200 Si2 N i − ni 788.000 975. la corporación decide usar muestreo estratificado.502  +  0. Obreros Técnicos Administrativos Si2 Ni 36 132 25 92 9 27 57 . 0687 ⇒ 6.52 ) = 0.87% 8. relación tema 3) Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados.50  = 0. Ya que los obreros. No habiendo diferencia entre los costes de observación de cada grupo.38 ⇒ p st = 38% N Si N i − ni =1 ⇒ Ni V ( p st ) = 1 N2 ∑ Ni2 i =1 L p i q i N i − ni 1 = 2 ni − 1 N i N ∑ Ni2 i =1 L L L pi qi N2 p q = ∑ i2 i i = ∑ ni − 1 i =1 N ni − 1 i =1  Ni  pi qi =    N  ni − 1 2 0. (Ejercicio 15. Después de obtenidos los datos se observa que sólo 50 de los encuestados fueron hombres y el resto mujeres. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error. y de datos actuales se obtienen los tamaños de los estratos. 76    2 0.52 q i = 1 − p i 250 ∑N i =1 L i pi = ∑ i =1 L Ni p i = ( 0.52 × 0. 0011812146 49 249     2 V ( p st ) = 0. 24 50 p2 = 130 = 0. en un determinado mes.una muestra aleatoria simple de 300 números de teléfono.50 × 0. 24 × 0. 24 ) + ( 0. determine la mejor asignación para una muestra de 40 empleados. técnicos y administrativos tienen diferentes tasas de accidentes.50 × 0. 48  =  0. formando con cada grupo un estrato. SOLUCIÓN: p1 = p st = 1 N 12 = 0. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos. 000 2. relación tema 3) La producción de piezas de una factoría se realiza en dos máquinas. 4795 = 95.042. SOLUCIÓN: Ni 5. Estimar la proporción de piezas defectuosas de la factoría y dar el límite de error de estimación.1909 = 38. relación tema 3) Se dispone de la siguiente información sobre tamaños poblacionales de los estratos.333 = 0.9 ≈ 96 n2 = 200 × 0. siendo 6 de ellas defectuosas. 4795 1.3296 = 65.10 0.042.3451 = 13.8 ≈ 24 i ∑Nσ i =1 i L n2 = 40 × 0.5941 = 23.8 ≈ 14 n3 = 40 × 0. 695 1 Donde se ha aplicado la asignación óptima: Nj p jq j cj i n1 = 200 × 0. 67 producidas por la máquina A y dos de ellas resultaron defectuosas.70 qi 0.30 pi qi 0. 695 = 0. 58 .333 1. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B.4975 0.3 0.SOLUCIÓN: Ni 132 92 σ i ≈ Si 6 5 Niσ i 792 460 ωi 792 460 1.042. (Ejercicio 19.9 ≈ 66 n = 200 ωj = ∑N i =1 L pi qi ci 10. costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. 0608 27 3 81 1. Omita el coeficiente corrector por población finita. Se les pasó control de calidad a 200 piezas.5941 = 0. 695 = 0. 2 ≈ 38 n3 = 200 × 0. las 133 restantes procedían de la máquina B.45 0. 4 ≈ 2 n = 40 9.695 500 199 ωi = 0.90 0. 0608 = 2.1909 1.333 81 = 0.000 3.45826 Ni pi qi ci 500 199 343. (Ejercicio 16.042.3451 1.000 ci 3 5 4 pi 0.695 1.3296 1.55 0.333 1 Donde se ha aplicado la asignación de Neyman al ser los costes de observación iguales: ωj = N jσ j n1 = 40 × 0. 695 343. 000188 ( ) ( ) B = 2 0. 00267 19 79 2 V ( p st ) = 0. 13 son defectuosas.045 pi qi ni − 1 0.8375 + ( 0.602 × N 2 × 0.000326 ) = 2 ( N = ( 0. Un establecimiento dispone de 300 piezas pequeñas.40 × N × 0. De entre los circuitos integrados muestreados de la operación A. y fije un límite para el error de estimación.9% ) ( ) 1 0.15 × 0. (Ejercicio 18.000441) + ( 0.030 ) + ( 0.40 × N 0.40 × 0.85 2 0.60 × N × 0. mediana y grande.3% ) 12. relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B.000188 = 0.000326 p= 1 ( ( 0. SOLUCIÓN p st = 1 N ∑ Ni pi = ∑ i =1 i =1 L 2 i L L Ni 3   13   p i =  0. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. atendiendo al calibre.SOLUCIÓN: Estrato A B Ni 0. 500 medianas y 200 piezas grandes.000441 0.402 × N 2 × 0. relación tema 3) Para la comercialización de un producto se le clasifica. 3 son defectuosos. en tres categorías: pequeña.000441) + ( 0. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B.030 ) + ( 0. 40 ) = 0.000326 ) = 0.039 N V p = ( 3. 60  +  0.74% ) 11. 40  = 0. (Como ejercicio 3. resultando 59 .0274 ( 2.1625 × 0. 60 ) 2 L L p i q i N i − ni N i2 p i q i ∑ N n −1 N = ∑ N 2 n −1 = ∑ i =1 i =1 i =1 i i i  Ni  pi qi =    N  ni − 1 0.402 × 0.045) ) = 0.60 × N N ni 67 133 200 pi 2/67=0.5% ) 1 V ( p st ) = 2 N = ( 0.602 × 0. Estime la proporción de los defectuosos en la población.60 × 0.155 N 20   80   2 (15.103 (10. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías.030 6/133=0.045) ) = ( ( 0. De entre las piezas muestreadas de la operación B. 20. 20. 33.000 D= = = 0. De entre los circuitos integrados muestreados de la operación A. 66 2 i 2 B2 250. 33. De entre las piezas muestreadas de la operación B. Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados.1925 0.6418 0. 79 ≈ 14 45. 34 Considerando los anteriores datos como una muestra previa. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. 24.8257 σ 2 i Niσ i 424.000 (∑ N σ ) i i 2 L i =1 13. 12 Mediana 6 16. estime la proporción de los defectuosos en el lote.3333 N jσ j Ni 300 500 200 N = 1000 σi 1.Categoría Nº de piezas Peso en gramos Pequeña 5 12.8257 S32 = 3. y establezca un límite para el error de estimación. 34 S3 = 1. 66ωi i 2 8 3. 24. 0625 2 4N 4.6 n= N iσ 2 i ωj = ∑Nσ i =1 i L ni = 71. 4142 S12 = 2 2 S2 = 8 16. 12.000. 15. 12. a.66 5266. 14. 18 Grande 4 30. 31. relación tema 3) Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble.99 ≈ 46 11. 15.66 L i =1 0. 20. 22. (Ejercicio 3.2 365.26 1414.4142 2.14 2203.87 ≈ 12 n = 72 N D + ∑ N iσ 13. 14.8284 1. 12 (con las funciones del modo SD de la calculadora) S1 = 1.8284 30. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. 22.1657 1 = 71.3333 600 4000 666. 16 son defectuosas. 31. obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. 20. SOLUCIÓN: Peso en gramos 12. 18 S 2 = 2. 2 son defectuosos. 60 . 60  +  0. las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21. 0772 = 0. Estratifique la muestra.90 2 0.b. p = pq 18 = 0. Para contrastar la posible demanda de este producto. Usando los índice 1. 61 . después de la selección.10 × 0. 00203 19 79 2 V ( p st ) = 0. esto ocasiona que en el apartado a. (Ejercicio 4. 20 × 0. 01% ) c. Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%). 40 ) = 0. relación tema 3) Una cadena de restaurantes tiene 100 establecimientos en Madrid. 2 y 3 para designar Madrid. Barcelona y Sevilla. Dar un límite del error de estimación. la estimación esté sesgada hacia el valor de B ( p 2 = 0. En el apartado b. ¿Qué respuesta encuentra más aceptable? ¿Por qué? SOLUCIÓN: a. 5 de Barcelona y 5 de Sevilla. 0901 ( 9. respectivamente. 60 ) 0. 70 en Barcelona y 30 en Sevilla. lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid.60 y 0. 40  = 0. y fije un límite para el error de estimación. 001491 2 V ( p ) = 0. predominando los elementos de B (80) frente a los de A (20).1 S1 = 12 S 2 = 11 S3 = 9 a.18 (18%) V ( p ) = n −1 100 1 N ( 7. 2 y2 = 13. c.40 respectivamente para estimar p. la muestra global no representa adecuadamente este hecho. 14. 20 ) frente al de A ( p1 = 0. La dirección está considerando añadir un nuevo producto en el menú.10 ).80 + ( 0. 72% ) b.14 N 20   80   L L p i q i N i − ni N i2 p i q i ∑ N n −1 N = ∑ N 2 n −1 = ∑ i =1 i =1 i =1 i i i L 2 i 2 (14% )  Ni  pi qi =    N  ni − 1 2 1 V ( p st ) = 2 N = ( 0. este hecho se corrige dando a p1 y p 2 las ponderaciones 0. en circuitos integrados provenientes de la operación A y B.3 y3 = 26. estime la proporción de los defectuosos en la población. Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. p st = ∑ Ni pi = ∑ i =1 i =1 L L Ni 2   16   p i =  0. 02 pedidos / semana 1 N2 ∑N i =1 L 2 i Si2 N i − ni = 6. y st = V ( y st ) = b.31 ≈ 24 14. Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos.1205 1 = 43.52 2 i 2 B2 9 D= = = 2.17 pedidos / semana 200 2 V ( y st ) = 5. 24 ≈ 6 n = 45 N D + ∑ N iσ 62 . Ni 100 70 30 N = 200 1 N ∑N y i =1 i L i = 3834 = 19. SOLUCIÓN: a.b. 2965 ni N i σi 12 11 9 σ 2 i Niσ i 1200 770 270 2240 N iσ 2 i ωj = N jσ j ∑Nσ i =1 i L ni = 43.3438 0.5357 0.96 ≈ 15 5. 25 4 4 n= (∑ N σ ) i =1 i i 2 L i =1 23.52ωi i 144 121 81 14400 8470 2430 25300 L 0. 1 Estimación de la media y total poblacionales. Aquí suponemos que el muestreo que se emplea es el aleatorio simple Ejemplo 4.2 Determinación del tamaño muestral.2 Estimación de razón.1 Introducción.3. 4. y n ) A través de los datos muestrales se puede estimar la relación existente entre ambas variables. 4. Observemos que esto se puede llevar a cabo sin necesidad de conocer el número de empleados de la empresa. se puede estimar el valor total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas de dichos empleados. 4.. Esta circunstancia es importante cuando se pretende estimar el total sin conocer el número de elementos de la población y sí el valor total de la variable que proporciona la información auxiliar Denotemos por Y → Variable bajo estudio X → Variable que proporciona la información auxiliar Y supongamos que tenemos una muestra constituida por n pares: (x1 . como puede ser la media o el total poblacional.3.4.1 Estimación de la media y total poblacionales.2 Determinación del tamaño muestral.2. 4. 4.3 Estimación de regresión. Dependiendo de la relación entre las variables X e Y utilizaremos: • Estimadores de razón ( y = bx ) 63 .4.4 Estimación de diferencia. 4. Ya que existe una fuerte relación entre renta y ahorro. y1 ). ( x n . Distintos diseños de muestreo pueden utilizarse con la estimación con información auxiliar.1 Estimación de la media y total poblacionales.4. el 10% de la renta se dedica al ahorro y si se conoce la renta total. el ahorro total se estima igual a la décima parte del total de la renta. por termino medio.2.1... para estimar la media o el total de la otra variable. Muestreo con información auxiliar.. Por ejemplo. 4.2 Determinación del tamaño muestral. 4.1 Introducción. Si entre dos variables existe una fuerte relación es posible utilizar la información auxiliar que de una de las variables se tenga. 4. 4. si se estima que. 4. se define la razón como el cociente: R= τy τx Es decir.. entonces para estimar la media y el total de Y sólo hay que estimar el valor de R (que notaremos como R = r ): τˆy = rτ x ˆ µ y = r µx Puesto que la razón R es el cociente entre las medias poblacionales... obtenemos R= µY µX De estas definiciones se deduce que τ y = Rτ x µ y = Rµ x Por tanto. 2 4.. tomando una muestra aleatoria simple: ( y1 . Sr = ∑ ( yi − rxi ) n − 1 i =1 µx n  N   64 . si se conocen los valores de la media y el total de la variable X . la proporción del total de Y respecto del total de X . Puesto que τ y = Nµ y y τ x = Nµ x . x n ) .• • Estimadores de regresión ( y = a + bx ) Estimadores de diferencia ( y = a + x ) Cualquiera de estos estimadores sólo se debe utilizar si entre las dos variables existe una fuerte relación lineal positiva ( rxy > 1 ). x1 ). ( y n . podemos estimar R tomando el cociente entre las medias muestrales: 1 n y y n∑ i i =1 r= = = x 1 n ∑ xi n i =1 • ESTIMADOR DE LA RAZÓN: ∑y ∑x i =1 i =1 n n i i • VARIANZA ESTIMADA DE r : 1 n 1 S2  N − n  2 2 ˆ V (r ) = 2 r  .2 Estimación de razón Dada una población de tamaño N en la que se consideran las variables X e Y . donde X es la variable explicativa e Y la explicada. para estimar µ y necesitamos conocer el verdadero valor de µ x . Se sabe que el total de superficie plantada es de 65 . Sin embargo.4. A la hora de estimar el total.2. • • Son estimadores sesgados. si µ x es desconocida y no podemos utilizar la relación ˆ anterior entonces µ x ≅ x . relación tema 4. • VARIANZA ESTIMADA DE τˆ y : 2 2 ˆ (τˆ ) = τ 2V (r ) = τ x S r  N − n  ˆ V y   x µ x2 n  N  Comentarios sobre el uso de estos estimadores: • Cuando N es desconocido y si estimamos que n ≤ 5% N (el tamaño poblacional es más de 20 veces el tamaño de la muestra).s (τˆ = Ny ) . • • en este contexto se nota b = r dado su significado ) ESTIMADOR DE LA MEDIA: ˆ VARIANZA ESTIMADA DE µ y : ˆ µ y = rµ x 2 ˆ (µ ) = µ 2V (r ) = S r  N − n  ˆ V ˆy   x n  N  • ESTIMADOR DEL TOTAL: τˆ y = rτ x Observemos que no es necesario conocer el tamaño de la población N.95 . conociendo dos de esos elementos se puede calcular el Ejemplo 4. pasa por el origen. ( y = bx.1 Estimación de la media y el total poblacionales Hemos de suponer que entre X e Y existe una alta correlación lineal positiva y que el modelo lineal. aún conociendo el tamaño de la población. es decir que N −n ≥ 0. cuando existe una fuerte correlación entre las variables se comporta mejor el muestreo con información auxiliar (τˆ y = rτ x ) que el m. entonces N N −n ≅ 1 .a. τx N . (Véase ejercicio resuelto 4) N • De la relación µ x = tercero. • ˆ A la hora de obtener V (τˆ y ) . apartado (a)) Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola.2 (Ejercicio 2. 7 4.1 5 5. tm)" X = "superficie plantada (hectáreas.6 120 24 140 86.7 6 3 7 5.25 yi2 144 196 121 225 256 144 576 225 324 400 64 400 256 196 324 xi yi 44.5 102.5 16 3.44 64 26.1 11 5 15 5.840 hectáreas.01 32.81 25 30..4 61.7 18 6 20 3 8 7 20 5.7 12 4.6 17 5 15 7. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción.2 22 Estime la producción media y total mediante los estimadores de razón y m.a.49 16.s.4 14 5.2 45.1 5. ha)" xi 3.5 18 5 15 5.4 5. Solución Y = " producción (toneladas.25 14.69 18.16 19.3 4.1 75 88 45.36 30.6 99 66 .8 12 8 24 5.4 16 4. calcule sus respectivos límites para el error de estimación y compárelos.4 60.6 192 76.5 3.3 14 4.49 36 9 49 29.8 8 5.5 yi 12 14 11 15 16 12 24 15 18 20 8 20 16 14 18 xi2 13.9 18 5. Los resultados fueron: Superficie Producción 3.3.1 15 5.4 4. 9 5. (s .36 25 51. es lógico que la relación pase por el origen (a 0 ha de superficie le corresponde una producción de 0 tm). 4304 = 1.9 n i =1 sxy = 1 n 1 n 1770. Esto junto con la   sx s y 1.5057 n −1 19 2 Sy = n 2 20 s y = 13. 2 ∑ xi = 20 = 5.840 ha ∑ xi = 105. 262 = 1. 2 x= y= 1 n 105.2 95. 2 i =1 ∑ yi = 320 i =1 2 sx = n ∑ xi2 = 581.81 31.84 225 324 289 225 484 75 106. s ) x y y cuasidesviaciones Los anteriores cálculos que se han realizado a mano o con ayuda de una calculadora básica se simplifican notablemente si utilizamos una calculadora científica de uso común. 26 × 16 ) = 4.9 = 14.4 581.9756  .TOTALES 5 5.96 ∑ xi − x = 20 − 5. 728   información auxiliar que disponemos de la variable X justifica el uso de estimadores de razón.2 15 18 17 15 22 320 25 34.2 Del enunciado y de la tabla anterior obtenemos n = 20 n N = 750 socios τ x = 3. 4304 n i =1 s2 = y 1 n ∑ yi − y n i =1 ( ) 2 = 2 1 n 2 5398 ∑ yi − y = 20 − 162 = 13.35 La relación entre las variables es alta  rxy = xy = = 0.2 105. Estas calculadoras nos proporcionan los valores de un grupo de funciones estadísticas ∑x 2 ∑x x σ n = sx σ n − 1 = S x de forma inmediata.2 75 158.96 5398 1770. dado el contexto.35 ∑ n i =1 n i =1 20 ( )( ) Si queremos calcular las cuasivarianzas. σ n − 1 = S x = cuasidesviación típica σ n = sx = desviación típica   s 4. 67 .96 i =1 n ∑ yi2 = 5398 i =1 n ∑x y i =1 i n i = 1770. a partir de las varianzas se tiene: S x2 = n 2 20 sx = 1.6 5 7. S y ) . 2 xi − x yi − y = ∑ xi yi − x y = − ( 5.196 × 3. 26 n i =1 1 n 320 ∑ yi = 20 = 16 n i =1 1 n ∑ xi − x n i =1 ( ) 2 = 2 1 n 2 581. 6316 n −1 19 y hallando las raíces cuadradas obtenemos las desviaciones típicas ( S x . Por otra parte. 57 tm/socio τ 3840 µ = x= = 5.680.47 V     20  750  n  N  Bτ = 2 400. 712 = 1. 6 tm x N 750 ˆ µ y = r µ x = 3.5 tm (no coinciden los dos procedimientos por los errores de redondeo en el valor de Bµ ). 320 y= = 16 tm / socio 20 2 ˆ y = S  N − n  = 14. 706  S2  N − n  ˆ ˆ V (µy ) = r   = 0. A continuación lo estimaremos utilizando muestro aleatorio simple.265.12 = 15.r= ∑y ∑x i =1 i =1 20 20 i = 320 = 3.2.37 tm/socio 2 2 2 ˆ (τˆ ) = τ x Sr  N − n  = N 2 Sr  N − n  = 19. 4. la media y el total no supere una cota de error de magnitud B n= 68 Nσ r2 σ r2 + ND .539. 042 × 3. 75 V y   µ x2 n  N  n  N    ⇒ ˆ Bτ = 2 V (τˆy ) = 278.539. 69 tm / socio τˆ = Ny = 750 320 = 12. 042 × 5.000 tm 20 2 ˆ (τˆ ) = N 2 S  N − n  = 750 2 14. 0344 n  N  ⇒ ˆ ˆ Bµ = 2 V ( µ y ) = 0. 2 i τˆy = rτ x = 3.63  750 − 20  = 400.840 = 11.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón. 712 V     20  750  n  N  ( ) Bµ = 2 0.12 ha / socio Sr = 2 20 1 20 1  20 2 2 20 2 2 yi − rxi ) = yi + r ∑ xi − 2r ∑ xi yi ∑( ∑ n − 1 i =1 n − 1  i =1 i =1 i =1    =0. 47 = 1.326.76 tm o Bτ = 750 × Bµ Observemos que el límite del error de estimación es mucho mayor que el cometido utilizando estimadores de razón. 04 tm o Bτ = 750 × Bµ = 750 × 0.37 = 277. 042 tm/ha 105. 63  750 − 20  = 0. 3 (Ejercicio 2. ˆ2 Si µ x es desconcocido. 7 ≅ 38 socios 2 B  2002  2 σr + 0. apartado (b)) Supongamos que queremos reducir el límite para el error de estimación (LEE) de la media a 0. 252  0.3 Estimación de regresión El uso del estimador de razón es más efectivo cuando la relación entre las variables X e Y es lineal y pasa por el origen de coordenadas (en este caso proporciona estimadores insesgados). En el modelo lineal simple Y = a + bX . 706 = = 37. 706 = 42.25 tm/socio y el LEE del total no debe superar las 200 tm ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución MEDIA: n = Nσ r2 σ r2 + N TOTAL: n = Nσ r2 B 4 2 = 750 × 0.donde para estimar: • • • Comentarios: la razón: la media: el total: 2 B2µx D= 4 B2 D= 4 B2 D= 4N 2 • • ˆ σ r2 se estima utilizando una muestra previa (tamaño n' ): σ r2 = S r2 . En caso de relación lineal que no pase por el origen de coordenadas es preferible utilizar estimadores de regresión. µ x = x 2 Ejemplo 4. relación tema 4. 4. 706 +  750 ×  4   σ r2 + N B2 4N 2 = Nσ r2 750 × 0. 706 +   4N  4 × 750  Necesitamos al menos 43 socios para cumplir con ambos niveles de error.6 ≅ 43 socios  0. el método de mínimos cuadrados permite estimar a y b de la siguiente forma: 69 . No se puede estimar como τˆ yL = a + bτ x ya que la recta de regresión no pasa por el punto (τ x .1 Estimación de la media y el total poblacionales • • ESTIMADOR DE LA MEDIA: ˆ ˆ ˆ ˆ ˆ ˆ µ yL = a + bµ x = y − bx + bµ x = y + b ( µ x − x ) S2  N −n ˆ ˆ ˆ VARIANZA ESTIMADA DE µ yL : V (µ yL ) = L   n  N  2 siendo S L la varianza residual en el modelo lineal simple: 1 n ˆ S = ∑ yi − y + b ( xi − x ) n − 2 i =1 2 L ( ( )) 2 2 n  2 sxy =  sy − 2 n−2 sx   n 2 2 s 1 − rxy ) =  n−2 y (  • • ESTIMADOR DEL TOTAL: VARIANZA ESTIMADA DE τˆyL : ˆ τˆ yL = Nµ yL ˆ ˆ ˆ V (τˆ yL ) = N 2V (µ yL ) Comentario. En este caso para estimar el total es necesario conocer el tamaño de la población ˆ ˆ N. por término medio.ˆ sxy S xy b= 2 = 2 = sx Sx ˆ ˆ a = y − bx ∑ ( y − y )( x − x ) i =1 i i n ∑(x − x ) i =1 i n 2 donde S x2 = S xy = 1 n 2 ∑ ( xi − x ) n − 1 i =1 1 n ∑ ( xi − x )( yi − y ) n − 1 i =1 2 sx = 1 n 2 ∑ ( xi − x ) .3 140 4.τ y ) . el gasto en publicidad es de 5 euros. apartado (a)) Para un grupo de 1. n i =1 1 n 1 n ( xi − x )( yi − y ) = ∑ xi yi − x y ∑ n i =1 n i =1 sxy = 4.3. Se elige al azar una muestra de 18 establecimientos y se toman datos de su gasto en publicidad y ventas diarios.7 120 4.1 135 70 . Ejemplo 4.000 pequeños establecimientos se desea realizar un estudio sobre las ventas diarias. Se tiene información de que. Los resultados son: Gastos Ventas 3. relación tema 4.4 (Ejercicio 3. 4 120 5.1 150 5. ˆ ˆ µ yL = y + b µ x − x ( ) ˆ τˆyL = N µ yL = 138.6 170 Estime el total de ventas diarias y la media utilizando estimadores de regresión.56 Bτ = N × Bµ = 1.314 ⇒ s y = 412.889€ 2 sx = 1.341 2 2. 6814 sx ˆ µ yL = 138.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que al estimar la media y el total poblacionales la cota de error no supere la magnitud B 71 .2 obtenemos: n = 18 establecimientos N = 1. 654 Sy = s y = 436.560€ 4.8336 . 0556€ y = 138. 73 n  N  27.5 150 5.000 establecimientos µ x = 5€ x = 5.8 120 8 160 5. X = " gastos diarios en publicidad (euros)" Tal y como se explicó en la resolución del ejemplo 4.928 n −1 sxy = 27.4 150 4. 7284 ˆ s ↓ b = xy = = 10.000 × 5. 6814 n 2 2 2 s y = 20.3.314€ 2 SL = n −1 2 2 S y (1 − rxy ) = 141.314€ S2  N − n  ˆ ˆ V ( µ yL ) = L   = 7.7 125 6 130 0 80 7 150 5. 6 n−2 ˆ ˆ Bµ = 2 V ( µ yL ) = 5.9 150 6. Obtenga el límite para el error de estimación.5 140 5 150 5.56 = 5. Solución Denotamos Y = " ventas diaria (euros)". 6375 ⇒ sx = 2. 7284 La relación entre las variables es fuerte: rxy = 0.5 160 3. 2 SD = • ESTIMADOR DEL TOTAL: ˆ τˆ yD = Nµ yD 72 . por tanto SD es la ∑ − i =1 n − 1 i =1 cuasivarianza de los di .1 Estimación de la media y el total poblacionales • • ESTIMADOR DE LA MEDIA: ˆ µ yD = y + (µ x − x ) = µ x + d d = y−x S2  N −n ˆ ˆ ˆ VARIANZA ESTIMADA DE µ yD : V (µ yD ) = D   n  N  n 1 n 2 (yi − (xi + d ))2 = n 1 1∑ (d i − d )2 . donde d i = yi − xi .  10002  141. (y = a+ x ó y = y + ( x − x) a = y − x = d ) Comúnmente se emplea en procedimientos de auditoría. 4. 6 +  1000  4 × 10002   4.4 Estimación de diferencia El uso del estimador de diferencia tiene un buen comportamiento (cota de error más baja) cuando la relación entre las variables es lineal y la pendiente del modelo es uno.n= donde para estimar: • • 2 Nσ L 2 σ L + ND la media: D = el total: D= B2 4 B2 4N 2 2 2 ˆ2 σ L se estima utilizando una muestra previa (tamaño n' ): σ L = S L Ejemplo 4. relación tema 4.4. 6 ≅ 362 establecimientos. 6 = 361. apartado (b)) Se quiere repetir el estudio anterior de forma que el error para la estimación del total no supere los 1.000 euros ¿cuál debe ser el tamaño muestral? Solución n= 2 Nσ L 2 σL + N B 4N 2 2 = 1000 ×141.5 (Ejercicio 3. 5€ 2 y τˆ = Ny = 90. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos.395.94 V(µ ) =   n N  73 .413.700€ ˆ ˆ Bµ = 2 V(µ ) = 75.97€ ˆ ˆ S  N − n  = 1.5  La relación entre las variables es muy fuerte: rxy = 0. obteniéndose: X=Ingresos Y=Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple.409 ⇒   s = 115. (Nota: en el enunciado de la relación de problemas sólo se pide mediante el estimador de diferencia) Solución Y = "gasto diario (euros)" Denotamos  "  X = "ingresos diarios (euros) Tal y como se explicó en la resolución del ejemplo 4. regresión y diferencia.99916 . 797 sx = 13.396.20€ Bτ = 200 × Bµ =15.3 ⇒  y  S 2 = 14883. ˆ µ = y = 453.5€  2  sx = 115. relación tema 4.99958 MUESTREO ALEATORIO SIMPLE 2 S y = 14883. 7  y  sxy = 13. Se tiene información de que los ingresos medios diarios son de 500 euros. apartado (a)) Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario. estimadores de razón. Obtenga el LEE en cada caso.6 (Ejercicio 4.• ˆ ˆ ˆ VARIANZA ESTIMADA DE τˆYD : V (τˆ yD ) = N 2V (µ yD ) Ejemplo 4. 738 2 s y = 13. 7 µ x = 500€ 2 rxy = 0.040.2 obtenemos: N = 200 establecimientos n = 10 establecimientos  x = 516€ y = 453. 99907 2 13. 63 n  N  ⇒ Bµ = 9.5€   = 227.860€ ESTIMADORES DE REGRESIÓN ˆ ˆ µ yL = y + b µ x − x ( ) 13.900€ ˆ µ y = r µ x = 439.396.3104€ Bτ = NBµ = 462.ESTIMADORES DE RAZÓN r= y = 0.409 sx ˆ ˆ µ yL = 437.879 x Sr = 2 τ x = 200µ x = 100. 09€ ESTIMADORES DE DIFERENCIA ˆ µ yD = µ x + d ˆ µ yD ↓ d = −62. 717  n 1 n 1  n 2 2 n 2 2 yi + r ∑ xi − 2r ∑ xi yi ( yi − rxi ) = ∑ ∑ n − 1 i =1 n − 1  i =1 i =1 i =1  S2  N − n  ˆ ˆ V (µy ) = r   = 21.4.179 4.000 τˆy = rτ x = 87.5€ ˆ τˆyD = N µ yD = 87.5 ˆ s ↓ b = xy = = 0.1875 n  N  ˆ ˆ Bµ = 2 V ( µ yD ) = 2.33 n  N  2 SL = Bµ = 2.503€ n −1 2 2 S y (1 − rxy ) = 14.500€ (con la calculadora hallamos σ n −1 sobre las diferencias di y lo elevamos al cuadrado) 1 n S = ∑ di − d n − 1 i =1 2 D ( ) 2 = 12. 05 n−2 S2  N − n  ˆ ˆ V ( µ yL ) = L  ⇒  = 1.515€ τˆyL = N µ yL = 87.2 Determinación del tamaño muestral Tamaño muestral mínimo necesario para que la estimación no supere un cota de error B al estimar la media y el total poblacionales n= 2 Nσ D 2 σ D + ND 74 .5 Bτ = NBµ = 435.8899 S2  N − n  ˆ ˆ V ( µ yD ) = D   = 1.3€ Bτ = N × Bµ =1.5 = 437. 500 46.5 + 4N 2 4 × 200 EJERCICIOS RESUELTOS 1.500 Gasto general justifíquese.625 63. apartado (b)) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error como máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución 2 Nσ D 200 × 12.625 30. relación tema 4) En una población de 500 hogares. ¿cree que es útil utilizar esta información auxiliar?.5 n= = = 20 establecimientos 2 B 3002 2 σD + N 12. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza. 75 . se quiere estimar el gasto total en alimentación durante un año. SOLUCIÓN (trabajaremos en cientos de euros) xi yi xi yi xi2 yi2 240 125 57.600 15. para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12. para la que es conocido que el gasto total general durante un año es de 15.7 (Ejercicio 4.500 15.100 22.300 78.000 31.000 360 175 129.000 10.donde para estimar: • • B2 la media: D = 4 el total: B2 D= 4N 2 2 2 ˆ2 σ D se estima utilizando una muestra previa (tamaño n' ): σ D = S D Ejemplo 4.000 Antes de calcular el estimador.000 310 150 96.000 20.000 20.750 159.000 €.000 17. relación tema 4.500 24.000 1110 550 323. (ejercicio 9.500 200 100 40.000 36.600 30.000 10.000. 568 V (τ y ) = N ( N − n) n τ y ∈ ( 72. ∑y i =1 25 2 i = 169. y = 2. µ y ≅ y = 2.1471 µy N n 2 V (r ) = 0. 6.057. 4667 2 V (τ y ) = 2. (Ejercicio 17. 76 y i S r2 = n n 1 n 1  n  ∑ ( xi − ryi ) = n − 1  ∑ xi2 + r 2 ∑ yi2 − 2r ∑ xi yi  = 27.500 € n n 1 n 1  n  62. 4955 τ y = rτ x = 0.432.N = 500 n = 4 r = ∑y ∑x i =1 i =1 n n i = 550 = 0. 2 S = ∑ ( yi − rxi ) = n − 1  ∑ yi2 + r 2 ∑ xi2 − 2r ∑ xi yi  = 3 = 20. 4955 × 150.1.34375 n − 1 i =1 i =1 i =1  i =1  1 ( N − n) S r2 V (r ) = 2 = 0. ∑x i =1 25 2 i = 2240. Se seleccionan al azar 10 parcelas cuyo tamaño y metros cúbicos utilizados en riego aparecen en la siguiente tabla m3 Hectáreas 600 50 1800 150 750 60 900 70 1100 100 1400 120 950 80 700 60 1000 90 720 60 76 . relación tema 4) Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. 76.000 = 74. 62 = 6.592.568 ) en cientos de € Para expresarlo en € hay que multiplicarlo por cien. SOLUCIÓN (los papeles de las variables x e y deben permutarse en las expresiones del formulario) n N = 275 n = 25 r = ∑x i =1 n i =1 2 i ∑y = 2 x 2 = 3. 767 3. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio.285. 73 n − 1 i =1 i =1 i =1  i =1  2 r 2 Sr2 = 1. ∑x y i =1 i 25 i = 522 Estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. relación tema 4) Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas.5 pers. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. (Ejercicio 12.267. A partir de los datos siguientes: x = 9./ hab.325 cientos de € 1110 i τ y = 7. 2. 432 . X 50 150 60 70 100 120 80 60 90 60 840 n x = tamaño de la parcela en hectáreas x2 y2 360000 3240000 562500 810000 1210000 1960000 902500 490000 1000000 518400 11053400 xy 30000 270000 45000 63000 110000 168000 76000 42000 90000 43200 937200 Y 600 1800 750 900 1100 1400 950 700 1000 720 9920 2500 22500 3600 4900 10000 14400 6400 3600 8100 3600 79600 r= ∑y ∑x i =1 i =1 n i = 9920 = 11'81 m3 / hectarea 840 i S r2 = n n 1 n 1  n  2 ∑ ( yi − rxi ) = n − 1  ∑ yi2 + r 2 ∑ xi2 − 2r ∑ xi yi  = n − 1 i =1 i =1 i =1  i =1  1 = (11053400 + 11102297 '56 − 22136664 ) = 2114 '84 9 840 = 84 10 1 N − n Sr2 1 240 2114 '84 V (r ) = 2 = 2 = 0 '02877 µ x N n 84 250 10 µx = x = 2 V (r ) = 0 '3392 4.19 2.06 800 2. Se sabe que los ingresos en dicha ciudad.800 1.502.600 77 . relación del tema 4) Se desea estimar el consumo mensual de una ciudad.204 1.Estime la media de m3 /hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación.85 1.200 3.44 1. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla.080.339.702. SOLUCIÓN: y = consumo de m3 litros de agua.04 1.519.000 981. vía declaración de la renta.56 1. (Ejercicio 1. Renta Consumo 1.537. ascienden a 1.530 euros mensuales. 479.080 1. Esto junto con la información auxiliar nos permite utilizar muestreo con información auxiliar.240 1.04 1.825.005.53 1. 7  ˆ V (τˆY ) = 871.502.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón.06 2.1 1 6 . 79€ ↓ Sr = 2 12 1 12 1  12 2 2 12 2 2 yi − rxi ) = yi + r ∑ xi − 2r ∑ xi yi ∑( ∑ n − 1 i =1 n − 1  i =1 i =1 i =1  ∑ x < ( 5% τ ) i =1 i x 12 N −n ≅1 N   = 16. 67 ⇒ ˆ B = 2 V (τˆY ) = 59.87 1. SOLUCIÓN: Denotemos por Y = " consumo mensual" X = "ingresos mensuales" De la información muestral obtenemos n = 12 ∑y i =1 12 12 i = 16.053.808 euros = 22.36 1.46 1.885. en concreto utilizaremos estimadores de razón. 7427 τˆ y = r τ x = 1 .000 1. 0 7 € τ2 S  N −n ˆ V (τˆY ) = x2 r  µx n  N   2 ↓ No conocemos N . pero en la ciudad hay muchos hogares.400 2.9677 ).530 euros.053. r = 12 ∑ ∑ i =1 12 i =1 yi xi = 0.37€ 78 .402.484 3.702.803.002. observando ↓ estimamos que n < ( 5% N ) ⇒ ↓ µ x = x = 1. Podemos comprobar que el coeficiente de correlación lineal es alto ( rxy = s xy sx s y = 0.502.629.1. Obtenga el límite para el error de estimación.46 euros ∑x i =1 i y como información auxiliar sabemos que τ x = 1.0 0 2 . X=del año anterior. Y=del año actual (con las funciones del modo SD de la calculadora) : x = 882 y = 924 ∑ xi = 4410 i =1 5 ∑ xi2 = 4495700 i =1 5 ∑y i =1 5 i = 4620 ∑y i =1 5 2 i = 4961400 5 xi yi 335500 561600 2400000 1050600 372000 ∑x y i =1 i i = 4719700 79 . Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior. n=5.5 µ yD = µ x + d = 13396 € V (τ yD ) = N 2 τ yD = N µ yD = 3349000 € 2 V (τ yD ) = 14166. (Ejercicio 6.14 € 2 N − n SD S2 = N ( N − n ) D = 50169875 € 2 N n n 6. estime el total de ganancias con un intervalo de confianza.5 (Ejercicio 10. han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros. SOLUCIÓN: N=250. ese total es de 128. SOLUCIÓN: N=123. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 Usando un estimador de razón. relación tema 4) Las diferencias entre ingresos y gastos. en 5 de las 250 oficinas que tiene abiertas una agencia de seguros. τ x = 128200 € . n=5. Y=ingresos (con las funciones del modo SD de la calculadora) : d = 632 2 S D = 4095. µ x = 12764 . relación del tema 4) Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses. estime el total de ingresos y el límite para el error de estimación. X=gastos. en el presente mes.200 €. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña. 138668.85 ) 7. determine el tamaño de la muestra para estimar τˆY con un límite para el error de estimación de 2. relación del tema 4) Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular. X=ventas antes. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. 047619 x τ y = rτ x = 134304. (Como ejercicio 7. cuando se utiliza el estimador de razón. SOLUCIÓN: N=452. Tienda Ventas antes de Ventas la campaña actuales 1 208 239 2 400 428 3 440 472 4 259 276 5 351 363 Usando los anteriores datos para estimar los parámetros necesarios.000€. n’=5.r= ∑y ∑x i =1 i =1 n n i = y = 1. 67 . 76 € i Sr = 2 5 5 1 5 1  5 2 ∑ ( yi − rxi ) = n − 1  ∑ yi2 + r 2 ∑ xi2 − 2r ∑ xi yi n − 1 i =1 i =1 i =1  i =1   = 1640. 09 τ y ∈ (129940. Y=ventas actuales (con las funciones del modo SD de la calculadora) : x = 331. 6 ∑ xi = 1658 i =1 5 ∑ xi2 = 587146 i =1 5 ∑y i =1 5 i = 1778 ∑y i =1 5 2 i = 671034 5 xi yi 49712 171200 207680 71484 127413 r= ∑ yi ∑x i =1 i =1 5 i 5 ∑x y = y = 1. 072376 x i =1 i i = 627489 80 . 6 y = 355. 25  V (τ y ) = N ( N − n ) Sr2 = 4761314. 071 n 2 V (τ y ) = 4364. 4775 2 4N n= Nσ r2 = 21.Sr = D= 2 5 1 5 1  5 2 2 5 2 2 yi − rxi ) = yi + r ∑ xi − 2r ∑ xi yi ∑( ∑ n '− 1 i =1 n '− 1  i =1 i =1 i =1    = 109.8947 σ r = Sr2 = 109. 4775  2 B2 = 4.3 ≈ 22 ND + σ r2 81 . n Por ejemplo si N = 100 y n = 5 . en general. Se selecciona aleatoriamente un elemento (llamado punto de inicio) de los primeros k elementos de la población. aleatorias y periódicas.6 y tomamos k = 20 . En el muestreo aleatorio simple.5. se enumeran los N elementos de la población y después se seleccionan al azar los n elementos que han de formar la muestra. Ventajas. Si elegimos.4 Determinación del tamaño muestral. 82º. 5. . obtendríamos: 2º. 100º. 40º. Esto. 2. 5. Veámoslo con un ejemplo. proporción y total poblacionales. por ejemplo. entonces k = 20 y aún tomando la ultima observación del primer intervalo (20º). 82 . N no es entero. Entonces se obtienen exactamente n observaciones. Después se seleccionan cada k -ésimo elemento hasta conseguir una muestra de tamaño n . En el muestreo sistemático los elementos de la población se enumeran.2 Estimación de la media. 5. entonces N = 20. 62º. 5. Ventajas.. Muestreo sistemático. para ello. Usos. Una muestra sistemática de “1 en k” es la que se extrae de la siguiente forma: 1. 22º. En general. k = N entero. o se ordenan. obtenemos 5 observaciones: 20º. 42º.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas.1 Selección de una muestra sistemática. el 2º como punto inicial. Usos.1 Selección de una muestra sistemática. complica el proceso de selección de la muestra. la selección de los elementos se efectúa con total aleatoriedad. k se toma como el número entero menor o igual que el cociente k≤ N n N : n Nos podemos encontrar con las siguientes situaciones: 1. 5. todas las muestras posibles son igualmente probables y.. n Por ejemplo si N = 103 y n = 5 . Según el n 2. punto inicial nos podemos encontrar con estas situaciones: a.…. sería difícil escoger una m. por tanto. El muestreo sistemático.a. dando una estimación mejor. b. En este caso. (En el m. N se estima por defecto. 83 . el muestreo sistemático es mejor que el m. dando una mala estimación de la proporción de defectuosos. por ejemplo. la observación 18º como la inicial obtendríamos una muestra de tamaño 5: 18º. donde en cierta medida hay un orden en la población. En este caso.s. coger 1 de cada 20 personas que pasen hasta completar la muestra ( n = 50 ) • Frecuentemente con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. se nos juntaría el trabajo si dos números aleatorios fueran consecutivos o muy próximos). Ventajas del muestreo sistemático frente al aleatorio simple: • En la práctica el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. 78º. de 50 personas entre las que pasan por la esquina de una calle. Por ejemplo. 58º. selecciona el mismo número de tubos de ambos grupos.s.s. Si se elige. Pero sí sería fácil. por ejemplo. Una muestra aleatoria simple podría seleccionar un gran número o incluso todos del mismo grupo.a. entonces seleccionaríamos n elementos al azar menores o iguales a N. Por ejemplo. Esto se debe a que la muestra sistemática se extiende uniformemente a lo largo de toda la población.Al dividir la población en 5 intervalos de 20 elementos. sobran 3. así k será menor de lo necesario y.a. 38º. porque no se conoce el tamaño poblacional N hasta que no pasen todas las personas. el tamaño muestral será mayor o igual de lo requerido. mientras que en el muestreo aleatorio simple puede ocurrir que un gran número de observaciones se concentre en una zona y descuide otras. supongamos que en una fábrica los primeros 500 tubos de escape se fabrican correctamente y los últimos 500 son defectuosos por un problema en la maquinaria. 98º 3. la decisión sobre el valor de k se tomará de forma que se asegure el número mínimo deseado de elementos de la muestra. N es desconocido. en cambio. Si no hay problema de coste podríamos elegir también el 102º y la muestra sería de tamaño 6. El tamaño poblacional se desconoce en muchas situaciones prácticas.2 Estimación de la media. N −n ≅ 1.3 Comparación con el muestreo aleatorio simple). 5. Puesto que el control de visitantes en el museo cada día es muy costoso. relación tema 5) Los funcionarios de un museo están interesados en el número total de personas que visitaron el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades estuvo en exhibición. proporción y el total poblacionales 1 n ∑ yi+( j −1) k n j =1 • • ESTIMADOR DE LA MEDIA POBLACIONAL: VARIANZA ESTIMADA DE y sy : ˆ µ = ysy = S2  N −n ˆ V ( y sy ) =   n  N  Comentarios. en las que se sugiere el uso del muestreo sistemático. • • ESTIMADOR DEL TOTAL POBLACIONAL: VARIANZA ESTIMADA DE τˆ : τˆ = Ny sy S2  N −n ˆ ˆ V (τˆ ) = N 2V ( y sy ) = N 2   n  N  Ejemplo 5.1 (Ejercicio 3. el estimador es sesgado. Esto no implica que las varianzas reales sean iguales: V (y) = σ2 N −n n N −1 y V ( y sy ) = σ2 n [1 + (n − 1)ρ ] donde ρ = coeficiente de correlación entre los elementos de una muestra sistemática. los 84 . podemos estimar el total poblacional.Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de calidad dentro del proceso de fabricación. N Como se puede observar la varianza estimada del estimador de la media es igual que en el muestreo aleatorio simple (véase 5. entonces Cuando N no es múltiplo exacto de n . los auditores cuando se enfrentan a largas listas de apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en movimiento. - Si se desconoce el tamaño poblacional por su gran magnitud. Cuando N es conocida. 680 visitantes 18 2 ˆ (τˆ ) = N 2 S  N − n  V   n  N  ↓ N = 180 2  ( 4868)  1. yi = 0. relación tema 5) La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir.450 Use estos datos para estimar el número total de personas que visitaron el museo durante el periodo especificado.funcionarios decidieron obtener estos datos cada diez días. 1 ˆ VARIANZA ESTIMADA DE p sy : ˆ ˆ V ( p sy ) = ˆ ˆ p sy q sy  N − n    n −1  N  Notemos.868. las propiedades del estimador de la proporción son análogas a las propiedades de la media muestral: • • ˆ ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: psy = 1 n ∑ yi+( j −1)k n j =1 . Esto no quiere decir que las varianzas reales lo sean.18 V Bτ = 1.868 = 48. Ejemplo 5. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 i =1 ∑ y i = 4.2 (Ejercicio 2 (a). 79 ↓ S2 =  n −1 ˆ (τˆ ) = 469.370. de nuevo.34 Como en el muestreo aleatorio simple.321. Use los datos de la tabla adjunta para estimar la proporción de 85 . Solución τˆ = Ny sy = 180 4. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete. 18 i =1 2 ∑ y i = 1.450 −    n  = 289.321.461. que las varianzas estimadas son iguales a las del muestreo aleatorio simple. Establezca un límite para el error de estimación. pero en otros casos no.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas.81(1 − 0. simple.a. simple. 5. Automóvil 1 8 15 2794 Respuesta 1 1 0 1 400 i =1 ∑ y i = 324 Solución ˆ p sy = y sy = ˆ ˆ V ( p sy ) = 324 = 0.800 − 400   =   = 0. de una determinada característica. el muestreo sistemático puede utilizarse dentro de cada estrato en lugar del m.a.a. simple para aproximar el comportamiento del muestreo sistemático. estratificado análogamente a como se han utilizado las del m.0364 400 − 1  2.81)  2. crecientes o decrecientes. Suponga que 2. En este caso es preferible el uso del muestreo sistemático.800 autos pasan por el puesto de verificación durante el periodo de muestreo. aleatorias y periódicas Veamos bajo qué condiciones la varianza estimada de los estimadores en el muestreo sistemático se puede suponer igual a la del m.a.81 400 ˆ ˆ p sy q sy  N − n  0. N −1 Distinguimos los siguientes casos: A.800  n −1  N  Si la estratificación de la población fuese ventajosa. Población ordenada (ρ ≤ 0 ) Una población es ordenada cuando los elementos que la constituyen están ordenados de acuerdo con los valores. Según las expresiones V (y) = σ2 N −n n N −1 y σ V (y ) = [1 + (n − 1)ρ ] n 2 sy éstas serán similares cuando N −n ≅ 1 y ρ ≅ 0 .conductores que portan su licencia. ya que la muestra se extiende uniformemente a lo largo de la población: 86 .000330612 ⇒ B = 0. aplicándose las fórmulas del m. Establezca un límite para el error de estimación. 87 . en una lista de cuentas por cobrar que estén ordenadas de mayor a menor cantidad. sistemático). Supongamos que tenemos una lista en la que los nombres de mujeres y hombres se alternan. la estimación de sus calificaciones sería similar con ambos muestreos ya que las calificaciones no dependen del apellido del estudiante. Por ejemplo. Por ejemplo: a. Población aleatoria (ρ ≅ 0 ) Se dice que una población es aleatoria cuando sus elementos están ordenados al azar. el investigador puede cambiar varias veces el punto de inicio aleatorio. Al utilizar las varianzas estimadas de los estimadores del m.s. sistemático conseguimos una estimación conservadora del error (mayor que el error real que cometemos en el m. las estimaciones de una muestra sistemática tendrían en general una varianza menor que las de una muestra aleatoria simple (es posible que ésta última contenga solo cantidades grandes o cantidades pequeñas). C. En este caso es preferible el muestreo aleatorio simple dado que V ( y sy ) > V ( y ) .a. en una lista de estudiantes por orden alfabético. b. Una muestra sistemática con k par proporcionaría solo una lista de mujeres o de hombres. Población periódica (ρ ≥ 0 ) Una población es periódica cuando los valores de la variable objeto de estudio tienen una variación cíclica. en el m. En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo sistemático ya que V ( y sy ) ≅ V ( y ) .s.V ( y sy ) ≤ V ( y ) Por ejemplo. en cuyo caso el uso de las expresiones del m. sistemático estaría justificado.a. B. Ventas diarias de un supermercado con k = 7 Para evitar este problema. en el m. Esto tiene el efecto de mezclar los elementos de la población y comportarse como una población aleatoria. Lo anterior conduce a obtener muestras más grandes de las necesarias para poblaciones ordenadas y muestras más pequeñas para poblaciones periódicas (si no se mezclaran los elementos cambiando el punto de inicio).81 q = 1 − p = 0.4 Determinación del tamaño muestral El tamaño muestral requerido para estimar la media poblacional con un límite B para el error de estimación se obtiene despejando el tamaño muestral de la ecuación: 2 V ( ysy ) = B Dado que el valor real de la varianza del estimador no es conocido.81) ) 4 4   k≤ N = 4.81) Npq = = 1. En poblaciones aleatorias no tendremos problemas.000 − 1)  + ( 0. la Guardia Civil de Tráfico espera que pasen unos 5.81× (1 − 0.19 n= 5.97 ≅ 1. usaremos las expresiones del muestreo aleatorio simple. 25 n 88 . 022  ( N − 1) + pq  (5.176. Solución p = 0.000 × 0.177 automóviles 2 B  0. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. relación tema 5) En un nuevo control. Tamaño muestral requerido para estimar µ y τ con un límite B para el error de estimación  B2  4 para estimar la media   con D =   B2  para estimar el total  4N 2  n= Nσ 2 ( N − 1) D + σ 2 Tamaño muestral requerido para estimar p y τ con un límite B para el error de estimación  B2 para estimar p  4   con D =   2  B para estimar el total  4N 2  n= Npq (N − 1)D + pq Ejemplo 5.000 automóviles por el puesto de verificación.81× (1 − 0.5.3 (Ejercicio 2 (b). 0002 = 27. Para ello decide tomar una muestra sistemática de 1 en k .000 €.000 € con una confianza del 95%. relación tema 5) La gerencia de una compañía privada con 2. SOLUCIÓN 110 0.000 cuentas por cobrar de una empresa. ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k).000.000.55 q = 1 − p = 0. 45 D = = 0. 000625 200 4 Npq N n= = 330. Tomando k=4 ⇒ n = = 1250 ≥ 1177 . El valor de cada una de estas cuentas no suele superar los 21.562. 04 ⇒ k = 6 ( N − 1) D + pq n 2. 5 4 EJERCICIOS RESUELTOS 1. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1. (Ejercicio 7. SOLUCIÓN N = 1.000 42 4 × 1.0002 Nσ 2 N n= = 99.39 ≈ 100 k = = 10 2 ( N − 1) D + σ n 89 . 052 N = 2. Determine el valor de k. 7 ≈ 331 k ≤ = 6.Si tomáramos k=5 ⇒ n = 5000 5000 = 1000 .0002 1.000 σ 2 ≅ 21. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 ∑y i =1 200 i = 110 Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios). (Ejercicio 8.000 p = = 0.500 D = = 250.000 R = 21. relación tema 5) Un auditor se enfrenta a una larga lista de 1.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. 852.42 cl.913.142 4.561.957.047.437.135 1.610 = 1.613.860. SOLUCIÓN: N=1800.3.257.386 18.358 19.973. Año Nac.915.850 23. (Ejercicio 5 (a).Masculinos Nac. Cantidad de llenado en cl 33 32.4 1970 1.871. Natalidad 1955 2.708 2.0 1960 2.198 14.927.760.693.8 σ 2 = Sn2'−1 D= 90 B2 = 0. 2 (con las funciones del modo SD de la calculadora) : S n ' −1 = 0.063 3.642 3.935 n i =1 6 S2  N −n ˆ V ( y sy ) =   n  N  ↓ N = 26 años ˆ V ( y sy ) = 4. considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios.833.35 ↓ S 2 = 37.412.816.7 1965 1.5 33 32 31 Determine el tamaño de la muestra y k para estimar el contenido medio de las latas con un error de estimación inferior a 0.4 1975 1.97 ≈ 18 ( N − 1) D + σ 2 k= 1800 = 100 18 .Femeninos Total de Nac.144.054 1.179.20 4.008 3.073. SOLUCIÓN 1 n 1 ˆ µ = ysy = ∑ yi = 11. Los datos de la tabla adjunta representan una muestra sistemática 1 en 300 de una producción diaria de 1800 latas.078. relación tema 5) La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente.759.612.731.5 33.304 3.576 4.531.85 B = 139.6 1980 1. (Como ejercicio 1.719 1.295 26. 0441 4 n= Nσ 2 = 17.926.616 1. relación tema 5) La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 33cl que salen de una línea de producción.258 15.378 1. y establezca un límite para el error de estimación. n’=6.9 Estime el número medio de varones nacidos por año para el periodo 1955-1980. 5. 000625 4 k≤ 650 = 3. obteniendo que 47 estaban a favor de los cambios propuestos. 02 215 k =3 Npq = 214. p = B = 0. n’=65. (Ejercicio 9. SOLUCIÓN: N=650. Los funcionarios tomaron una muestra sistemática de 1 en 10. 7231 65 q = 1 − 0. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%. 05 n= 47 = 0. 7231 = 0. a partir de una lista en orden alfabético de los 650 miembros registrados. ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). 2769 B2 D= = 0.8 ≈ 215 ( N − 1) D + pq 91 . Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. relación tema 5) Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. proporción y total poblacionales. 6. Conglomerados y estratos. una muestra con pocos conglomerados recogería gran cantidad de información sobre un parámetro poblacional. El muestreo por conglomerados es útil para obtener información en las siguientes situaciones: Es complicado disponer de una lista de los elementos de la población.3 6. deben ser tan heterogéneos dentro de ellos como sea posible y un conglomerado debe ser muy similar a otro para que el muestreo por conglomerados esté indicado. n = conglomerados en la muestra. Estimación de la media. Los conglomerados. Si los elementos dentro de un conglomerado presentan características similares.3 Estimación de la media.4 Necesidad y ventajas del muestreo por conglomerados.6. aulas = conglomerados) El coste de obtención de las observaciones es menor debido al agrupamiento de los elementos. por otro lado. mientras que es fácil lograr un marco que liste los conglomerados.2 Formación de los conglomerados.2 6. si los elementos de un conglomerado son diferentes entre sí. Una muestra por conglomerados es una muestra aleatoria en la cual cada unidad de muestreo es una colección (o conglomerado) de elementos. Nótese que los estratos deben ser tan homogéneos como sea posible. 92 . 6. (Alumnos que asisten a clase = elemento.1 Necesidad y ventajas del muestreo por conglomerados. Formación de los conglomerados. 6. Lo primero que debemos hacer es especificar los conglomerados apropiados. Una vez especificados los conglomerados. proporción y total poblacionales. Muestreo por conglomerados. Sin embargo. 6. Vamos a utilizar la siguiente notación: N = conglomerados en la población. se selecciona una muestra aleatoria simple de conglomerados. pero un estrato debe diferir tanto como se pueda de otro con respecto a la característica que está siendo medida.1 6. Conglomerados y estratos. entonces tomar muchas observaciones dentro de un conglomerado sería un trabajo no productivo. Determinación del tamaño muestral. El estimador de la media poblacional µ es la media y .. si se desconoce) La varianza estimada es sesgada y sería un buen estimador de V ( y ) si n es grande ( n ≥ 20 ). relación del tema 6. (A) Estimación de la media. 93 . a veces N no se conoce y en otras ocasiones como en este último ejemplo porque M es desconocido y M debe ser estimada por m .mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i M = ∑ mi = elementos en la población (con frecuencia es desconocido) i =1 N m = ∑ mi = elementos en la muestra i =1 n 1 N ∑ mi = tamaño medio de los conglomerados de la población (con frecuencia es N i =1 desconocido).. El sesgo desaparece cuando los tamaños de los conglomerados son iguales ( m1 = m2 = . V ( y) = 1 N − n Sc2 2 N n M donde Sc2 = 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 ( M puede ser estimado por m . por lo que la varianza estimada de y toma la forma de la varianza de un estimador de razón. 1 n m = ∑ mi = tamaño medio de los conglomerados de la muestra (se n i =1 M= utililza para estimar M . 1 n µ = y = ∑ yi = m i =1 ∑y i =1 n i =1 n i ∑m i La media y tiene la forma de un estimador de razón. = mN ) Notas: • La expresión de V ( y ) = 1 N − n Sc2 no se suele simplificar pues como ocurre en el 2 N n M ejercicio 4. En este caso al número total de elementos en el conglomerado i que poseen la característica de interés se nota como ai en lugar de yi como es habitual en variables numéricas.• Si la variable que estamos estudiando es dicotómica. siendo el τ =My y la varianza estimada del mismo V (τ ) = M 2 V ( y ) = N ( N − n) Sc2 n (sea cual sea el valor de M no afecta a la varianza ni al error del estimador. La cantidad yt = 1 n ∑ yi . aunque sí al valor del estimador del total) (C) Estimación del total cuando se desconoce el tamaño de la población. debemos construir un estimador del total que no dependa de M . Frecuentemente el número de elementos en la población no es conocido en problemas donde se aplica el muestreo por conglomerados. En ese caso no podemos utilizar el estimador del total τ = M y . (B) Estimación del total. es el promedio de los totales de los conglomerados de la muestra y por tanto un n i =1 estimador insesgado del promedio de los N totales de los conglomerados de la población. hablaremos de la proporción poblacional p y de la proporción muestral p . todo lo anteriormente expuesto para variables numéricas es válido para variables dicotómicas. o equivalentemente del total poblacional τ . De la relación entre la media y el total poblacional µ = estimador del total poblacional τ τ M se sigue que τ = M µ . N y t es un estimador insesgado de la suma de los totales de todos los conglomerados. 94 . Por el mismo razonamiento empleado en el muestreo aleatorio simple. Así tendremos que p= y= ∑a i =1 n i =1 n i ∑m i Salvo esta diferencia en la notación. V ( y ) (lo mismo se extiende al total). pero con menos datos) En una urbanización ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital. Calcule el límite para el error de estimación. Esto es debido a que el estimador N y t no usa la información proporcionada por los tamaños de los conglomerados y por ello puede ser menos preciso. y también es insesgado el estimador de su varianza. además el estimador de la media. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. es un estimador insesgado de la media poblacional. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. Ejemplo 6. relación tema 6.1 (como ejercicio 13. la varianza de N y t es generalmente mayor que la varianza de M y . c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. µ . Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. Cuando los tamaños de los conglomerados son iguales los dos estimadores del total coinciden.En resumen τ t = N yt St2 V (τ t ) = N V ( y t ) = N ( N − n) n 2 1 n N − n St2 . St2 = donde V ( y t ) = ∑ yi − y t n − 1 i =1 N n ( ) 2 Si existe una gran variación entre los tamaños de los conglomerados y además los tamaños están altamente correlacionados con los totales de los conglomerados. y . 95 . 8306 4 Ya que M es desconocido. 6 n i =1 2 n t 2 i V ( y) = 2 V ( y ) = 0. 616.3 n −1 V (τ t ) = N ( N − n) St2 = 2. 003305 2 N n M 1 n 13 ∑ yi = 5 = 2. 75 ) 1 N − n Sc2 = 0.14 96 M= 1500 = 7.3222 = 0.3714 35 p = 37.3222 ∑ yi2 = 35 Sc2 = ∑ mi2 = 255 i =1 n ∑ym i =1 i n i = 90 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 = 3. M debe ser estimada por m m= 1 n 35 ∑ mi = 5 = 7 hogares / manzana n i =1 1 N − n Sc2 = 0.115 11.5 200 V ( y) = . 25 .5% b) n yt = τ t = N y t = 520 2 S = 2 t ∑ (y − y ) i =1 i n −1 1 n  y −  ∑ yi  ∑ n  i =1  = i =1 = 0. utilizaremos esta última para unificar la notación a emplear en el muestreo por conglomerados mi 8 7 9 6 5 35 n yi 2 2 3 3 3 13 mi2 64 49 81 36 25 255 yi2 4 4 9 9 9 35 mi yi 16 14 27 18 15 90 a) p= y= ∑y i =1 n i =1 n i ∑m = 13 = 0.SOLUCIÓN Aunque en un caso de variables dicotómicas como éste se suele usar en los textos la notación ai en lugar de yi .14% i ∑( n i =1 n i =1 yi − ymi ) 2 = ∑ yi2 − 2 y ∑ yi mi + y i =1 i =1 n 2 ∑m i =1 n 2 i = 3. 75 ( 423.340 n 2 V (τ t ) = 96. 0028795 2 N n M c) τ = M y = 557. los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados.8 2 V (τ ) = 160.4 Determinación del tamaño muestral.98 ( 396.16 . debido a que los tamaños de los conglomerados no están altamente correlacionados con los 2 totales de los conglomerados en este ejemplo ( rmy = 0. cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. En otras palabras. 08 ).1 representan una muestra previa.V (τ ) = M 2 V ( y ) = 6478. Supongamos que los conglomerados ya están formados y vamos a seleccionar el número de conglomerados n para conseguir un determinado límite para el error de estimación B n= donde σ c2 se estima mediante Sc2 = B2 M D= 4 2 Nσ c2 ND + σ c2 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 de una muestra previa. siendo para la estimación de la media y D = B2 para la estimación del total. Cuando se utiliza N y t para estimar el total. 718. 6. 97 .12 ) Como puede observarse. el número de conglomerados en la muestra para obtener un determinado límite para el error de estimación B viene dado por n= D= Nσ t2 ND + σ t2 1 n B2 y σ t2 se estima mediante St2 = ∑ yi − y t n − 1 i =1 4N 2 ( ) 2 de una muestra previa (o a partir R2 ). el límite para el error de estimación es más pequeño en b) que en c).2 Suponiendo que los datos del ejemplo 6. 4N 2 Habitualmente el tamaño promedio de los conglomerados de la población M no se conoce y tiene que estimarse por el tamaño medio m de los conglomerados de una muestra previa. 16 de una estimación del rango de los valores de yi como σ t = 2 Ejemplo 6. 92 ≈ 97 ND + σ c2 . relación tema 6) Con motivo del cuarto centenario del Quijote.200 hogares agrupados en 700 manzanas de viviendas. 01 4N 2 i σ c2 ≅ Sc2 = 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 = n n 2 1  n 2  yi + y ∑ mi2 − 2 y ∑ mi yi  = 1. 001225 D= 4 4 2 Nσ c2 = 154.SOLUCIÓN S = 0. Se selecciona una localidad con 6.125 ∑ n − 1  i =1 i =1 i =1  n= 98 Nσ c2 = 96. obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine. cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades. 012 × 7 2 = = 0. 4 ≈ 155 ND + σ c2 EJERCICIOS RESUELTOS 1.8306 2 c 1 n 35 M ≅ m = ∑ mi = =7 n i =1 5 n= B2 M 0. usando los datos de la encuesta piloto. SOLUCIÓN mi 10 8 11 7 36 yi 13 9 15 8 45 mi2 yi2 mi yi 100 169 130 64 81 72 121 225 165 49 64 56 334 539 423 y= M = 6. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias. el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad.200 N = 700 ∑y i =1 n i =1 n i ∑m = 1. 25 D = B2 = 0. (Ejercicio 6. 052 × 4515. 7232 ⇒ p = 72. Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación.54% σ ≈S 2 c 2 c Nσ c2 = 17.84  5  1 N − n Sc2 = 0. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 3 49 40 4 73 45 5 101 63 a. SOLUCIÓN: a) N = 57 n=5 mi 51 62 49 73 101 336 n yi 42 53 40 45 63 243 mi2 2601 3844 2401 5329 10201 24376 yi2 1764 2809 1600 2025 3969 12167 mi yi 2142 3286 1960 3285 6363 17036 p= 1 n ∑ yi − pmi n − 1 i =1 2 2 ∑y i =1 n i =1 i ∑m = 243 = 0.84 = = 2. 06 ≈ 18 n= ND + σ c2 99 .32% 336 i Sc2 = 2 ( ) 2 = n 2 n 1  n 2  yi − 2 p ∑ yi mi + p ∑ mi2  = 68. relación tema 6 pero con menos datos) Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. La industria consta de 57 plantas. La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 5% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta.1054 ⇒ 10. 7 ∑ n − 1  i =1 i =1 i =1   336  M ≈m =  = 4515. 00278 V ( p) = 2 N n M b) B2 M 0. Se selecciona una muestra aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. (Ejercicio 2. b.2.8224 D= 4 4 2 2 V ( p) = 0. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. Los conglomerados son numerados del 1 al 415. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas. obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. Por esta razón para el diseño de la encuesta utiliza muestreo por conglomerados.500 residentes en la ciudad. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación. estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. suponiendo que M es desconocido. c) Suponiendo que existen 2. relación tema 6) Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes.3. 100 . (Ejercicio 7. 000 × 8) + .047 ∑ y m = ( 96. SOLUCIÓN: a) (este ejemplo no se puede resolver con una calculadora de 10 dígitos de forma exacta ( ) por la dificultad de trabajar con cantidades muy grandes) µ=y= ∑y i =1 n i =1 n i ∑m n = 1.039. M debe ser estimada por m m= 1 n 151 ∑ mi = 25 = 6. = 8.801.213.490 ) y estime el total por los dos métodos estudiados τ = M y τ t = N y t .. 40 24 Ya que M es desconocido.000 = 8.0002 + .000 i Sc2 = 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 = 15.14€ V ( y) = b) yt = 1 n 1. Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación. cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€.NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo. mi = 6 ∀i ..000 ∑ yi = 25 = 53160 € / bloque n i =1 τ t = N y t = 22.000 ∑m i =1 i 2 i = 82 + . d) Tomando los anteriores datos como una muestra previa.403.227.247 = 634.785.329..32 € / residente 151 i ∑ ( y − ym ) = ∑ y n 2 n i =1 n i i i =1 2 i − 2 y ∑ yi mi + y i =1 2 ∑m i =1 n 2 i ∑y i =1 n i =1 n 2 i = 96..000.400 € 101 ...502.617. supongamos conocido M = 6 × 415 = 2.501.329. = 82. 04 residente / bloque n i =1 1 N − n Sc2 = 653.061. = 1.19 2 N n M 2 V ( y ) = 1. 072.949. 0241 415 V ( y) = τ = M y = 22.584.926.501.∑ (y − y ) n i =1 i t 2 1 n 1  = ∑ y −  ∑ yi  = 82.58 ≈ 167 n= ND + σ c2 4.000.755. 04 € N = 415 n = 25 M= 2500 = 6.92 V (τ ) = M 2 V ( y ) = 4. El número de bajas en el último año.279.056.831.000 25 n  i =1  i =1 n 2 i 2 V (τ t ) = c) (y − y ) N ( N − n) ∑ n i =1 i t 2 n n −1 = 3.039. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil.501. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No 6 0 8 No 7 1 21 Si 8 0 4 No 9 4 35 No 10 6 92 Si 102 .250 (17.34€ . 0919 ). relación tema 6) Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo.329. En otras palabras. d) S = 634.360.505. 042 = = 2.791. 26€ Sc2 = 634. 40 2 c 2 B2 M 5002 × 6. 26.860.000 2 V (τ t ) = 3.280.389.213.311.519.000 − (1. los tamaños de los conglomerados proporcionan poca información referente a los totales de los conglomerados.18€ ) Como puede observarse el límite para el error de estimación es más pequeño en b) que en c) debido a que los tamaños de los conglomerados no están altamente correlacionados con 2 los totales de los conglomerados en este ejemplo ( rmy = 0.213.000) 2 = 11. 40 1 N − n Sc2 = 657.003.240.107.9482 2 N n M 2 V (τ ) = 4.100 D= 4 4 Nσ c2 = 166. (Ejercicio 10.053. por tanto para estimar el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales las empresas.5 bajas = 2.68%) 85 − 10 0.94 St2 = = 8. (b) Estime la proporción de empresas que usarían los servicios ofertados.08  9 85  10  Bτ = 2 5702.25 42.25 0. SOLUCIÓN: a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde no se conoce el número total de empleados para toda la población.5 bajas / empresa 10 80.600 hogares.5 25 τ t = 85 × 2. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados.5  85 − 10  8. (Como ejercicio 3.25 6. Dé el límite del error de estimación.3068 (30.25 80.6 = 0.02353 = 0.024 bajas b) p= V ( p) = 4 = 0. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 103 .25 6.7892157 ⇒ V (τ t ) = 852 V ( y t ) = 5702.02353 85 10 − 1 5.25 0. Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60.(a) Estime el número de bajas en el último año en las empresas del pueblo.94 ⇒ V ( y t ) =  = 0.25 2.25 12.08 = 151.4 × 0.5 = 212.25 2. relación tema 6) Se diseña una encuesta económica para estimar la cantidad media gastada en servicios por hogar de una ciudad formada por 3.40 (40%) 10 B = 2 0. yi 1 2 9 0 2 0 1 0 4 6 25 yt = (y − y ) i t 2 2. Dé el límite del error de estimación.25 6. 5 32.5 Estime el volumen medio de los envases y la cota del error de estimación. 23 2 V ( y ) = 0.5 3 30. relación del tema 6) En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora.5 31 34 2 32. SOLUCIÓN: mi yi 121550 143400 153090 ∑m y i =1 i n i = 418040 N = 60 n=3 n M= 3600 = 60 60 ∑ mi = 178 i =1 2 i n ∑m i =1 n 2 i = 10594 ∑y i =1 i = 7030 ∑y i =1 n i =1 n n = 16501100 i y=µ= 1 n ∑ yi − ymi n − 1 i =1 V ( y) = ∑y i =1 ∑m = 39. 49 €   = 2612.5 33 33 33. mi 4 4 4 yi 131 130 130 3 i i =1 mi yi 524 520 520 ∑m y (con las funciones del modo SD de la calculadora) : M =m=4 i = 1564 ∑m i =1 3 i = 12 ∑m i =1 3 2 i = 48 104 . y se mide el volumen que cada envase contiene. n=3.5 32 33 32.Estime la cantidad media de gastos en servicios por hogar en la ciudad y el límite para el error de estimación. 96 € 2 N n M 6. SOLUCIÓN: N=40. (Como ejercicio 4. cada uno de los cuales contiene 4 envases. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cl 1 33.04  i Sc = 2 ( ) 2 = n n 2 1  n 2 yi + y ∑ mi2 − 2 y ∑ mi yi ∑ n − 1  i =1 i =1 i =1  1 N − n Sc2 = 0. El fabricante selecciona una muestra aleatoria simple de 5 de 100 industrias a las que da servicio. relación del tema 6) Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. SOLUCIÓN: N=100.y t = 130.1603 cl 7. Entonces decide usar muestreo por conglomerados. 4 ∑ mi = 32 i =1 n ∑m i =1 n 2 i = 264 105 . (Como ejercicio 1. pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. 006423 V ( y) = 2 N n M 2 V ( y ) = 0.33 ∑ yi = 391 i =1 i 5 ∑y i =1 5 2 i = 50961 y=µ= ∑y i =1 5 i =1 5 ∑m = yt = 32.5833 cl m i Sc = 2 1 3 ∑ yi − ymi n − 1 i =1 ( ) 2 = 3 3 2 1  3 2 yi + y ∑ mi2 − 2 y ∑ mi yi ∑ n − 1  i =1 i =1 i =1    = 0. n=5. Los datos sobre coste total de reparaciones por industria y el número de sierras son: Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 Estime el coste medio de reparación por sierra para el mes pasado y el límite para el error de estimación. El fabricante no puede obtener un coste de reparación para cada sierra.3333  1 N − n Sc2 = 0. con cada industria como un conglomerado. mi yi 150 770 2530 1260 120 ∑m y i =1 i n i = 4830 (con las funciones del modo SD de la calculadora) : M = m = 6. 4375 € m i Sc = 2 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 = n n 2 1  n 2 yi + y ∑ mi2 − 2 y ∑ mi yi ∑ n − 1  i =1 i =1 i =1    = 584. relación del tema 6) Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A. SOLUCIÓN: N=495. en una elección estatal. pero antes de que se haya hecho la cuenta final de los votos. (Como ejercicio 5. Ya que la selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa. 7116 V ( y) = 2 N n M 2 V ( y ) = 3. con distritos como conglomerados.y t = 118 ∑ yi = 590 i =1 n ∑y i =1 n 2 i = 90700 y=µ= ∑y i =1 5 i =1 5 i ∑m = yt = 18. Los resultados se muestran en esta tabla: Nº votantes Nº votantes A 1290 680 1170 631 840 475 1620 935 1381 472 Estime la proporción de votantes que apoyan al candidato A y el límite para el error de estimación. Se selecciona una muestra aleatoria de 5 distritos de un total de 495 que tiene el estado. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra. mi yi 877200 738270 399000 1514700 651832 ∑m y i =1 i n i = 4181002 106 . 2934 € 8.57  1 N − n Sc2 = 2. El periódico quiere hacer la estimación el día de la elección. n=5. para obtener la información pertinente directamente de los votantes. se utiliza muestreo por conglomerados. 6 ∑ mi = 6301 i =1 n n ∑m i =1 n n 2 i = 8270161 = 2183195 ∑y i =1 i i = 3193 ∑y i =1 2 i p=µ= ∑y i =1 5 i =1 5 ∑m = yt = 0.(con las funciones del modo SD de la calculadora) : M = m = 1260.31% ) 107 . 0930748 ( 9. 00216573 2 N n M 2 V ( y ) = 0.506745 m ( 50.505  i Sc = 2 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 = n n 2 1  n 2 yi + y ∑ mi2 − 2 y ∑ mi yi ∑ n − 1  i =1 i =1 i =1  V ( p) = 1 N − n Sc2 = 0. 67% )   = 17372. 2 y t = 638. 1 Estimación de la densidad y tamaño de la población. Si en la segunda muestra no aparece ningún elemento marcado. 7. 7. ˆ N no es un estimador insesgado de N : (N − t) ˆ EN =N+N ≠N nt Cuanto mayor sean n y t menor será el sesgo N 108 (N − t) . ha de ser mayor que 0 para que las fórmulas estén bien definidas.1 Estimación del tamaño de la población usando muestreo directo En el muestreo directo se realizan los siguientes pasos: 1. 2. N= . 7. Estimación del tamaño de la población.1 Muestreo directo. Se selecciona una muestra aleatoria de tamaño t . se marcan y se devuelven a la población.3. 7. 7.3.2 Muestreo por cuadros en el espacio temporal.7. Posteriormente se selecciona una muestra aleatoria de tamaño n (tamaño fijado de antemano) de la misma población y se observa cuántos de ellos están marcados ( s =número de elementos marcados en esta 2ª muestra) Sea p = proporción de elementos marcados en la población. Entonces estimamos p mediante la proporción muestral: ˆ p= Por tanto.3 Muestreo por cuadros. s = proporción de elementos marcados en la 2ª muestra n • • ESTIMADOR DE N : ˆ VARIANZA ESTIMADA DE N : t nt ˆ t = N= = ˆ p s/n s t 2 n( n − s ) ˆ ˆ V N = s3  n. pero p es N p desconocido.3.2 Muestreo inverso. 7. 7. se aumenta el tamaño muestral. t = constantes     s = aleatoria    ( ) Comentarios s = número de elementos marcados en la 2ª muestra. p = t t .3 Cuadros cargados. nt [ ] . s = constantes    n = aleatoria     ( ) ˆ Comentario. se marcan y se devuelven al arroyo. si se pueden aplicar ambos tipos de muestreo se prefiere el inverso. N es un estimador insesgado de N .1 (Ejercicio 1. ya que cualquier pez atrapado que ya hubiera sido marcado se devolvía inmediatamente. 109 . se marcan y se devuelven a la población. por ello.669. 4 N= = s 27 2 2 ˆ N = t n(n − s ) = 100 × 120(120 − 27) = 5. lo que se fija es s = número de elementos marcados en la segunda muestra. relación tema 7) Un club deportivo se interesa por el número de truchas de río en un arroyo.87 ˆ V s3 273 ( ) ˆ ˆ B = 2 V N = 150. Los pasos para realizar este método son: 1. 2. • • ESTIMADOR DE N : ˆ VARIANZA ESTIMADA DE N : t nt ˆ t = N= = ˆ p s/n s t 2 n( n − s ) ˆ ˆ V N = 2 s ( s + 1)  t .ˆ N tiende a sobreestimar el valor real de N .2 Estimación del tamaño de la población usando muestreo inverso La diferencia con el muestreo directo es que aquí el tamaño de la segunda muestra no está fijado (es aleatorio). Se selecciona una segunda muestra aleatoria hasta que se obtienen s elementos marcados (sea n el tamaño final de dicha muestra). Supongamos que este número fue de 27 en la segunda muestra. Ejemplo 7. 60 ( ) 7. Solución ˆ nt 120 ×100 = 444. Obsérvese que la muestra representa 100 peces diferentes. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Se selecciona una muestra inicial de t elementos. Durante un periodo de varios días se atrapan 100 truchas. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. Ejemplo 7.2 (Ejercicio 5, relación tema 7) Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Ella cree que el tamaño de la población está entre 500 y 1000; por lo que una muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y liberadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas para obtener las 15 marcadas. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. Solución ˆ nt 160 ×100 = 1.066, 67 N= = 15 s 2 2 ˆ N = t n(n − s ) = 100 ×160(160 − 15) = 64.444, 44 ˆ V 152 (15 + 1) s 2 ( s + 1) ( ) ˆ ˆ B = 2 V N = 507, 72 ( ) 7.3.1 Estimación de la densidad y del tamaño de la población usando muestreo por cuadros Con este método se estudia el tamaño de la población contenida en un área delimitada A conocida. Los pasos a seguir son: 1. Dividir a la población en N cuadros de igual área a . Sea mi = número de elementos en el cuadro i -ésimo 2. Tomar una muestra de n cuadros entre los N existentes. Se observa el número total de elementos que contiene la muestra: m = ∑ mi i =1 n 3. Calcular la densidad de elementos en la muestra (densidad muestral): ˆ λ= 4. La densidad poblacional es nº elementos en la muestra m = área de la muestra na λ= nº elementos en la población M M = = área de la población Na A entonces M = Aλ . Por tanto: • ESTIMADOR DE LA DENSIDAD: ˆ λ= m na 110 • • • ˆ VARIANZA ESTIMADA DE λ : m ˆ 1 ˆ ˆ V (λ ) = 2 2 = λ na a n m ˆ ˆ M = Aλ = A na A2 m ˆ ˆ ˆ ˆ V ( M ) = A 2V (λ ) = 2 2 a n ESTIMADOR DEL TAMAÑO POBLACIONAL: ˆ VARIANZA ESTIMADA DE M : Ejemplo 7.3 (Ejercicio 3, práctica 7) La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía, protección civil, personal sanitario, etc.) necesaria para atender futuras concentraciones. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos, tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros; por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados, obteniéndose los resultados de la tabla: Nº del cuadro 1 2 3 4 5 6 7 8 9 10 Número de aficionados en el cuadro 193 216 250 163 209 195 232 174 215 198 Nº del cuadro 11 12 13 14 15 16 17 18 19 20 Número de aficionados en el cuadro 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de confianza. b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. 111 Solución: a) a = 10 × 10 = 100 ˆ λ= m 4324 = = 2,162 na 20 ×100 ˆ λ 2,162 ˆ ˆ V (λ ) = = = 0, 001081 ⇒ B = 2 0, 001081 = 0, 066 na 2000 λ = 2,162 aficionados m 2 b) A = 300 × 100 = 30.000 m 2 (2, 096 , 2, 228) ˆ ˆ M = Aλ = 30.000 × 2,162 = 64.860 aficionados (62.880 , 66.840) 7.3.2 Muestreo en el espacio temporal B = ABλ = 30.000 × 0, 066 = 1.980 En determinadas ocasiones podemos tomar los cuadros como intervalos temporales. Veámoslo con un ejemplo. Ejemplo 7.4 (Ejercicio 7, relación tema 7) Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. Se observa que 114 personas solicitan información, durante 12 intervalos de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estime el total de personas que visitan la oficina diariamente y calcule la cota del error de estimación. Solución A = 8 horas= 480 minutos n =12 intervalos a = 5 minutos m =114 personas λ= 114 = 1,9 personas / minuto 5 × 12 m ˆ M=A = 912 personas na A2 m ˆ ˆ V ( M ) = 2 2 = 7.296 ⇒ B = 170,8 an 7.3.3 Cuadros cargados En este tipo de muestreo también se divide a la población en cuadros, pero el método se utiliza cuando después de hecha la división son muchos los cuadros que no contienen elementos y otros contienen pocos, es decir, la densidad de elementos por unidad de superficie es muy pequeña. Este tipo de muestreo se basa en la identificación de la presencia o ausencia de elementos en cada uno de los cuadros de la muestra. Un cuadro se dice cargado cuando contiene al menos un elemento objeto de estudio. 112 Los pasos a seguir son: 1. Se divide a la población en N cuadros de igual área a . 2. Se toma una muestra de n cuadros entre los N existentes. Se observa el número total de cuadros no cargados de la muestra, a este número de cuadros sin presencia de elementos se le designa por y . Es importante tener en cuenta que y no puede ser cero ni n ( 0 < y < n ). Si una vez observada la muestra y = 0 ó y = n , ampliaremos el tamaño muestral 3. La densidad poblacional se estima como ˆ λ = − ln   a n y su varianza como 1 n− y ˆ ˆ V (λ ) = 2 a ny Dado que M = Aλ obtenemos 1  y • • ESTIMADOR DEL TAMAÑO POBLACIONAL: ˆ VARIANZA ESTIMADA DE M : A  y ˆ ˆ M = Aλ = − ln  a n A2 n − y ˆ ˆ V (M ) = 2 a ny Ejemplo 7.5 (Ejercicio 4, práctica 7) Se desea estimar el número total de autobuses que, entre las 6 y las 24 horas del domingo, circulan por un determinado punto kilométrico de una carretera. La observación se realiza mediante 40 intervalos, de 10 minutos cada uno, repartidos a lo largo del periodo en estudio. En 18 ocasiones, de las cuarenta que se estableció el control, no circuló por el punto en cuestión ningún autobús. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. Dar un límite de error de estimación. Solución A = 24-6=18 horas=1.080 minutos y =18 intervalos sin autobuses n = 40 intervalos a =10 minutos A  y 1.080  18  ˆ ln   = 86, 24 M = − ln   = − 10 a n  40  A2 n − y 1.0802 40 − 18 ˆ V (M ) = 2 = = 356, 4 ⇒ B = 37,8 102 40 ⋅18 a ny 113 EJERCICIOS RESUELTOS 1. (Ejercicio 6, relación tema 7) En una plantación de pinos de 200 acres, se va a estimar la densidad de árboles que presentan hongos parásitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 árboles infectados por cuadro. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. SOLUCIÓN: ˆ m = 2,8 × 10 = 5, 6 arb. infectados / acre ; a) λ = na 10 × 0,5 ˆ 1 = 5, 6 1 ˆ ˆ V (λ ) = λ = 1,12 ⇒ B = 2,1 na 10 × 0,5 ˆ ˆ b) M = Aλ = 200 × 5, 6 = 1.120; B = ABλ = 200 × 2,1 = 423,32 2. (Como ejercicio 12, relación tema 7) Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. Transcurrido el mes, se ha observado en los 5 controles los siguientes resultados: Número de vehículos de ese modelo que usan el aparcamiento 1 0 2 1 3 2 4 0 5 3 Estime el número total de vehículos del modelo en estudio que utilizaron el aparcamiento. Dé el límite del error de estimación. SOLUCIÓN: A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m = 6 m = 1.2 λ = = 1.2 veh./ h 5 a Control M = λ A = 1.2 × 720 = 864 veh. 114 V M = ( ) A2 λ = 124416 an B = 2 124416 = 705.45 veh. 3. (Como ejercicio 9, relación tema 7) El hermano de un alumno de T.A.M. está pensando en abrir una farmacia de 24 horas. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar. Este asiduo alumno de T.A.M. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de clientes las 24 horas del día por lo que decide observar la afluencia de clientes en distintos periodos de igual duración, obteniendo los datos de la siguiente tabla clientes 10:00-10:30 15 14:00-14:30 13 18:00-18:30 18 22:00-22:30 8 02:00-02:30 2 06:00-06:30 4 Estime el número de clientes diarios de la farmacia observada y el correspondiente límite para el error de estimación. SOLUCIÓN: A = 24h a = 0.5h N = 48 n = 6 m = 60 m = 10 M = λA = m A 2 λ A2 m A = 480 clientes V M = = 2 = 3840 a an an ( ) 2 V M = 123,94 clientes ( ) 4. (Como ejercicio 13, relación tema 7) El ayuntamiento de Barcelona está interesado en conocer el número de aficionados que acudieron al aeropuerto para vitorear al equipo campeón. Para ello, dividieron la sala de espera, de dimensiones 100 metros de largo por 40 metros de ancho, en 100 cuadros de igual tamaño y seleccionaron 20, observando que el número de personas era 1.100. Estime el número total de asistentes y el límite para el error de estimación. SOLUCIÓN: A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55 M = λA = m A = 5500 a V M = ( ) A 2 λ A2 m = 2 = 27500 an an 2 V M = 331, 66 ( ) 5. (Ejercicio 8, relación tema 7) Un alumno de A.T.C. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la 115 Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382 alumnos. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. SOLUCIÓN: muestreo inverso t = 500 n = 382 s = 100 N= t p = nt = 1910 alumnos s t 2 n( n − s ) = 26664,35643 s 2 ( s + 1) 2 V N = 326,58 alumnos V N = ( ) ( ) (1910 ∓ 326,58 ) 116 8. Indicadores estadísticos regionales. 8.1 Introducción. 8.2 Medidas de desigualdad-concentración regional. 8.2.1 Curva de Lorenz. Índice de Gini. 8.2.2 Coeficiente de Theil. Índice de Theil. 8.2.3 Desigualdad individual y colectiva. 8.3 Medidas de dispersión regional. 8.4 Coeficiente de asociación geográfica de Florence. 8.1 Introducción Consideremos una población dividida en N subpoblaciones (regiones o estratos). Los objetivos de este capítulo son: o estudiar medidas de desigualdad o concentración que indiquen si la magnitud total de una variable económica se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. o estudiar la asociación que pudiera existir entre dos variables económicas a causa de su distribución entre las distintas subpoblaciones (Coeficiente de asociación geográfica de Florence). 8.2 Medidas de desigualdad-concentración regional En esta sección se estudian medidas de desigualdad o concentración que indican si la magnitud total se encuentra repartida equitativamente entre las subpoblaciones o, por el contrario, existen desequilibrios en su reparto. Son medidas que, a partir de la distribución de frecuencias de la variable económica bajo estudio, realizan una representación gráfica mediante una curva poligonal (Curva de Lorenz), o bien, sintetizan en un solo valor la desigualdad existente en el reparto de la variable (Índice de Gini, coeficiente de Theil, índice deTheil, desigualdad individual y colectiva). 8.2.1 Curva de Lorenz. Índice de Gini. (Ambas medidas ya se estudiaron en Técnicas Cuantitativas 1) Recordaremos lo más importante y lo ilustraremos con un ejemplo. N i son las frecuencias absolutas acumuladas. pi = Ni es la frecuencia relativa acumulada. ( N =número total de datos) N ui =son los totales acumulados. 117 1 R7 661..m.) R1 2460. la curva de Lorenz coincide con la bisectriz • En caso de concentración máxima (todos los individuos reciben nada. (1.5 R2 619.2 R4 1150. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u. qi = 0.1). La comparación entre los valores pi y qi nos informa sobre la concentración en el reparto. qk = 1 ).0). ∀i ). • Para cuantificar la posición de la curva de Lorenz se define el índice de Gini como IG = ∑ ( pi − qi ) i =1 k −1 ∑p i =1 k −1 = 1− ∑q i =1 k −1 i =1 k −1 i i ∑p i • • • 0 ≤ I G ≤ 1 .0) y (1. coincidirían para todos los i. la curva de Lorenz coincide prácticamente con los catetos del triángulo determinado por los puntos (0.m. No permite un análisis desagregado como los índices que estudiamos a continuación. Este índice es invariante frente a cambios de escala pero no frente a cambios de origen.): VAB Regiones (u. Ejemplo 8. 118 . Estos valores se representan mediante la curva de Lorenz. Si el reparto fuese equitativo. salvo uno que recibe todo. i = 1. Si hay concentración máxima I G = 1 .0 R6 437.0 Supongamos un país con 7 regiones.qi =son los totales acumulados relativos.. • En caso de equidistribución ( pi = qi del primer cuadrante. Si hay equidistribución I G = 0 . k − 1 ..9 Calcule el índice de Gini y represente la curva de Lorenz.0 R5 1865.0 R3 613.. 0 661.1 1050.2 3481.VAB 437.7 0.2 7806.2.8337 k −1 i 1 1 1 1 1 1 1 7 1 2 3 4 5 6 7 0.0 1865. j =1 N para cuantificar el parecido o la diferencia entre sí de los datos a analizar.1429 0.2 5346.8571 1. Índice de Theil.0000 p q 8.0000 2.2 Coeficiente de Theil.0000 4.7143 0.2857 0.6848 1.1429 0.9 1150.3 0.8 0.3888 3 i 1 0.4459 0.4286 0.8337 = 0.5714 0.0 2460.0000 IG = 1 − ∑q i =1 k −1 i =1 ∑p = 1− 1.5714 0.0560 0.4286 0.9 0. X ≥ 0 Regiones 1 Xi X1 xi x1 N XN xN i ∑X j =1 N 1 119 .2857 0.7 ui qj nj Ni pj 437.7 0.2 619.5 7806.3 2331.5 0.1 613.4 0.1345 0.1 0 0 0.3 1669. Cada una de las regiones aporta un valor de una variable económica X.8571 1.7143 0.2 0. H N ( x) = −∑ xi ln xi .6 0. El coeficiente de Theil se basa en la entropía o medida del desorden.2986 0. Supongamos una población divida en N regiones o estratos distintos.2138 0. ): Xi Regiones VAB (u...161 -0.079 0. Si existe equidistribución entonces −∑ xi ln xi = ln N y T = 0 i =1 N 2. N k regiones en cada uno de ellos: Entonces 120 ∑N g =1 k g = N .5 R2 619. Tenemos datos sobre el valor añadido bruto (VAB) de cada una de ellas (en u.282 -0. Gk .1. xN = valores porcentuales (proporciones) en cada región.315 0.. por tanto.Donde xi = proporciones de la variable respecto del total= Xi ∑X i =1 N i El coeficiente de Theil es. Supongamos que X se agrupa en k grupos: G1 .201 -0.0 R3 613.) R1 2460.0 R5 1865..210 -1.079 0.147 0.. xg = i∈Gg ∑x.056 0. por definición tomamos xi ln xi = 0 .200 -0.1859 . Si existe concentración máxima entonces −∑ xi ln xi = 0 y T = ln N j =1 N 3..7 xi xi ln xi 0. k y Tg = ln N g + ∑ i∈Gg xi  xi  ln   ..364 -0. i g = 1. El coeficiente de Theil permite un análisis desagregado.9 7806.2 R4 1150.m.. Nota T = ln N + ∑ xi ln xi i =1 N Si algún xi = 0 . 0 ≤ T ≤ ln N (En el ejemplo 8.342 -0...1 Supongamos un país con 7 regiones... Propiedades 1. por definición. está más cerca de la equidistribución que de la concentración máxima).1 R7 661. Ejemplo 8. xg  xg    ..085 1 -0.946. 760 = 0.239 0. con N1 ..0 R6 437.. 4.m..760 el coeficiente de Theil es: T = ln 7 − 1. T es más cercano a 0 que a ln7=1. Sea X = variable observada en las N regiones y x1 . 079 0.085 = ∑ xi =0. 299 i∈G1 Regiones grupo 2 R1 R4 R5 x( g = 2) xi 0.1.2 Realicemos un análisis desagregado con los datos del ejemplo 8. 701 i∈G2 Estudiamos la desigualdad dentro de cada uno de los grupos mediante el correspondiente coeficiente de Theil: Tg = ln N g + ∑ i∈Gg xi  xi  ln   xg  x g    donde xi es el valor porcentual dentro del grupo. Es la media de los coeficientes de Theil de cada grupo ponderados por los pesos de cada grupo. Ejemplo 8.147 0.k  x T = ln N + ∑ xg ln  g N g =1  g  k  + ∑ xg Tg  g =1  donde o k  x ln N + ∑ xg ln  g N g =1  g   representa la desigualdad entre grupos.079 0.315 0. Mide la disparidad   entre grupos teniendo en cuenta el tamaño de cada grupo N g en relación al peso del grupo xg en la variable económica observada.056 0. o ∑x T g =1 k g g representa la desigualdad dentro de los grupos. xg 121 .239 = ∑ xi =0. Supongamos que dividimos las regiones en dos grupos: Regiones grupo 1 R2 R3 R6 R7 x( g =1) xi 0. 1858 En términos relativos: T 0.352 -0.1512 + 0.449 0. la desigualdad.1512 0. permite determinar el origen de las diferencias existentes entre las regiones).1862 = 1 0.056 0.1858 0.1858 0. 0346 = 0.054 T2 = ln 3 − 1.358 -1. 0346 de esta forma: T = 0.187 0. 701( 0.314 -0. 0346 = + = 0. 0192 = 0. 0113) + 0.315 0. 701  ln N + ∑ xg ln  g  = ln 7 + 0. 299   0. tratando de limar las diferencias entre los dos grupos (esta es una de las ventajas del análisis desagregado.085 x( g =1) = 0. 0113 Regiones grupo 2 R1 R4 R5 xi xi x( g = 2) 0.375 T1 = ln 4 − 1.701 0.079 0.239 x( g = 2) = 0.210 0. 122 .264 0. Si tuviésemos que tomar medidas económicas para disminuir.375 = 0. 7755 − 1. 0446 ) = 0.9459 − 0. el 81.359 -0.8138 + 0.352 -0.367 -1.299 0. 054 = 0.079 0. 701ln  = N   4   3  g =1  g = 1.147 0.Regiones grupo 1 R2 R3 R6 R7 xi xi x( g =1) 0.1512 o Desigualdad dentro de los grupos: ∑x T g =1 2 g g = 0.284 1 xi  xi  ln   xg  xg    -0. aún más.341 1 xi  xi  ln   xg  xg    -0. 0446 o Desigualdad entre grupos: 2  x   0.38% es debido a la desigualdad entre grupos. 299 ln   + 0.264 0. 299 ( 0. actuaríamos en esa dirección.328 -0.1858 De la desigualdad existente en las siete regiones. 030 -0. Ejemplo 8.551 0.4 Regiones R1 R2 R3 R4 R5 R6 R7 Xi VAB (u.547 0.5 619 613.685 2.819 -0.1 661... i = 1.m..9 7806. El 0 indica equidistribución y el 1 concentración máxima..402 1. Indica la proporción en que el colectivo supera a la región iésima X i < x ⇔ la región i-ésima posee una desigualdad individual positiva X i > x ⇔ la región i-ésima posee una desigualdad individual negativa X i = x ⇔ la región i-ésima posee una desigualdad individual cero Ejemplo 8.7 di -0.3 ITHEIL = 0. se define la desigualdad individual de la región i-ésima respecto al colectivo como: di = x − Xi x = − 1. que solo toma valores positivos. 8. 0956 ln 7 Reparto cercano a la equidistribución.2.186 = 0. Para una variable X .Índice de Theil IT = ITHEIL T = = ln N ln N + ∑ xi ln xi i =1 N ln N = 1+ ∑ x ln x i =1 i N i ln N Es evidente que 0 ≤ ITHEIL ≤ 1 . y este hecho facilita comparaciones.802 0.) 2460.2 1150 1865 437. N Xi Xi Es una medida adimensional.878 123 .3 Desigualdad individual y desigualdad colectiva El objetivo en esta sección es medir la diferencia de un individuo (una región) con respecto al colectivo. .x= 7806. se puede calcular como suma de la desigualdad existente entre los grupos considerados más una media ponderada de las distintas desigualdades colectivas dentro de cada grupo o subpoblación: D= 1 N ∑d g =1 k g Ng + x N ∑D g =1 k Ng xg g 124 . no existe una cota superior para D ya que su máximo depende del tamaño de la población. N g → Número de elementos en el grupo g . Esta medida permite un análisis desagregado. k xg → Media del grupo g Dg = i∈Gg ∑ xg xg − X i Xi fi → Desigualdad colectiva en el grupo g dg = x − xg → Desigualdad individual del grupo g en relación a todos los grupos (toda la población). 243 7 Si se agregan las desigualdades individuales.. 7 = 1115. Sin embargo.4: D = ∑ di fi = i =1 7 1 7 2.. D . 411 7 i =1 (Realmente. k → Número de subpoblaciones o grupos.. ponderadas cada una de ellas por la frecuencia relativa de X i . Denotemos por: N → Número de elementos en la población (regiones) x → Media de todos los elementos de la población. entonces. g = 1. por si sola no dice nada. Ejemplo 8.5 Con los datos del ejemplo 8. pero la podemos comparar con el reparto de otra variable). se obtiene la desigualdad colectiva: D = ∑ di fi i =1 N D aumenta cuando en la población existen mayores desequilibrios.878 ∑ di = 7 = 0. m.106 2331.389 1825.8 4 x1 − xi 1 x −x 1 fi = ∑ 1 i = 0.2 x1 − xi xi -0.333 -0.1027 xi 3 i∈G2 xi 3 D2 = ∑ i∈G2 d2 = x − x2 1115.9136 582.9 2331.5 1150 1865 5475.o o 1 N ∑d g =1 k g =1 k g N g → Representa la desigualdad entre las subpoblaciones o grupos. 2 = 582.) 619 613. Ejemplo 8. 243 − 582.021 0.308 = 0.5 x2 − xi xi -0.) 2460.m.6 Regiones grupo 1 R2 R3 R6 R7 x1 = VAB (u.167 = = −0.058 -0.120 0. x N ∑D Ng xg g → Representa la desigualdad dentro de las subpoblaciones o grupos.8 x1 Regiones grupo 2 R1 R4 R5 x2 = VAB (u.167 x2 Resumiendo: x= 7806.167 3 x2 − xi 1 x −x 1 f i = ∑ 2 i = 0.308 5475.1 661.5 = 1825.258 0. 243 − 1825.050 0. 7 = 1115.106 = 0. 0265 xi 4 i∈G1 xi 4 D1 = ∑ i∈G1 d1 = x − x1 1115.8 = = 0.587 -0. Tiene en cuenta el tamaño de cada grupo en relación a la media del grupo.2 437. 243 7 125 . 3 Medidas de dispersión regional En general.167 2.4 Coeficiente de asociación geográfica de Florence Con este coeficiente se cuantifica la relación que pueda existir entre dos variables X e Y . Las más utilizadas son: o Varianza: V ( X ) = 1 N ∑( X i =1 N i − x) 2 o Varianza normalizada: VN ( X ) = V (X ) 2 = ( coef.000182 0. les pueden corresponder una misma dispersión. 8. cuando se dispone de un valor de cada una de ellas en cada una de las N regiones consideradas para el estudio. de variacion de Pearson ) 2 x Estas medidas tienen el inconveniente de que a estructuras distintas (espaciadas o polarizadas).1363 = 1 0. Supuestos conocidos para cada una de las regiones el par ( X i . entonces la participación de cada valor de la variable sobre el total es: xi = Xi ∑X i =1 N e yi = i Yi ∑Y i =1 N i  0 ≤ xi . 056 + = 0. 0.8 1825. Yi ) . yi ≤ 1   N  N  ∑ xi = ∑ yi = 1   i =1  i =1  1 N ∑ xi − yi 2 i =1 El coeficiente de asociación geográfica de Florence es: F = 1 − 126 .0265 0.1027 0. 8.167 0. 411 0. 056 = 0. 4874  +  7 7    En términos relativos. se puede utilizar cualquier medida de dispersión para estudiar las disparidades entre distintas regiones (estudian hasta qué punto la situación de las regiones puede ser considerada homogénea).355 + 0. 243  0.9136 -0. 000351 = 0.000169 0. 411 La desigualdad es debida a la diferencia entre subpoblaciones o grupos.4874 1   1115.6544 -1.000351 3.Grupos 1 2 Ng xg Dg dg Dg Ng xg dg Ng 4 3 582. 411 D =  2.389 0.8637 + 0.355 0. 4 104.0012 0.0075 0. En situación de igualdad.0 244.1 68.0669 0.1 473 4.6 Portugal 27.4 43.0236 0.0188 0.8 42.1 Total 3230. 4.3 3230.) Alemania Bélgica Dinamarca España Francia Grecia Holanda Inglaterra Irlanda Italia Luxemburgo Portugal Total 826.2 674.3 92.7 Bélgica 104.0 301.3 2 xi 0.0512 0..0003 0.7 (Ejercicio 1. el coeficiente también aumenta.3 2.3 41.2 504.3 595 24. PIB (u.m.7 30. i = 1.2414 0.0329 0.7 27.2089 0.2558 0.5 43.3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país.1842 0. xi = yi .0015 0. A medida que aumenta la asociación entre las variables. N ⇒ F = 1 .6 92.8 544 132 41.7 2.0 Grecia 42.5 Dinamarca 76. 7095 2 i =1   127 .2 244.1464 0.0231 0.0183 0.0325 0.8 165.0586 0.5810  = 0.9 301.1571 0.Sus propiedades son: 1.1 504.2 Inglaterra 595.0323 0.0191 0.4 248.5 2253.0045 0.1 España 216.9 Italia 473.0409 1 xi − yi 0. 0 ≤ F ≤ 1 2.1104 0.1 68.1 2253.2240 0.m..5 76. Relación Tema 8) Sabemos que en un año el PIB a precios de mercado de los siguientes países fue: PIB (u..0759 0.8 Francia 674.0085 1 yi 0.8 132.5 30.0127 0.4 216.3 Luxemburgo 4.0132 0.1 Irlanda 24.5810 F = 1− 1 12 1  ∑ xi − yi = 1 −  2 0.8 544.1337 0..1083 0.0 Holanda 165.5 Superficie (1000 km ) 248.0453 0.1454 0.0324 0.) Superficie (1000 km 2 ) Alemania 826.0135 0. 3.0306 0. En situación de desigualdad máxima ⇒ F = 0. Ejemplo 8. 5892 xi ln xi -0.0000 T = ln N + ∑ xi ln xi = 0.3265 0.3243 -1. 6865 = ∑ di = = 0.6865 x = 61. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor.EJERCICIOS RESUELTOS 1.2266 0.2041 1. Solución: región R1 R2 R3 R4 suma N Xi 80 15 100 50 245 xi = Xi ∑X i =1 N i ln xi -1.3658 -0.7932 -0.0833 -0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor.1192 -2.8961 -1.4082 0. (ejercicio 3.2250 2. Solución: Región R1 R2 R3 R4 suma N Xi 80 15 100 50 245 di = x −1 Xi -0.1710 -0.1597 i =1 IT = ITHEIL = T = 0.2344 3. (ejercicio 4.1152 ln N 2.3655 -0.0612 0.3875 0.25 N D = ∑ di fi = ∑ di i =1 i =1 1 1 N 2. 6716 4 4 i =1 4 128 . 0612 0.00128 0.2232 1.97959 2 i =1 129 .01913 0.0408 0.00638 0.3125 0.2041 1.0000 0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 80 350 R1 15 70 R2 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.3. Solución: región R1 R2 R3 R4 suma Xi 80 15 100 50 245 Yi 350 70 450 250 1120 xi = Xi ∑X i =1 N yi = i Yi ∑Y i =1 N i xi − yi 0.3265 0.0625 0.01403 0.4018 0.0000 F = 1− 1 N ∑ xi − yi = 0. (ejercicio 5.4082 0. m.9. L Yi i = ∑ Yij → suma de los valores de todos los sectores en la región i j =1 N Yi j = ∑ Yij → suma de los valores de todas las regiones en el sector j i =1 Y = ∑ Yi i = ∑ Yi j = ∑∑ Yij → suma de los valores de todas las regiones y todos los i =1 j =1 i =1 j =1 N L N L sectores. i = 1. Dispondremos de una tabla de doble entrada con las regiones por filas y los sectores por columnas: S1 Y11 Y21 S2 Y12 Y22 SL Y1L Y2 L Región/Sector R1 R2 Yi i Y1i Y2 i RN Yi j YN 1 Yi1 YN 2 Yi 2 YNL Yi L YN i Y siendo Yij → valor de la variable en la región i del sector j. Ejemplo 9. Consideremos un conjunto de L sectores repartidos en N regiones.) 130 ..1 (lo usaremos a lo largo de todo el tema) Sea Y = VAB al coste de los factores (u.3 9. Coeficientes de localización sectorial. 9. L j = 1..... Medidas de localización espacial.1 9.1 Introducción Las medidas de localización espacial son indicadores que miden la actividad de distintos sectores económicos en un conjunto de regiones en referencia a una variable económica. Coeficientes de especialización regional. Coeficientes de diversificación.. Cocientes de localización y especialización..2 9.. N .5 Introducción.4 9. 9. 5 613.8 Total (Reg) 2.935.8 Total (Sect) 576. (Especialización de la región i) Si Lij < 100 : o existe una menor actividad del sector j en la región i que en toda la población ó o existe una menor participación de la región i en el sector j que en toda la población 131 .9 R4 145. (Localización del sector j).6 Servicios 1.9 287.1 9.6 2.9 390.7 Industria 723.6 42.2 Cocientes de localización y especialización Yij Yi j → participación de la región i en el sector j (cocientes de los valores de la columna j sobre su total) Yi i → participación de la región i en la población (cocientes de los valores de la columna Y marginal sobre su total) Yij Yi i → participación del sector j en la región i (cocientes de los valores de la fila i sobre su total) Yi j Y → participación del sector j en la población (cocientes de los valores de la fila marginal sobre su total) Se define el cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) como: Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Interpretación de la primera igualdad: Es la relación que existe entre la participación del sector j en la región i y la participación del sector j en el total.5 2.795.142.454.Región/Sect Agricultura R1 282 R2 31 R3 117.282.497.460.2 4.526.6 294.6 1. Interpretación de la segunda igualdad: Es la relación que existe entre la participación de la región i en el sector j y la participación de la región i en el total.7 4.4 579 7. L13 = Y13 / Yi3 1.460. Se trata de conocer si un sector concreto se distribuye por igual en todas las regiones.088 Por columnas se interpreta los cocientes de localización Servicios 107.1..2 Con los datos del ejemplo 9.1 compárese con los anteriores comentarios y se entenderá que se refieren a la localización (o especialización) en términos relativos. siempre en relación al patrón global o medio (véase ejercicio resuelto 1)..Si Lij > 100 : o existe una mayor actividad del sector j en la región i que en toda la población ó o existe una mayor participación de la región i en el sector j que en toda la población Ejemplo 9.454.282.471 97. la industrial en la R4 y los servicios en la R3. El coeficiente de localización del sector j-ésimo se define como: CL j = 1 N Yij Yi i ∑ − ..1 Y1i / Y El sector servicios está más localizado en la R1 que en toda la población ó la región R1 está más especializada en servicios que en el conjunto de todas las actividades.370 179.8 100 = 100 = 107. 9.5 / 7. Los cocientes de localización (o especialización) para estos datos son: Región/Sect Agricultura Industria R1 154. L Propiedades 1. la R2 en industria.916 78..333 127.572 R3 38. la R3 en servicios y la R4 en agricultura. 64 2.740 13. 0 ≤ CL j ≤ 1 132 .623 85.365 109. Por filas se interpreta los cocientes de especialización de cada región: La R1 está más especializada en agricultura. si sólo se encuentra localizado en una región o si ocurre alguna situación intermedia. NOTA: Obsérvese los datos originales en el enunciado del ejemplo 9. 2 i =1 Yi j Y j = 1.9 / 4.423 de los respectivos sectores: la actividad agrícola está más asentada en la R4.795.091 R2 68.3 Coeficientes de localización sectorial Para cada sector se puede definir una medida que permite conocer su localización en el conjunto de las regiones consideradas.878 R4 340. 531 0.054 0.152 = 0.9 287.012 0.704 Servicios 1454.4 579 7795. pero no implica una nota definitoria en ninguna región en especial.7 4282.9 R4 145. 0805 2 1 CLServ = 0.152 1 CLAg = 0. no existe concentración regional de la actividad j.100 0.024 0.2 4142.204 0.011 0. 3.316 0.9 1526.520 0.6 Agricultura Yi1 Yi i Yi1 − Yi1 Y Yi1 0.3 Calcule los coeficientes de localización sectorial para los siguientes datos (los mismos de los ejemplos anteriores) Agricultura Industria R1 282 723. y eso ocurre en todas las regiones.583 0. la Y presencia del sector j en cada una de las regiones es completamente distinta de la presencia de todos los sectores en conjunto (véase ejemplo 9.074 1 Industria Yi 2 Yi i Yi 2 − Yi 2 Y Yi 2 0.246 0.6 2497.8 Total (Reg) 2460. 133 .133 1 0.6 R3 117.064 0.022 0. CL j = 1 si las diferencias entre los cocientes Yij Yi j y Yi i son altamente significativas.7 2935.069 0.4).161 Servicios Yi 3 Yi i Yi 3 − Yi 3 Y Yi3 0.067 0. La concentración es débil en servicios e industria.173 0.052 0.340 0.327 0. El sector está presente en cada una de las regiones igual que todos los sectores en conjunto (véase ejercicio resuelto 1).1 Yi i Y 0. CL j = 0 si la participación de la región i en el sector j es igual a la participación de la región i en el total. aunque no muy alta en la agricultura. Es decir. 704 = 0.6 42.6 R2 31 294.161 = 0.5 613. 076 2 Existe una cierta concentración.025 0.5 Total (Sect) 576. Ejemplo 9.253 1 0.8 390. Este coeficiente caracteriza al sector i dentro del marco regional.352 2 1 CLInd = 0.010 1 0.2.059 0.079 0.489 0.179 0. Se define el coeficiente de especialización de la región i como: 134 .001 0.4 Calcule los coeficientes de localización sectorial para los siguientes datos S1 R1 R2 R3 S1 R1 R2 R3 S2 0 0 1000 S2 1 1 0 Yi i Yi i / Y 0 0 1000 1000 Yij / Yi j R1 R2 R3 1 1 0 2 S1 1 1 1000 Y=1002 S2 0.5 0 S2 Yij Yi j − Yi i Y R1 R2 R3 CL1 = 0.Ejemplo 9.002 0.4 Coeficientes de especialización regional Para cada región se puede definir una medida que permita conocer su nivel de especialización en algún sector. en todas las actividades por igual o bien se da una situación intermedia. siempre en relación al patrón global o medio (véase ejercicio resuelto 1).001 0.5 0.499 0.001 0. Se trata de conocer si una región concreta está especializada en alguna actividad.499 0. 002 0.001 0.998 CL2 = 0.998 9.998 Yi j 0 0 1 S1 0. 6 1526.054 0.9 287.041 0. 3. Ejemplo 9.107 1 0.7 Agricultura Yi j Y Y1 j Y1i Y1 j Y1i − Yi j Y Industria 723.5 2935.9 390.369 0.8 Total (Sect) 576.042 0.104 0.178 135 .469 0.480 0.6 2497.028 Y3 j Y3i Y3 j Y3i − Yi j Y 0.051 Yi j Y 1 1 0.5 613.294 0.080 0.591 0.8 Servicios 0.674 0.023 0.074 0..074 0.2 4142.165 1 0.951 R4 R3 R2 R1 Y2 j Y2 i Y2 j Y2 i − 0.252 Y4 j Y4 i Y4 j Y4 i − Yi j Y 0.1 0..208 1 0.377 0.4 579 7795.083 0. Situación análoga a la de CL j = 1 pero referida a regiones en lugar de a sectores. CEi = 0 si en la región i está presente cada sector en la misma proporción que en el conjunto de la población. CEi = 1 cuando existe un alto grado de especialización de la región i.6 42.9 R4 145.6 Industria 0..603 0. 0 ≤ CEi ≤ 1 2.6 294. i = 1.5 Región/Sect Agricultura R1 282 R2 31 R3 117.115 0.476 Total (Reg) 2460.298 Servicios 1454..549 0.046 0. N 2 j =1 Yi i Y Propiedades 1.008 0.CEi = 1 L Yij Yi j ∑ − .7 4282. Si existe diversificación máxima. Yi 2 .5 Coeficientes de diversificación Este coeficiente mide el grado de diversificación de las actividades de una región. es decir. la varianza correspondiente a los valores Yi1 . Para normalizar este coeficiente entre cero y uno.. La diversificación de una región será mínima cuando una sola actividad esté presente en ella. 0825.. 9... 0535. el coeficiente de diversificación de la región i se define como:  L   ∑ Yij  2  j =1  = Yi i . 2 2 1 1 CER3 = 0. CER4 = 0..104. Si una región tiene un bajo coeficiente de diversificación es porque su producción se concentra mucho en un determinado sector y por tanto dicha producción está poco diversificada... YiL de la variable en los L sectores 1 L  1 L S = ∑ Yij2 −  ∑ Yij  L j =1  L j =1  2 i 2 podría considerarse una medida de tal diversificación.. L ) entonces L  L  1 L 1 L  S = 0 ⇒ ∑ Yij2 = 2  ∑ Yij  ⇒ L ∑ Yij2 =  ∑ Yij  L j =1 L  j =1  j =1  j =1  2 i 2 2 Teniendo en cuenta esto. Para la región i-ésima.1 1 CER1 = 0. 208 = 0..107 = 0... L −1  L 136 . 4755 2 2 La región más especializada es la R4.. se define CDi* = L  1  CDi −  . El grado de diversificación máximo se alcanza cuando una magnitud económica considerada se distribuye uniformemente entre los distintos sectores. alcanzando si la diversificación es mínima y 1 si la diversificación L L es máxima. CER2 = 0.165 = 0. j = 1. todos los sectores tienen el mismo valor (Y ij = cte. CDi = L L L∑ Yij2 L ∑ Yij2 j =1 j =1 2 i = 1.951 = 0. N y verifica 1 1 ≤ CDi ≤ 1 . CDR 4 = 0.454. justificando y apoyando los comentarios en los datos del enunciado. 666. 742 3 ( 2822 + 723.460.92 ) 2 3∑ Y1 j j =1 2 CDR 2 = 0. CDR 3 = 0.Ejemplo 9. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia. 454 La menos diversificada es la región R4. Construcción. 61. EJERCICIOS RESUELTOS.6  3   ∑ Yij  2. 1. (ejercicio 4. 6025.52 j =1 CDR1 =  3  = = 0. CDR 4 = 0. relación tema 9) En un país. CDR 3 = 0. 499. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas. 636 * * * * CDR1 = 0.) datos REGION R1 R2 R3 S1 15 10 6 SECTOR S2 S3 165 30 110 20 66 12 S4 195 130 78 137 . Químicas y Alimentación. 735. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I Siderurgia Químicas 15 30 II 10 20 III 6 12 Construcción 165 110 66 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas. CDR 2 = 0. dividido administrativamente en tres regiones. 62 + 1. 3226 0.0741 0.00 100.000 a) Obtenga los coeficientes de localización de las distintas actividades.000 65.0741 0.4815 Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3 S1 100.0370 0. 138 .00 100.00 100.4839 0.1935 Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población S1 0.000 30.49 0.49 2.00 S3 100.4839 0.00 100.3226 0. (ejercicio 3.00 100.000 60.4815 0.1935 SECTOR S2 S3 0.00 100.00 100.0370 0.6178 0.4815 0.3226 0.1935 0.6178 0.000 8.4074 0.49 0.000 14.3226 0.4815 0.000 18.0370 SECTOR S2 S3 0.4074 0.4074 0.00 Coeficientes de localización sectorial S1 SECTOR S2 S3 0 0 0 S4 0 CL j Coeficientes de especialización regional CEi REGION R1 R2 R3 0 0 0 Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3 0.Participación de las regiones en cada sector y en la población total REGION R1 R2 R3 S1 0.00 S2 100.1935 S4 población 0.4839 0.000 90.6178 0.000 Cataluña 15.4074 0.1935 0.000 Castilla La Mancha 3.4839 0.000 20.0741 0.3226 0.4839 0. relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 Castilla León 19.00 100.0370 0.0741 S4 0.00 S4 100. 2423 0.0046 0.j S1 10000 3000 19000 15000 47000 SECTOR S2 S3 Yi.b) Calcule los coeficientes de especialización para cada comunidad.1219 0.0606 0.0857 0.2131 0.3757 0..1496 0.3191 0.2105 R2 0.2699 R2 0.6842 0.0115 0.2128 0. 65000 20000 95000 18000 14000 35000 30000 8000 57000 60000 90000 165000 173000 132000 352000 Calculamos la participación de las regiones en cada sector población Yi i en la siguiente tabla Y Yij Yi j y la participación en toda la participación región SECTOR REGION S1 S2 S3 población R1 0. La suma de cada columna dividida por dos nos da Yi j Y el coeficiente de localización sectorial CL j = 1 N Yij Yi i ∑ − .5143 0.2423 0.4688 suma 1 1 1 1 Calculamos la participación de los sectores en cada región población Yi j Y Yij Yi i y la participación en toda la en la siguiente tabla participación sector SECTOR REGION S1 S2 S3 suma R1 0.5455 población 0. 2 i =1 Yi j Y j = 1.0571 0.0638 0.1040 0.5263 0.6818 0.4043 0.0909 0..1404 R4 0.1053 0.4000 R3 0.3333 0.2197 139 . L REGION R1 R2 R3 R4 CLj Coeficientes de localización sectorial SECTOR S1 S2 S3 0.0356 0.0994 R3 0.1335 0..1515 0.3468 0.1184 0.1734 0.1619 R4 0. Solución: Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas..0066 0. datos REGION R1 R2 R3 R4 Y.4915 0.1061 0.1219 0.1013 0.1058 0.3750 1 1 1 1 1 A partir de la tabla de participación de las regiones calculamos las diferencias en valor Y Y absoluto ij − i i en la siguiente tabla.3636 0. 234649 0.. N 2 j =1 Yi i Y Coeficientes de especialización regional SECTOR REGION S1 S2 S3 R1 0.0283 0./SEC.1278 0. CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores.192733 0.A partir de la tabla de participación de los sectores calculamos las diferencias en valor Y Y absoluto ij − i j en la siguiente tabla. Cada sector se localiza en igual medida que todos ellos en conjunto. La suma de cada fila dividida por dos nos da el Yi i Y coeficiente de especialización regional CEi = 1 L Yij Yi j ∑ − .7143 0...0478 0.2857 0.1998 0.7143 0.025 R3 0. i = 1.0348 0.2857 1 1 1 Yi i Y 0.7143 0. Interprete los resultados Solución: REG. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial.0426 0.2346 R4 0.7143 0.1927 0.0228 0.170455 3. (ejercicio 5. R1 R2 S1 15 6 21 S2 225 90 315 S3 195 78 273 Yi i 435 174 609 Yi j Yij Yi j R1 R2 suma S1 S2 S3 0. ( ∀j .1705 CEi 0.2857 0.047808 0..2857 1 Yij Yi j − Yi i Y S1 0 0 S2 0 0 S3 0 0 R1 R2 CL j = 1 N Yij Yi i ∑ − 2 i =1 Yi j Y 0 0 0 La participación de cada una de las regiones en el sector j.1645 R2 0. 140 . Interprete los resultados Solución: REG.1379 0.1379 0. (ejercicio 6. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados./SEC. relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional.4. 5./SEC.5172 0. R1 R2 S1 60 24 84 S2 225 90 315 S3 150 60 210 Yi i 435 174 609 Yi j Yij Yi i R1 R2 S1 S2 S3 0.3448 0. Cada región se especializa en la misma medida que el conjunto del país.3448 suma 1 1 1 Yi j Y Yij Yi i − Yi j Y S1 0 0 S2 0 0 S3 0 0 CEi = 1 L Yij Yi j ∑ − 2 j =1 Yi i Y 0 0 R1 R2 La presencia de cada sector en la región i.5172 0. Interprete los resultados Solución: REG.5172 0. ( ∀i . (ejercicio 7.3448 0.1379 0. CEi = 0 ) es igual a la presencia de cada sector en el conjunto del país (todas las regiones). R1 R2 S1 90 36 S2 300 120 S3 195 78 Yi i 585 234 Yi i2 342225 54756 141 . relación tema 9) El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Región/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados.75702479 38025 136125 6084 21780 0.838016529 0. (ejercicio 8. está presente en ella. En la región sur (R2) el grado de diversificación es máximo. esto ocurre cuando una sola actividad. Interprete los resultados Solución: REG. CDi* = 1 .333333333 1 En la región norte (R1) el grado de diversificación es mínimo.838016529 6. CDi* = 0 . (S1=S2=S3=30).75702479 0. R1 R2 S1 90 30 S2 0 30 S3 0 30 Yi i 90 90 Yi i2 8100 8100 Y 2 ij S1 8100 900 S2 0 900 S3 0 900 ∑Y j =1 L 2 ij CDi = Yi i2 L∑ Y j =1 L 2 ij CDi* = L  1  CDi −  L −1  L 0 1 R1 R2 8100 2700 0. (S1=agricultura).Yij2 R1 R2 S1 8100 1296 S2 90000 14400 S3 ∑Y j =1 L 2 ij CDi = Yi i2 L∑ Y j =1 L 2 ij CDi* = L  1  CDi −  L −1  L 0. esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores. 142 ./SEC. Véase ejemplo 10.. . . el estadístico tendrá un valor cero. tampoco se rechaza 143 . pk . .3).1 Contraste χ 2 de bondad de ajuste. npk n nk n ( nk − Ek ) 2 ( nk − Ek ) χ2 2 Ek 1 Se puede demostrar que bajo H0. 2 ( ni − Ei ) 2 Ei E1 2 ( n1 − E1 ) . . Contrastes 2 χ2 de Pearson. Sk n1 . 10.. y no se puede rechazar H0. .10. 10.1 Contrastes χ de bondad de ajuste. 10. . . . . Si existe una concordancia perfecta entre las frecuencias que se observan y las que se esperaban. Definimos el estadístico: χ =∑ 2 i =1 k ( ni − Ei ) Ei 2 Para hallar el valor del anterior estadístico es aconsejable disponer los cálculos en una tabla como sigue: ni S1 . Sk El contraste a realizar es: H0: X sigue una distribución de probabilidad conocida. Sea una muestra aleatoria de tamaño n procedente de una variable aleatoria (población) X dividida en k clases exhaustivas y mutuamente excluyentes: S1. S2. 2 . . .2 Contrastes χ 2 de independencia..3 Contrastes χ 2 de homogeneidad. χ 2 → χ k2−1 (NOTA: Habrá que restar un grado de libertad por cada parámetro de la población estimado. Ei=npi=nº esperado de observaciones en la clase i-ésima bajo H0. Este contraste se emplea para decidir si un conjunto de datos proviene de una distribución de probabilidad dada. . 10. . ni=nº de observaciones en la clase i-ésima. pi = P [ x ∈ Si ] bajo H 0 p1 Ei = npi np1 ( ni − Ei ) ( n1 − E1 ) . 025 0.6 0.9 144 .625 χ 2 = 4.025 0. Por otro lado. Solución H0: p1 = p2 = p3 = p4 = p5 = 1 (distribución discreta uniforme) 5 H1: las frecuencias no son todas iguales. no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?.1 (ejercicio 1. ( α = 0. si el estadístico toma un valor grande es que hay discrepancia entre unas y otras frecuencias y habrá que rechazar H0. bajo H 0 Ei = npi ni L M X J V pi ( ni − Ei ) 81 25 64 1 25 2 ( ni − Ei ) 2 Ei 49 35 32 39 45 200 1/5 1/5 1/5 1/5 1/5 1 40 40 40 40 40 200 2. relación tema 10) ▼ El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. Fijado un nivel de significación α . se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico.si las diferencias son pequeñas.05 ).1−α Acepto H0 Rechazo H0 1−α α χ k2−1. En base a una muestra aleatoria de cuatro semanas completas de trabajo.625 1.1−α Ejemplo 10. rechazamos H0 si χ 2 > χ k2−1. obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información. Si esto no ocurre tendríamos que combinar clases vecinas.49) no existe razón para creer que el número de empleados que acude al consultorio no se encuentra distribuido de forma uniforme a lo largo de la semana. Con el fin de confirmar este hecho.3659 0. 49 (4.47<5 0.24 2. H0: X → P (0. ▄ Condición de validez del test.67<5 ≅ 50 Se agrupan la segunda. ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0. 0'95 = 9. se ha controlado el número de llegadas diarias al mismo.1647 0.33 18.3 p4 = P [ X ≥ 4] ni X =0 X =1 X =2 X =3 X ≥4 pi bajo H 0 Ei = npi 21 18 7 3 1 50 0.0134 1 20.0494 0.9) En las tablas de la Poisson se buscan las probabilidades pi = P [ X = i ] i = 0.3 8.9? ( α = 0.1−α = χ 4. Ejemplo 10. Si los valores Ei son pequeños.. tercera y cuarta clase 145 ..9<9.. Este contraste es apropiado siempre que Ei > 5 ∀i . χ 2 puede hacerse grande sin razón.2 (ejercicio 2. relación tema 10) ▼ En un cajero automático se ha observado una baja utilización del mismo.2 χ k2−1. 05 ) Solución X=nº de llegadas al cajero/día.4066 0. pero por cada par de clases que se combinen hay que reducir en 1 los grados de libertad de la distribución del estadístico.. luego acepto H0. sin suponer que los parámetros de dicha distribución son conocidos.012689 χ 2 = 0. 4. a veces sucede que queremos contrastar la hipótesis de que los datos están generados por alguna distribución (p.1815 0.1488 0.1370 1 1. 2.4066 0. 4. 1.3 (ejercicio 8. 1.1444 2 ( ni − Ei ) 2 Ei 21 18 11 50 0. 3.4489 0. 3. ▄ Hasta ahora se ha contrastado la hipótesis de que los datos están generados por una distribución completamente conocida. 1. 0397 χ 32−1. 0. 3.0672 0. 2.615 5.9.09 0. 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? Solución X= personas que requieren diariamente información X= 73 = 2. 3. 7) Ei = npi pi bajo H 0 2 4 5 8 5 3 27 0. los datos de que disponemos pueden utilizarse para estimar los parámetros desconocidos.2450 0. No podemos rechazar que los datos provengan de una distribución de Poisson de parámetro 0.e.ni X =0 X =1 X ≥2 pi bajo H 0 Ei = npi ( ni − Ei ) 0.004918 0. 7 personas / día = λ 27 ni X X X X X X =0 =1 =2 =3 =4 ≥5 H0: X → P (2. relación tema 10) ▼ Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3. 5. 0'95 = 5. 2. Binomial.9535 4. 3.699<5 27 146 .8144<5 4. pero en el contraste los grados de libertad de la chi-cuadrado se reducirán en una unidad por cada parámetro de la distribución que tenga que ser estimado.0176<5 3.3 11.2205 0. Sin embargo.3659 0. Ejemplo 10. 2. 4. 4. 3.2275 1 20.38 ≅ 50 0. 5. 5. Poisson o Normal).02208 0.33 18. En tales circunstancias. 0. 3.99 . 2.9005<5 6. 4. Esta conclusión nos permite afirmar que el cajero es muy poco utilizado ya que el nº medio de llegadas esperadas por día es menor de 1. ni X ≤1 X =2 X =3 X ≥4 pi bajo H 0 Ei = npi ( ni − Ei ) 2 Ei 6 5 8 8 27 0. ni• = ∑ nij = nº de elementos que pertenecen a la categoría Ai de X. las frecuencias absolutas de las parejas de datos muestrales se recogen en una tabla de doble entrada denominada tabla de contingencia X\Y A1 A2 B1 n11 n21 B2 n12 n22 . Con este contraste se desea estudiar si dos características (variables aleatorias) X e Y son independientes. .2487 0. 0'95 = χ 2. Ar .3943 0. B.99 . nr1 n•1 . H1 : X e Y no son independientes. nr 2 . clasificadas por tipo de producto reclamado (A.0761 0. Ejemplo 10.9535 7. El contraste a realizar es: H0 : X e Y son independientes.615 5.4 (ejercicio 9. nr • n n• j n•2 . C) y por la edad del reclamante 147 .7035 0.0104 χ 2 = 1.2205 0. Para ello. j =1 r c n• j = ∑ nij = nº de elementos que pertenecen a la categoría B j de Y.2 Contraste χ 2 de independencia. i =1 n = nº de elementos en la muestra. (1. relación tema 10) ▼ La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor.1843 ▄ 2 2 χ 4−1−1. nrc n• c . .99) luego acepto H0.7149 6. 0'95 = 5. 10. . Bc n1c n2c ni• n1• n2• .18<5.2858 1 6. .2450 0. nij = nº de elementos de la muestra que pertenecen a la categoría Ai de X y B j de Y.7166 27 0. bajo la hipótesis de independencia esas 125 observaciones se tienen que distribuir por filas proporcionalmente al total de cada fila A B C 36/167=0.92 167 n n 75 = n•2 3• =56.335 (33. Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1).5%) 75/167=0.1−α Solución (ejemplo 10.A B C El contraste a realizar es: ≤ 30 8 12 22 42 > 30 28 44 53 125 36 56 75 167 H0 : Tipo de producto y edad son independientes (no están asociados). Claramente. H1 : No son independientes (están asociados). columna j = ni• n• j n Razonemos con el ejemplo: En la columna 2 (>30) hay un total de n•2 = 125 observaciones.4) ▼ En la siguiente tabla se ha colocado entre paréntesis Eij 148 .95 167 n 56 n = n•2 2• =41.449 (44.14 n 167 Luego esperaríamos para los mayores de 30 años A B C 125× 0.449=125 ▄ El estadístico para estos contrastes se define como: χ =∑∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 que tiene una distribución χ 2 → χ (2r −1)( c −1) bajo H 0 .215=125 125× 0.215 (21. Si H0 fuera cierto: Eij = nº esperado de observaciones en la fila i.9%) 36 n = n•2 1• =26. la hipótesis de independencia será rechazada cuando las diferencias entre lo observado y lo esperado sean grandes y por tanto el estadístico χ 2 tome valores grandes de acuerdo a la distribución que sigue.335=125 125 × 0.5%) 56/167=0. 99 . 0. Los resultados aparecen en la siguiente tabla. 27 2 2 χ (3−1)(2−1).1218 0. el contraste es válido siempre que los valores esperados sean mayores que 5.95) 36 44 (41. bien sean de las variables X o de Y.05 = χ 2. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0.5228 0.92) 56 53 (56.. Al agrupar las clases disminuye los grados de libertad. Ejemplo 10.95 = 5. 05) Sueldo\Antigüedad 0-500 500-1000 1000-2000 2000-3000 >3000 n• j <5 años 17 16 4 9 6 52 5-10 5 8 11 8 3 35 10-20 10 9 5 8 4 36 >20 años 6 7 2 6 6 27 ni• 38 40 22 31 19 150 149 .1−0. En todo caso los grados de libertad tienen que ser mayores que 1.05) 12 (14.1756 1.14) 75 125 167 > 30 (n ij − Eij ) Eij ≤ 30 A B C 0.27 + .3073 0. 05 2 ( 53 − 56. Eij = ni• n• j n > 5 ∀i. 05) 9. relación tema 10) ▼ Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. + χ2 = (8 − 9.5 (ejercicio 10. agruparemos dos o más clases consecutivas.nij ( Eij ) ≤ 30 > 30 A B C 8 (9.1032 0. ∀j Si esto no ocurre. no hay evidencia empírica para rechazar la hipótesis de independencia.99 1.86) 42 2 28 (26.08) 22 (18.. Condición de validez del test: ▄ Al igual que en el anterior test de la chi-cuadrado.14 ) 56. luego acepto H0.27<5.0409 0.14 2 = 1. .96 5.433 10-20 9.133) 11 (11. En muchas ocasiones nos encontramos ante tablas de datos con la misma apariencia formal que una tabla de contingencia pero en las que la situación es diferente.44 4. ▄ 10. nrc nc .867 9.75 6. nr 2 n2 . + 21 2 2 χ (4−1)(3−1).87) 2 >10 años 16 (15..17) 16 (13.1−0.87 7..587 5-10 8.42 Agrupamos las dos últimas filas y las dos últimas columnas.2 3.333 5. nc .Solución n 0-500 500-1000 1000-2000 2000-3000 >3000 Eij = ni• n• j <5 años 13. .6 5.. Ar . nij (E ) ij <5 años 17 (13..233 4. sino muestras independientes de c poblaciones. .12 9. 150 .3 Contrastes χ 2 de homogeneidad. .58 3. Bc n1c n2c n1• n2• CATEGORIAS A1 A2 n11 n21 .867) 8 (9.17 ( 24 − 21) + . .95 = 12. Los datos se expresan en una tabla como la que sigue: POBLACIONES B1 B2 n12 n22 .33) 2 5-10 5 (8.05 = χ 6. 0.10 0-500 500-1000 1000-2000 >2000 2 (17 − 13.627 10. Supongamos que se toman c muestras aleatorias independientes de tamaños n1 .17 ) χ = 13. Bc diferentes.96) 16 (16.56 >20 años 6.84 7.59 Luego existen razones para pensar que sueldos y años de antigüedad no son independientes.. Después cada una de las muestras se clasifica de acuerdo a una característica A con r categorías.28 7.. nr1 n1 . n2 . nr • n La tabla ahora no expresa el resultado de observaciones clasificadas según 2 variables. . de poblaciones B1 .87) 4 (7.333) 11 (5.8) 7 (9..627) 15 (17.133 7. respectivamente..17 13.24) 24 (21) = 13. . 1−0. si las c muestras proceden de la misma población. H0 : Las c poblaciones son homogéneas (se distribuyen igual) El estadístico muestral es: χ =∑∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 que tiene una distribución χ 2 → χ (2r −1)( c −1) bajo H 0 .95 = 5.99 = 9. 0. χ (3−1)(2−1). si todas están igualmente distribuidas respecto a las categorías de A.5 ( 225 − 240 ) + . es decir. Se rechaza H0 con un nivel de significación α si χ 2 > χ (2r −1)( c −1). o lo que es lo mismo. 0. media o alta.5) 135 (137.El objetivo es construir un test para contrastar la homogeneidad de las c poblaciones.01 = χ 2.1−0. relación tema 10) ▼ A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja. + 240 = 6. 21 Luego la distribución de notas es la misma en las dos universidades..99 ) ▄ 151 ..6 (ejercicio 11.5) 225 (240) 500 2 BAJA MEDIA ALTA 2 245 275 480 1000 (105 − 122.05 = χ 2. obteniéndose: Universidad A Universidad B 140 BAJA 105 135 MEDIA 140 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0.966 2 2 χ (3−1)(2−1).5 ) χ = 122.5) 140 (137.1−α Ejemplo 10. 01 ) Solución nij (E ) ij Universidad A 105 (122. (NOTA: Sin embargo al 5% se rechazaría la hipótesis nula de que la distribución de las notas 2 2 es la misma en las dos universidades.5) 255 (240) 500 2 Universidad B 140 (122. 0216 0.1725646 59.744792 0.4834 181.63804 100.2902 341.990438 3388 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 439995.369 308.05041 0.44792 9.Al igual que en los anteriores contrastes de la chi-cuadrado.15866 3350. ∀j .51361 χ2 = 152 .1774227 101.00081 0.0358 759. (ejercicio 3.48 4330.0754 318.22404 0.3 54781.16803 0.5741 170.7871 73.1913 2608.306125 72.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3.1625291 11.0081 0.11 1390. en caso contrario se agrupan dos o más clases de la variable A pero nunca dos o más muestras B j .0027 0.0536 759.67 141416.2239988 34.9178248 61.149307 2.6786 506.6472 52.14936 0. EJERCICIOS RESUELTOS 1.3 91830.470719 186.1702726 2. relación tema 10) La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0. este test es válido si Eij = ni• n• j n > 5 ∀i.10082 0.04979 0.19446 27.44262314 12.8274703 19.395 10447. Solución CLASES 0 1 2 3 4 5 6 7 8 9 10 11 ó más ni 832 203 383 525 532 408 273 139 45 27 10 11 3388 pi 0.00029 1 Ei = npi 168.0536 569.22404 0.561 4412. 14936 0.6564 2.0038 1 Ei = npi 168.34 11.0756 2. 3291.7225 0.95 = 16.1725646 59.1625291 11.10082 0.6786 506. ni 832 203 383 525 532 408 273 139 45 48 3388 CLASES 0 1 2 3 4 5 6 7 8 9 ó más pi 0.67 141416.04979 0.1858 0.35 19.7871 73.395 10447. lo he calculado para confirmar que la hipótesis nula es lógica) Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5.0.0196 6.5041 0.561 4412. 2.2902 341.1135 0.11844311 0.3 54781.0081 0.11 1390.0334 0.3 91830.44792 12.1702726 2.05359>16.35825619 0.0358 759. ( α = 0.92 luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson de media 3.00381539 153 .369 308.58 25.23986784 0.306125 72.096 2608.0536 759.6564 6.( x = 2.88454 3388 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 439995.2186 0.48 4330.2558 1 Ei = npi 3.22404 0.9178248 61.86 18.99 .58 100 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 6 13 20 22 16 23 100 7. relación tema 10) Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar.2239988 95.0216 0.02613271 0.16803 0.05359 χ2 = 2 χ 9.44262314 12.19446 27.0754 1233.470719 186.29 21.00089661 0.92 .703534 3291.05041 0.4834 181.5741 170.22404 0.1 ) Solución Contraste chi-2 de Pearson de bondad de ajuste CLASES 0 1 2 3 4 5 o más ni pi 0.1929 0. (ejercicio 12.4.26021892 χ 2 = 3. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3.0536 569. 78 .91004494 Buscamos en las tablas χ 2 k −1.1858 0.2645405 0.86 18.1469 0. Para ello seleccionan una muestra aleatoria de 500 trabajadores. se agrupa ésta con la clase contigua.58 100 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 19 20 22 16 23 100 18. obteniéndose ni pi 0. 100 200 200 500 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = X\Y A1 A2 A3 B1 30 60 60 B2 20 40 40 ni• n• j n B3 10 20 20 B4 40 80 80 154 .6564 6.000€.35825619 0.1929 0.58 25. (ejercicio 13. Como 1.02613271 0.0196 6. 3. X\Y A1 A2 A3 n.5041 0.29 21.j B1 36 64 50 150 B2 16 34 50 100 B3 14 20 16 50 B4 34 82 84 200 ni.91<7.69 19.000€) 16 36 82 20 34 Medios (1.2186 0. 1. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15 Más de 15 Salarios años años años años 34 14 Bajos (<1.500€) 64 84 16 50 50 Altos (>1.6564 1.78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3.5761 0. relación tema 10) El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa.2558 1 2 4.4.Como la frecuencia esperada es menor que 5 en la primera clase.00089661 0.500€) Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. 0'90 CLASES 1 o menos 2 3 4 5 o más Ei = npi 14.1−α =χ = 7.26021892 χ 2 = 1. relación tema 10) Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior.1−α = χ 2*3 .9 0. se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa.2 X\Y A1 A2 A3 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado. 123 cajas de madera y 128 de plástico.90 = 10. pero no sabe si utilizar cajas de cartón. Solución Notamos las distintas modalidades de forma genérica para simplificar el aspecto de las tablas. selecciona aleatoriamente las fichas informativas de 142 cajas de cartón. 4. χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 10.j B1 12 27 103 142 B2 8 52 63 123 B3 6 65 57 128 ni.Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) Eij 2 para cada elemento de la tabla.6 0. obteniéndose: B1 B2 B3 B4 1.8 0. 6 .267 0.8833 . 0. madera o plástico.8 1.2 0. Como χ 2 > χ (2r −1)( c −1). al nivel de significación del 5%.5 0. Para decidirse y utilizando información de otras empresas exportadoras. 26 144 223 393 En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de n n independencia según la conocida expresión Eij = i• • j n 155 .05 1. resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar. (ejercicio 14.1−α .9 0 0. que hay que compararlo con el valor 2 χ (2r −1)( c −1). En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año. X\Y A1 A2 A3 n.667 2. si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. 8422 2.069 69.1374 45.901 72.0988 0.1−α = χ 2*2 .4682 46. χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 31.0198 0. ni 69 42 15 4 0 130 CLASES 0 1 2 3 4 ó más pi 0. 0. (ejercicio 15.3626 0.723 0.5014 0.5488 0. Como χ 2 > χ (2r −1)( c −1).04 1.3293 0. utilizando un nivel de significación del 1%. relación tema 10) En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días.241 0. que hay que compararlo con el valor 2 χ (2r −1)( c −1).631 Con las frecuencias observadas nij de la primera tabla y las frecuencias esperadas Eij de la (n anterior tabla se calcula ij − Eij ) Eij A1 A2 A3 2 para cada elemento de la tabla. Solución Número de accidentes por día 0 1 2 3 ≥4 x = 0.0494 0.8073 12. obteniéndose: X\Y B1 B2 B3 0.6613 3. 49 .794 B3 8.8 .03 80.6517 4.0152 0.0771 0.7979 0.1−α .394 52. se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos.066 6.0034 1 Ei = npi 71. 6 y buscar las probabilidades pi bajo la hipótesis nula en las tablas de la distribución de Poisson.7194 12. nos quedamos con un solo decimal para estimar λ = 0. 5. 646 .X\Y A1 A2 A3 B1 9.58 B2 8. obteniéndose la siguiente distribución de frecuencias: Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson.6561 2.95 = 9.3455 42.4365 1.0023 0.364 La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado.6894 χ2 = 156 .9846 6.4365 130 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 5.1906 0.5684 0. 0771 0.400 5-10 15.230 0.8472 130 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 5.407 1.979 17.6517 9. (ejercicio 16.5488 0.8073 15. ni 69 42 19 130 CLASES 0 1 2 ó más pi 0.6273 0.641 Más de 10 0.225 32.002 0. relación tema 10) La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: Ausencias 0-5 5-10 Más de 10 Edad 30 20 9 16-25 31 10 22 25-40 25 20 40-55 9 35 14 55-65 15 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%.763 27.275 14.150 14.3455 42.817 0.182 0.175 12.5014 0.063 14.1219 1 Ei = npi 71.746 31.3293 0.975 0.Tenemos que agrupar clases pues las frecuencias esperadas de las dos últimas clases son menores que 5.018 0.025 5-10 3.333 Más de 10 29.048 1.0. 0.72<6.9403 0.99 = 6.232 16-25 25-40 40-55 55-65 157 .7196 χ2 = χ 2 1. Solución Edad \ Ausencias 16-25 25-40 40-55 55-65 0-5 20 10 9 15 54 5-10 9 22 20 14 65 Más de 10 30 31 25 35 121 ni• 59 63 54 64 240 n• j Eij = ni• n• j n 0-5 13.625 17.0152 0.429 1.63 luego aceptamos la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. 63 .267 16-25 25-40 40-55 55-65 (n ij − Eij ) Eij 2 0-5 3. (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 6. 0%) tienen una frecuencia esperada inferior a 5.5 330 330.044 a 0 casillas (. 006) < ( χ (2r −1)( c −1). La frecuencia mínima esperada es 80.0 Total SEXO HOMBRE Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento 750 750.99 = 16. se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. (Nota: utilizar este ejemplo para comentar la importancia e interpretación del nivel de significación) 7. 006 2 χ (2r −1)( c −1). ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) Tabla de contingencia SEXO * VEHICULO VEHICULO MONOVOLUMEN 250 247. relación tema 10) Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos.0 320 320.1−α = 16.95 = 12. (Ejercicio 17.0 95 80. obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 a) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? b) En general. sin distinguir entre hombre y mujeres.232(a) gl Chi-cuadrado de Pearson 2 Sig.5 350 350.00.59) . 2 Sin embargo ( χ 2 = 13.81 Como ( χ 2 = 13.χ =∑∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 13. se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%.5 80 82.0 DEPORTIVO 275 262. nij monovolumen deportivo todo terreno 250 80 330 275 75 350 225 95 ni• 750 250 hombres mujeres n• j 320 1000 158 .0 250 250.0 TODO TERRENO 225 240. asintótica (bilateral) .1−α = χ 2×3 .0 1000 1000. 0.0 MUJER Total Frecuencia esperada Pruebas de chi-cuadrado Valor 6.5 75 87. 006) > ( χ 6. 0.81) . 3 16.3333 1000 1 1000 11.33333 333. ni pi Ei = npi ( ni − Ei ) 2 ( ni − Ei ) 2 Ei monovolumen deportivo Todo terreno 330 0.4% y se rechaza para niveles de significación mayores al 4. 0.33333 333.3 333.497 N observado 330 350 320 1000 N esperado 333. 0. el 62% de los estudiantes de último curso dejan de estudiar. el 37% pasan a formación profesional y el 159 . 21 2 2 χ (3−1)(2−1).03333333 0.3 333.5 todo terreno 240 80 (n − Eij ) Eij 2 monovolumen deportivo 0.4 χ2 = χ 2 k −1.786 todo terreno 0.99 = 9. asintót.01 = χ 2.7%.3333 320 0. 8.33333 333. b) VEHICULO MONOVOLUMEN DEPORTIVO TODO TERRENO Total Estadísticos de contraste Chi-cuadrado(a) gl Sig.11111 277.1−α =χ 2 2.3 a 0 casillas (.4%.3.95 = 5. VEHICULO 1.05 = χ 2. Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 49.938 2.5 82.3333 350 0.0%) tienen frecuencias esperadas menores que 5.813 hombres mujeres χ =∑∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 6.83333333 0.5 262.5 87.1−0.076 0. relación tema 10) Se sabe que en un centro de Enseñanza Primaria.Eij = ni• n• j n hombres mujeres ij monovolumen deportivo 247.7778 177. (Ejercicio 18. 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo.99 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta es misma hipótesis nula con un nivel de significación del 1%. 0'90 = 4.400 2 .233 (la diferencia con SPSS es debida a redondeos) 2 2 χ (3−1)(2−1). Según la salida del SPSS la hipótesis nula se acepta para cualquier nivel de significación menor del 4.7778 0.7 -13.1−0. La frecuencia de casilla esperada mínima es 333.53333333 1.025 0.595 1.3 Residual -3. 02716469 χ2 = χ 2 1.1% pasan a enseñanza secundaria.4412 10.0.6 29. relación tema 10) La siguiente tabla muestra.4118 15.027<3. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0.6 0.62 0.8 80 Tenemos que agrupar clases pues la frecuencia esperada de la última clase es menor que 5.84 .5882 Juntamos las clases de 2 a 4 horas y más de 4 horas para que todas las frecuencias esperadas sean mayores que 5.63684211 1. (Ejercicio 23. Solución: X\Y Menos de 2 horas 18 17 35 De 2 a 4 horas 10 13 23 Más de 4 horas 2 8 10 ni i 30 38 n=68 Hombre Mujer ni j En la siguiente tabla se calculan las frecuencias esperadas bajo la hipótesis nula de independencia según la conocida expresión Eij = ni• n• j n Menos de 2 horas De 2 a 4 horas Más de 4 horas X\Y Hombre 4. 1. 05 ) Solución: CLASES LO DEJAN FP ESO ni 54 17 9 80 pi 0.62 0.4 80 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 19.36 19. De ellos.38 1 Ei = npi 49.39032258 0.5588 12.84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% respectivamente. ni 54 26 80 CLASES LO DEJAN FP-ESO pi 0.8529 5. 54 dejaron de estudiar. cuántos de ellos ven la televisión menos de dos horas. 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. de dos a cuatro y más de cuatro horas. para muestras independientes de hombres y mujeres.6 30.01 1 Ei = npi 49.37 0. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado. 9.36 0. 160 .1471 Mujer 19.95 = 3. Frecuencias observadas Menos de 2 horas 18 17 35 Más de 2 horas 12 21 33 ni i 30 38 n=68 Hombre Mujer ni j Frecuencias esperadas Menos de 2 horas 15. 0.355052 Hombre Mujer La suma de todos los elementos de esta última tabla nos da el valor del estadístico chicuadrado.95 = χ1. 0.5588 Más de 2 horas 14. Como χ 2 < χ (2r −1)( c −1).95 = 3.4412 19.449733 0. que hay que compararlo con el valor 2 χ (2r −1)( c −1).1−α = χ12×1.4412 Hombre Mujer Con las frecuencias observadas nij y las frecuencias esperadas Eij de las anteriores tablas se (n calcula ij − Eij ) Eij 2 para cada elemento de la tabla. 161 .424034 0.84 . χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 1. obteniéndose: (n ij − Eij ) Eij 2 Menos de 2 horas 0.563581681 . se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión.1−α .334763 Más de 2 horas 0.5588 18. Para la realización de tests no paramétricos se utilizan estadísticos cuya distribución se puede obtener para cualquiera que sea la distribución de la población que se desea estudiar. puede emplearse también. si no se conoce la distribución tampoco se pueden realizar inferencias sobre los parámetros. Se calcula la función de distribución real bajo H 0 : F0 ( x) = P [ X ≤ x ] 3. los métodos que son válidos cualquiera que sea la distribución que sigue la población. Evidentemente. Los métodos estadísticos de inferencia que no requieren el conocimiento de la distribución de la variable.11. El test χ 2 se comporta mejor con muestras grandes.5 11. 2. El test K-S es conveniente usarlo con muestras pequeñas (detecta mejor las desviaciones de la distribución normal).2 11.6 Contraste de Kolmogorov-Smirnov de bondad de ajuste.1 11. 11. se conocen con el nombre de no paramétricos. Fn ( x ) = nº observaciones ≤ x n 162 . en muestras pequeñas no es posible aplicar el test χ 2 pues no se verifican las condiciones de validez ( Ei > 5 ). Se ordenan los valores de la muestra de menor a mayor. las hipótesis se refieren a la posible forma de la distribución.4 11. la aleatoriedad de la muestra. dada de antemano (se corresponde con el test de ajuste de la χ 2 ) H 0 : X → F ( x) (conocida ) • • El test K-S presupone que las distribuciones sean continuas. Suponemos que tenemos una muestra de tamaño n. 11. Test de las rachas. F(x).3 11. e incluso. es decir. 1. con distribuciones discretas. Test de los signos. sin embargo..1 Contraste de Kolmogorov-Smirnov de bondad de ajuste. Se calcula la función de distribución empírica o muestral. Inferencia no paramétrica. Es un test no paramétrico mediante el cual se contrasta la hipótesis nula de que los datos observados en una muestra proceden de una población con una distribución de probabilidad. Test de Wilcoxon de los signos-rangos.. Contraste de Mann-Whitney. . Contraste de Kolmogorov-Smirnov para 2 muestras. σ 2 = 2. 15.077 0.9962 2/10=0..25.5 0. 25) Muestra ordenada 12 13 14 15 17 18 ni Ni F0 ( x) = P [ X ≤ x ] Fn ( x) F0 ( x) − Fn ( x) 2 1 3 2 1 1 n = 10 2 3 6 8 9 10 0..977 0. (ejercicio 7. σ 2 = 2.3 = 0. 163 .1088 0.4.3 0.6 0. 14.2 3/10=0.2525 0. 25    13 − 14  F0 (13) = P [ X ≤ 13] = P  Z ≤  = P  Z ≤ −0. 6  = 0.8 0. 14. 0912   2. Solución H 0 : F ( x) = N ( µ = 14. relación tema 11) ▼ Con un nivel de significación del 5%. Se calcula el estadístico experimental Dexp = max F0 ( x ) − Fn ( x ) 5. proceden de una distribución normal de media 14 y varianza 2. 18.1 0. 12. Se rechaza H 0 si Dexp > Dα .0525 0. 17. 25) H1 : F ( x) ≠ N ( µ = 14.0912 0.0038  12 − 14  F0 (12) = P [ X ≤ 12] = P  Z ≤  = P  Z ≤ −1. 25   .1. 2525   2. contraste la hipótesis de que los siguientes valores muestrales 12.14 que denotaremos Dα . 13.7475 0. Ejemplo 11. Fijado el nivel de significación α y conocido el nº de elementos en la muestra se obtiene un valor crítico en la tabla A. Nota: Los valores críticos aproximados para tamaños grandes de la muestra son muy conservativos cuando para ajustar una distribución normal haya que estimar la media y la varianza a partir de los valores muestrales.0475 0.9 1 0. 14. 15. 1 0 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 0.5 0.1088 ) < ( Dα = 0. 1 0.5 . en distribuciones continuas habría que hallar también las diferencias F0 ( xi +1 ) − Fn ( xi ) para encontrar la máxima diferencia entre ambas funciones de distribución.200 . (bilateral) a La distribución de contraste es la Normal. 409 ) luego no existen motivos para rechazar la ▄ hipótesis nula.7 0.3=0. 18 − 14  F0 (18) = P [ X ≤ 18] = P  Z ≤  = P  Z ≤ 2.3 0. b Especificado por el usuario ejercicio11_7 10 14 1.409. 25   Para n=10 y α = 0.9962   2.2 23 Nota: Este gráfico ilustra cómo calcula SPSS las diferencias entre las funciones de distribución muestral y bajo H 0 .2 0.200 .1088 -. Aunque en la práctica sólo se calcula F0 ( xi ) − Fn ( xi ) .819 164 . 6  = 0.632 .b) Diferencias más extremas Desviación típica Absoluta Positiva Negativa Z de Kolmogorov-Smirnov Sig.4 0.8 0.9 0.5-0. 05 el valor crítico Dα para el test de bondad de ajuste de K-S es Dα =0. asintót. (D exp = 0.6 0. Prueba de Kolmogorov-Smirnov para una muestra N Media Parámetros normales(a. 8 0. en particular diferencias en la tendencia central (media. Este test de homogeneidad de K-S es el test más potente para comparar dos muestras independientes desde el punto de vista de si proceden de una misma población.0244 0 n = 20 Para n=20 y α = 0.19 0.0525 0.7744 1 2 0.6 0.6 2 0.2 (ejercicio 8. relación tema 11) ▼ Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales ni 0.55 0.06 0. Detecta todo tipo de diferencias en las distribuciones.0725 0.85 0. en la asimetría y en el exceso. 05 Dα =0.85 2 0. 11.45 2 0. 165 .88 1 ni 2 3 1 2 1 4 2 5 Ni 2 5 6 8 9 13 15 20 Fn ( x) 2/20 5/20 6/20 8/20 9/20 13/20 15/20 1 F0 ( x) 0.2 Contraste de Kolmogorov-Smirnov para 2 muestras.36 0.55 3 1 0.88 1 5 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1 Solución X   0 ≤ x ≤ 1  x ≥1  Fn ( x) − F0 ( x) x≤0 X 0. 294 ) luego acepto la hipótesis ▄ nula.294.45 0. El contraste se basa en el estudio de las diferencias entre las funciones de distribución empíricas o muestrales de cada muestra.8 4 0. Este contraste trata de ver si 2 muestras aleatorias independientes provienen de la misma población o no.64 0. mediana).5625 0. diferencias en las funciones de distribución.75 0.1025 0. en la dispersión.Ejemplo 11.1625 0. (D exp = 0. 45 = 0. esto es.19 ) < ( Dα = 0.75 1 0. 2025 0.3025 0.7225 0. Se calcula la diferencia entre las dos funciones de distribución muestrales. se plantea el test unilateral (2) Si las diferencias unas veces son positivas y otras negativas. cuyas funciones de 2 distribución muestrales se designan por Fn1 ( x) y Fm ( x) . distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. Se calcula cada una de las dos funciones empíricas (o funciones de distribución muestrales).19) Ejemplo 11. Fijado el nivel de significación α y conocido el nº de elementos en cada muestra. 2.Dadas dos muestras aleatorias e independientes. relación tema 11) ▼ Con nivel de significación de 5%. 3. se plantea el test bilateral. de tamaños n y m. 2 Si Fn1 ( x) < Fm ( x) . ∀x . respectivamente. 166 . Se entremezclan y se ordenan los valores de las dos muestras de menor a mayor. se plantea el test unilateral (1) 2 Si Fn1 ( x) > Fm ( x) . se obtiene el valor crítico Dα . Se rechaza H 0 si Dexp > Dα .3 (ejercicio 9. contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Muestra 1 Muestra 2 Solución 2 2 4 4 2 5 3 3 5 5 6 4 7 7 8 6 9 5 3 3 En primer lugar se ordenan de menor a mayor todas las observaciones muestrales. En cualquier caso el estadístico experimental es: 2 Dexp = max Fn1 ( x) − Fm ( x) 4. Se construyen las dos funciones de distribución empíricas. (Tablas A. Las diferencias unas veces son positivas y otras negativas lo que invita a hacer un test bilateral. ∀x .18 y A. se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  Pasos: 1. la mejora que se produce en el rendimiento de cada trabajador. relación tema 11) Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento. Ejemplo 11. 2 1 F10 ( x) 2 F10 ( x) 1 2 F10 ( x) − F10 ( x) 1 2 F10 ( x) − F10 ( x) 2/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 6 = 0. 6 . Dα = Dexp < Dα . utilizando el test de Kolmogorov-Smirnov. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar.4 (ejercicio 2.05 ) Solución Puntuación 14 15 25 35 45 47 50 54 56 57 62 63 65 66 1 F16 ( x) 2 F16 ( x) 1 2 1 2 F16 ( x) − F16 ( x) = F16 ( x) − F16 ( x) 1/16 2/16 3/16 4/16 5/16 6/16 7/16 7/16 8/16 9/16 9/16 10/16 11/16 12/16 0 0 0 0 0 0 0 1/16 3/16 3/16 4/16 4/16 4/16 4/16 1/16 2/16 3/16 4/16 5/16 6/16 7/16 6/16 5/16 6/16 5/16 6/16 7/16 8/16 167 . siendo evaluada posteriormente. n=m=10.Dexp Muestras ordenadas 2 3 4 5 6 7 8 9 = 2 /10 = 0. 10 1/10 3/10 5/10 8/10 9/10 10/10 10/10 10/10 1/10 1/10 0 -2/10 -2/10 -2/10 -1/10 0 1/10 1/10 0 2/10 2/10 2/10 1/10 0 α = 0. acepto la hipótesis nula de que las dos ▄ ▼ muestras se han obtenido de la misma población. 05 . si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. ( α = 0. mediante un test que valora en una escala de 0 a 100. Pero este contraste no necesita conocer la cuantificación de los elementos de las muestras.3 Contraste de Mann-Whitney. Tomamos dos muestras independientes de tamaños n y m donde suponemos que n ≤ m . El test U de Mann y Whitney examina la hipótesis alternativa. n=m=16 Dα = Dexp > Dα (no provienen de la misma población) los dos métodos no son iguales. 05 . o lo que es lo mismo F16 ( x) > F16 ( x) . “La probabilidad de que una observación obtenida al azar de la primera población supere a una observación aleatoria de la segunda población es distinta de 1 ” 2 El test es sensible frente a diferencias de medianas. e insensible frente a las diferencias de varianzas.67 72 74 75 83 85 86 90 92 93 95 98 12/16 13/16 14/16 14/16 15/16 15/16 15/16 1 1 1 1 1 5/16 6/16 6/16 7/16 7/16 10/16 11/16 11/16 12/16 14/16 15/16 16/16 7/16 7/16 8/16 7/16 8/16 5/16 4/16 5/16 4/16 2/16 1/16 0 6 . han sido obtenidas de la misma población. La prueba de Mann-Whitney también permite contrastar si dos muestras independientes. 168 . algo menos sensible frente a las diferencias de asimetría. Se presupone que las distribuciones de las muestras que se han de comparar presentan la misma forma. ▄ 11. 16 1 2 F16 ( x) > F16 ( x) lo que sugiere un contraste unilateral. El test de rangos U de Mann y Whitney es la contrapartida no paramétrica del test t para la comparación de las medias de dos distribuciones continuas (test paramétrico). Para muestras pequeñas el contraste de K-S es más eficiente. El grupo 2 1 2 arroja puntuaciones mayores. solo es necesario disponer de un orden entre dichos elementos. α = 0. 2 .5 + 4 = 8. (Véase ejemplo 11. si coinciden dos valores tomamos 0. El valor del estadístico U ( U 0 ) se obtiene mediante: Ui = nº de veces que una observación de la muestra i precede a una observación de la muestra j. si coinciden dos valores tomamos 0. i ≠ j ). ( i = 1. O bien. j = 1. ( i = 1. 6 8 9 11 11 13 15 2º 2º 1º 1º 2º 2º 1º U1 = 0 + 0 + 1. 2 .5 + 2 = 3. 2.5 U 2 = 2 + 2. 2 .5.Se pueden plantear los siguientes contrastes: Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1) H1 : Fn ( x) < Fm ( x)   ó  H 0 : Fn ( x) = Fm ( x)    (2) H1 : Fn ( x) > Fm ( x)   Estos últimos cuando se observe que los valores de una muestra son en general mayores o menores que los de la otra. 2 . Ejemplo 1º muestra 2º muestra Muestras ordenadas Procedente de: 9 11 15 6 8 11 13 n=3 m=4 i ≠ j ). j = 1.5. Ui = nº de veces que una observación de la muestra j es precedida por una observación de la muestra . Mezclar los datos de ambas muestras en un solo conjunto y ordenar de menor a mayor.6) Pasos: 1.5 Ejemplo 1º muestra 2º muestra Muestras ordenadas Procedente de: 3 6 2 4 7 2 8 3 9 4 1º 6 7 n=3 m=4 8 2º 9 2º 1º 1º 2º 2º 169 . 5 = 8. U 2 ) Nota: también lo podíamos haber definido con el máximo. 3.5 = 3. según algunos autores) se cumple la excelente aproximación.5 6 7 Sean R1 y R2 la suma de los rangos de la 1º y 2º muestra. Como hemos visto. SPSS usa niveles de significación exactos.5 ⇒ U1 = ( 3 × 4 ) + R2 = 1 + 2 + 4. los U i toman valores extremos y por tanto U 0 tomará un valor pequeño. b) En otro caso distinto al apartado a) se tendrá en cuenta que para tamaños muestrales suficientemente grandes ( m + n > 60 . entonces: n(n + 1) − R1 2 m(m + 1) U 2 = nm + − R2 2 U1 = nm + (ó U 2 = nm − U1 ) 3× 4 − 14.5 4. se asigna el rango medio) Ejemplo Muestras ordenadas Procedente de: rangos 6 8 9 11 11 13 15 2º 2º 1º 1º 2º 2º 1º 1 2 3 4.19 (nivel de significación α = 5% ). pero ¿cómo de pequeños? Distinguimos casos: a) n ≤ 20 y m ≤ 40 Se rechazará la hipótesis nula cuando el valor U0 sea igual o menor que el valor crítico Uα de las tablas 3.5 + 6 = 13. Dineen y Blakesley (1973).18 o 3.5 2 R1 = 3 + 4. En caso contrario.5 2 4×5 − 13.U1 = 3 + 3 + 3 + 3 = 12 U2 = 0 + 0 + 0 = 0 Como podemos observar. los U i toman valores extremos. Otra forma de calcular los U i (aconsejable para muestras grandes) es así: Ordenar los datos de forma creciente y asociar a cada uno su rango o lugar dentro del conjunto (si hay repeticiones de valores. Luego rechazamos la hipótesis nula cuando U 0 tome valores pequeños. 170 .5 ⇒ U 2 = ( 3 × 4 ) + El estadístico es: U 0 = min (U1 . si 2 muestras proceden de la misma población. los datos tienden a entremezclarse.5 + 7 = 14. si los datos no proceden de la misma población. relación tema 11) ▼ Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa. se obtuvo en sendas muestras de 5 y 4 meses. Estadística Aplicada. Ejemplo 11. 9 ) = 9 171 . Solución 64 75 45 82 70 53 51 Utilizando el contraste de Mann-Whitney. m=5 (taller 1) ≤ 40 Muestras ordenadas 45 51 53 64 70 75 78 82 110 rango 1 2 3 4 5 6 7 8 9 Procede de: 1º 2º 2º 1º 2º 1º 1º 1º 2º 4×5 RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 U 0 = min (11. Mann y Whitney consideran aceptable esta aproximación siempre que los tamaños muestrales no sean muy pequeños ( m ≥ 8. rechazo H 0 si p ≤ α 2 (bilateral ) o p ≤ α (unilateral ) . nm nm(n + m + 1)  U →N   2 .05) . 255). comprobar si la productividad en los dos talleres es n=4 (taller 2) ≤ 20. el resultado se muestra a continuación: Taller 1 78 Taller 2 110 la misma (α = 0. n ≥ 8 ). pag. Nosotros utilizaremos las tablas 3.5 (ejercicio 4. la cantidad de unidades producidas de un artículo concreto.19 para los valores de m y n que aparecen en dichas tablas y esta aproximación normal cuando no aparezcan.  12   Calculo p = P [U ≤ U 0 / H 0 ] Para α fijo.18 o 3. En el caso de empates entre valores de ambas muestras el valor corregido de U (al asignar rangos medios) tiene una distribución distinta (Sachs. 5 22.5 = 110.5 20. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar.5 15 17.5 + 7.05) .5 + 5. Solución 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Muestras ordenadas 43 45 56 56 57 57 65 65 67 67 67 69 76 76 77 78 78 78 78 79 79 87 87 98 Incentivos No No No No No Si No Si No No Si No Si Si Si No No Si Si No Si Si Si si m = n = 12 rango 1 2 3.6 (ejercicio 5. m = 5.5 13. U α = 1 (tabla 3.19) (U 0 = 9) > (U α = 1) ⇒ mismo.5 7.5 22.n = 4.5 20. Ejemplo 11.5 17.5 5.5 2 .5 + 17.5 17. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100.5 ⇒ U SI = 144 − 111.5 5.5 U NO = (12 × 12 ) + 172 12 ×13 − 110. relación tema 11) los dos talleres producen lo ▄ ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos.5 7.5 3.5 17.5 10 10 10 12 13.5 = 32.5 + 10 + 10 + 12 + 17.5 + 20. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.5 + 3.5 = 111.5 24 RNO = 1 + 2 + 3. los incentivos tienen efectos sobre la producción –sin especificar en qué sentido. 32. Dado que un test bilateral con α = 0. tabla 3.025 y en ese caso se había rechazado la hipótesis nula. es decir  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  Para ello realizaremos un test bilateral ( α = 0. El resultado de ambas fue No incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78 173 Incentivos .U 0 = min (111. (U 0 = 32. tabla 3.05 > 0.19) U α = 37 .05 . Para ello realizaremos un test unilateral ( α = 0. (U 0 = 32. con mayor razón se rechaza en este último test unilateral con α = 0. por tanto. los incentivos tienen efectos positivos sobre la producción.5 En primer lugar vamos a contrastar la hipótesis nula de que los incentivos no tienen efecto sobre la producción frente a la alternativa de que sí lo tienen. En este caso que nos ocupa parece más plausible contrastar  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  Dado que suponemos que los incentivos van a tener un efecto positivo sobre la producción. por tanto. Ejemplo 11. es decir.18) U α = 42 .5.5) < (U α = 42) ⇒ rechazo la hipótesis nula.4 ).5) < (U α = 37) ⇒ rechazo la hipótesis nula. relación tema 11) ▄ ▼ Se desea contrastar si determinados incentivos a la productividad son efectivos. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 25 trabajadores también seleccionados al azar.025 .5) = 32.05 .05 equivale a un test unilateral con α = 0. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 25 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100.6b (ejercicio 5. los valores de la muestra con incentivos deberían ser mayores que los de la muestra sin incentivos y por tanto la función de distribución de la muestra con incentivos ( Fm ( x) ) menor que la función de distribución de la muestra sin incentivos ( Fn ( x) ) (Recuérdese lo que ocurría en el ejemplo 11. 5 35.5 23 24 25 26.5 28 30.05) .5 26.5 9.5 42.5 7.5 30.5 30.5 30.5 19.5 9.5 44.5 33.5 13.5 7.5 46 47 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 174 .5 44.5 33.5 11 12 13.Realice el contraste utilizando la prueba de Mann-Whitney (α = 0.5 16 16 16 18 19. Solución Muestras ordenadas 43 45 48 50 56 56 57 57 60 60 61 63 65 65 67 67 67 69 70 70 71 71 72 73 74 76 76 77 78 78 78 78 79 79 80 80 82 83 84 84 84 85 85 87 87 88 93 incentivos NO NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO SI NO NO NO SI NO SI SI SI NO NO SI SI NO SI SI SI NO NO NO SI SI SI SI SI SI SI SI rango 1 2 3 4 5.5 5.5 21.5 21.5 35.5 37 38 40 40 40 42. los incentivos tienen 2  α efectos sobre la producción.00007 También se hubiera rechazado la hipótesis nula con un contraste bilateral.117) = 117  25 × 25 25 × 25 × 51  U →N  = N ( 312.54 )  2 .  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  ( p = 0. procede realizar un contraste unilateral  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) > Fm ( x)  ( p = 0.5 0. 05) ⇒ rechazo la hipótesis nula. por tanto. 00007 ) ≤ (α = 0.5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3. 00007 51.48 49 50 94 98 99 n = m = 25 SI SI SI 48 49 50 RNO = 442 RSI = 833 U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508. 79] = 0. 175 . 025  ⇒ rechazo la hipótesis nula. 00007 ) ≤    = 0. los incentivos tienen efectos positivos sobre la producción.54    Basándonos en los comentarios del ejemplo anterior. 51.  12   117 − 312. α = 0.5. 05 117 312. por tanto. 40. o bien la H A 2 : “los valores se suceden de una forma regular” Los valores críticos rinferior = ru y rsuperior = ro correspondientes a n1 y n2 ≤ 20 (donde n1 y n2 representan el número de veces que aparecen los dos elementos alternativos respectivamente. esto es. la serie de resultados CCC+CC++ obtenida al tirar n=8 veces una moneda. mientras que un valor grande de R denota que las observaciones se suceden de una forma regular. donde z es normal tipificada). Para n1 o n2 > 20 el estadístico R se distribuye aproximadamente como una normal de media y varianza 2n1n2 +1 n1 + n2 2n1n2 (2n1n2 − n1 − n2 ) 2 µ= σ2 = ( n1 + n2 ) ( n1 + n2 − 1) ( R = µ + zσ . o sea.α =0.025 2 α 2 117 312. que se trata de una muestra aleatoria. Así. que los valores muestrales no son independientes entre sí. constituye R=4 rachas. La hipótesis nula H 0 dice que el orden de los valores es casual. En el caso unilateral a la H 0 se le contrapone la hipótesis H A1 : “efecto de aglomeración”. mientras que la hipótesis alternativa H A dice que la muestra no es aleatoria.5 0. Para un valor dado de n. 176 . a los que preceden o siguen otros símbolos. n1 + n2 = n ) pueden obtenerse de la tabla 4. El test de las rachas es un test no paramétrico que sirve para verificar la independencia o aleatoriedad del orden de los valores muestrales. un R pequeño es indicio de que las observaciones iguales aparecen en forma aglomerada .4 Test de las rachas. por ejemplo. Una racha es una sucesión de símbolos idénticos. No sólo en el caso de datos alternativos sino también tratándose de valores medidos puede hablarse de rachas: las medidas pueden agruparse en rachas de valores menores y rachas de valores mayores o iguales que la mediana.00007 ▄ 11. indicando con dos símbolos a qué muestra pertenecen. 19. 18. n2 = 4( M ) y R = 6 . ( ru = 3) < ( R = 6 ) < ( ro = 9 ) Con α = 0. 19. ( ru = 2 ) < ( R = 4 o 6 ) ( ro = no hay límite su p erior ) .7 (Ejercicio 14 . (Nota: utilizar ru y ro con límites inferiores y superiores del α %) También puede utilizarse el test de rachas para verificar si dos muestras independientes de tamaño similar proceden o no de una misma población (las n1 + n2 = n observaciones se ordenan en sentido creciente. Atendiendo a que sean mayores o iguales (M) o menores (m) que la mediana puede escribirse mmmMMMMMmMM. 05 . 05 ) 177 . relación tema 11) ▼ Se desea verificar la aleatoriedad de la siguiente serie de valores 18. con n1 = 4(m) . n2 = 7( M ) y R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) (NOTA: Si hubiéramos considerado 19=m.En el test bilateral se mantiene H 0 si ru < R < ro (para n1 y n2 ≤ 20 ) o − zα < z < zα (para 2 2 n1 o n2 > 20 ) y se rechaza en caso contrario. se aceptaría la ▄ ▼ hipótesis de aleatoriedad. 21. Concluyendo de igual modo la compatibilidad con la hipótesis de aleatoriedad. entonces mmmmMmmMmMM . ) Ejemplo 11. n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . 19. ( α = 0. se rechaza la hipótesis nula de igualdad de poblaciones). Solución Me=19. n1 = 7(m) .8 (Ejercicio 15. si se obtiene un valor pequeño de R. 22 ( α = 0. 20. Se rechaza frente a H A 2 si ro ≤ R ( n1 y n2 ≤ 20 ) o zα ≤ z ( n1 o n2 > 20 ). Esta serie. 18.10 ). 17. Ejemplo 11. Contraste la hipótesis nula de igualdad de las poblaciones de procedencia. relación tema 11) Supóngase dos muestras aleatorias independientes de tamaños n1 = 20. (Nota: utilizar ru y ro con límites inferiores y superiores del α 2 ) En el test unilateral H 0 se rechaza frente a H A1 tan pronto como R ≤ ru ( n1 y n2 ≤ 20 ) o z ≤ − zα ( n1 o n2 > 20 ). 21. Es decir. aquí no es necesario que todos los pares procedan de una misma población. Pueden pertenecer a poblaciones distintas en lo que se refiere. Lo esencial es que los resultados de cada par sean independientes entre sí. Es 178 . etc. El nombre de este test se debe a que únicamente se consideran los signos de las diferencias entre observaciones. paralelas o ligadas) proceden de una misma distribución. se acepta la hipótesis de aglomeración.1215 R−µ σ = 15 − 21 = −1. 7436 σ = 3. 645) ⇒ llegándose al mismo resultado. Como los tamaños de las muestras se encuentran en el límite n1 = 20. lo que en este contexto implica que las muestras proceden de poblaciones distintas. vamos a resolver el problema mediante la aproximación normal 2n1n2 + 1 = 21 n1 + n2 µ= σ2 = z= ( n1 + n2 ) ( n1 + n2 − 1) 2 2n1n2 (2n1n2 − n1 − n2 ) = 9. Se presupone que la variable aleatoria es continua. Al contrario que en el test de la t o en el de Wilcoxon. se rechazaría la hipótesis de que las poblaciones son iguales.40. La hipótesis nula del test de los signos es: La media de las diferencias entre los pares ligados es igual a cero. a edad o sexo. n2 = 20 . Resulta especialmente útil cuando la medición cuantitativa no es posible.Solución Este contraste equivale a la verificación de la no aglomeración de las observaciones (únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones).92215) ≤ (− z0. un test de H A1 frente a H 0 .1215 ( z = −1. ▄ Es un test no paramétrico dedicado a contrastar si dos muestras dependientes (apareadas. se espera que aproximadamente la mitad de las diferencias tendrán el signo + y la otra mitad el signo − . Este es un test no paramétrico rápido que sirve para contrastar las mismas hipótesis que el test de Wilcoxon que veremos a continuación. 11. con ayuda de los extremos críticos inferiores del 5% de la tabla 4. por ejemplo. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de H A1 .5 Test de los signos.92215 3. al nivel del 5%.05 = −1. unilateral. Obtenemos 2 diferencias nulas y 13 no nulas. 2 En la tabla 4. si la distribución de las diferencias es normal. cuando se rebasen (por exceso o por defecto) los valores indicados en la tabla 4.4.4 contiene los extremos de confianza. elegida una pareja al azar la probabilidad de que el primer elemento supere al segundo es igual que la probabilidad de que el segundo supere al primero). La tabla 4.4 obtenemos para n=13 los extremos 3 y 10. esto puede traer consigo una disminución del tamaño muestral. 11. se rechazará la hipótesis nula cuando haya demasiadas (o demasiado pocas) diferencias del mismo signo. dicho de otra forma.decir. Las diferencias nulas no se consideran.9 (Ejercicio 16. con el test de los signos se contrasta la hipótesis de que la mediana de la distribución de las diferencias tiene el valor cero (la diferencia entre las dos medianas es cero. El extremo derecho (ED) puede obtenerse mediante la fórmula ED = n − EI + 1 . A partir de la tabla de probabilidades binomiales 2 1 se han determinado los valores de la tabla 4. Cuando no se disponga de tablas o cuando estas resulten insuficientes. y si las muestras de diferencias no son demasiado pequeñas ( n ≥ 30 ) -algunos autores consideran bueno a partir de ( n ≥ 25 ) - la frecuencia observada del signo menos abundante se aproxima mediante una normal de media y varianza µ = np = n 2 σ 2 = npq = n 4 ▼ Ejemplo 11. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. y el test de Wilcoxon 179 . esto es. al nivel del 5%.4. ¿Proceden las dos muestras ligadas de la misma población? Solución De la tabla 4. caso bilateral. relación tema 11) Supóngase que analizamos 15 pares de valores mediante el test de los signos. La probabilidad de obtener un número determinado de signos más o menos se deduce de la distribución binomial con p = q = con p = q = 1 .6 Test de Wilcoxon de los signos-rangos. ▄ Los test óptimos para la comparación de dos muestras dependientes (ligadas o paralelas) son: el test de la t de Student. de ellas 11 positivas y 2 negativas.5 aparece sólo el extremo izquierdo (EI) de la región de aceptación de la hipótesis nula. 47 0. y el mayor tendrá rango n. Se rechazará la hipótesis nula cuando el valor obtenido R se menor o igual que el valor crítico indicado en la tabla 4.47 1. asignándoles rangos: el menor de todos ellos tendrá el rango 1. Para n > 25 la distribución de estadístico R bajo la hipótesis nula es aproximadamente una normal de media y varianza: n(n + 1) 4 n(n + 1)(2n + 1) 24 ▼ ( ) µ= σ2 = Ejemplo 11. Los valores vienen dados en miligramos contenidos en la orina de 24 horas.39 0.10 (ejercicio 17.52 0.00 0. Caso de que se repitieran valores.46 0.61 0. Prescindiendo de los pares cuyos dos valores sean iguales. dispone de 9 muestras de orina. Si el test lleva a rechazar H 0 significaría que las dos muestras proceden de poblaciones con distribuciones distintas. que se comprueban con la fórmula R+ + R− = n(n + 1) 2 Como estadístico se empleará la menor de las dos sumas de rangos R = min( R+ .51 .87 0.para diferencias entre pares.84 0.36 0. que utiliza signos y rangos.85 0.33 0. Sean A y B dichos métodos. Este último test puede aplicarse también cuando los datos vengan dados en forma de rangos.94 0. Muestra nº A (mg/muestra) B (mg/muestra) 180 1 2 3 4 5 6 7 8 9 0.2. se asignarían a cada uno de ellos el rango medio (como se hizo con los empates en el test de Mann-Whitney). R− ) . Para la comparación. Junto a cada número de rango se anota si la diferencia correspondiente tiene signo positivo o negativo. para los n pares de valores restantes se formarán las diferencias entre las dos muestras paralelas di = xi1 − xi 2 A continuación se ordenan los valores absolutos d i de menor a mayor.70 0. bilateral y al nivel del 5%.41 1. Se forma la suma de los números de rango positivos ( R+ ) y la de los rangos negativos ( R− ). No se sabe si la distribución de los valores es normal. el test de Wilcoxon requiere muchos menos cálculos y es casi igual de potente en el caso de diferencias normalmente distribuidas. cuando las diferencias no siguen una distribución normal. En comparación con el test de la t.52 0. relación tema 11) Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina.02 0. 94 0.52 0. 1018.56 -0.3125 0. (ejercicio 1. 933.7257 0.0382 0.8125 0.5 (-) 8 (-) 1.26 0.87 -0.8413 0.08 0. por una N(985.4681 0. por tanto no puede rechazarse la hipótesis nula.41 0.6915 0.84 0.0665 0.61 0.00 0. 963.7454 0.5000 0. 910.6250 0. pues hay una pareja donde la diferencia es cero.70 0.7500 0.9375 1. 981.0413 0.0248 0.06 5 2 1.5=36=8(8+1)/2 (-) 4 comprobación n=8.6875 0.51 -0.5 22.3300 0.6026 0. ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0.7764 0.10 7 (+) 7 6 0. 1015. En años anteriores el número de respuestas correctas estaba representado.09 6 (+) 6 5 0.04 4 (+) 5 (+) 1. 998.8750 0. 1010.4375 0.1075 0.0668 0.3750 0.00 1. 1063.20 -1.1492 0.26 1.5 3 0. 50).50 -1.0046 0.0594 181 .1111 0.47 0. Buscando en la tabla 4.0337 0.56 Fo(x) 0.2500 0.5 7 0. relación tema 11) A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852.04 -0.76 1.2 se tiene que R = 13.66 -2. 1048.5625 0.2877 0.0586 0.0625 0. 957. Con base en esta muestra.05 ) SOLUCIÓN: muestra ordenada 852 875 910 933 957 963 981 998 1007 1010 1015 1018 1023 1035 1048 1063 ni 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 z -2. 1023.0139 0.8962 0.33 0.66 0.5 > 3 .02 1.5+13.46 -0.85 0. 1035.44 0.0450 0.39 0. de forma adecuada.52 0 9 0.13 8 4 0.0039 0.6700 0.0306 0.0000 |Fo(x)-Fn(x)| 0. 875.1026 0.44 -0. 1007.9406 Fn(x) 0.60 0. ▄ EJERCICIOS RESUELTOS 1.1250 0.1207 0.0361 0.1008 0.5 R− = 13.02 1.Solución Muestra nº A (mg/muestra) B (mg/muestra) A − B= di Rango de los d i R+ = 22.03 3 (+) 3 8 0.47 0.50 0.36 0.5 1 0.02 1.1875 0. 84 y desviación típica 3.2086 0.1207 ) < ( Dα = 0.0173 1.5 8 15 12. con un nivel de significación del 5%.0729 0. 0228 10   10  10 − 30 x − 30 20 − 30  P [10 < x ≤ 20] = P  < ≤ = P [ −2 < z ≤ −1] = F0 (−1) − F0 (−2) = 0.19 1.1 8 10.0387 0.9000 0.3413 10 10   182 .369 .8413 − 0.1594 ) < ( Dα = 0.0914 0.1 8 10.1594 0. 0228 = 0.5 = 0. tipificamos la variable X → N (30. 3.36 1.0702 α = 0. la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos.369 ) luego no existen motivos para rechazar la hipótesis nula.5: 10. bajo la hipótesis nula.1 si los datos siguientes proceden de una distribución Normal con media 10.10 0.3000 0.4613 0.5 12. 1)  x − 30 10 − 30  P [ x ≤ 10] = P  ≤ = F0 (−2) = 0.47 Fo(x) 0. 10) transformándola en una variable Z → N (0.1 12. 2. relación tema 11) La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos Número de llamadas xi menos de 10 10-20 20-30 30-40 40-50 50-60 ni 15 17 26 18 13 11 Contraste.1587 − 0.93 -0.5 − 0.1587 = 0. SOLUCIÓN: Para hallar las siguientes probabilidades. relación tema 11) Contrastar a un nivel α = 0.6406 0.9298 Fn(x) |Fo(x)-Fn(x)| 0. (ejercicio 3.(D exp = 0.1359 10 10   10   20 − 30 P [ 20 < x ≤ 30] = P  <  10  30 − 30 P [30 < x ≤ 40] = P  <  10 x − 30 30 − 30  ≤ = F0 (0) − F0 (−1) = 0. ( Dexp = 0.1 4.1 SOLUCIÓN: muestra ordenada 4.1 15 16 ni 1 2 2 3 1 1 Ni 1 3 5 8 9 10 z -1.5000 0. (ejercicio 10.0000 0.0271 0.81 -0.327 ) luego no existen motivos para rechazar la hipótesis nula.8827 0.8000 0.1000 0.1 n = 10 ⇒ Dα = 0. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov.5 16 12.3413 10 10   x − 30 40 − 30  ≤ = F0 (1) − F0 (0) = 0. 00 3.4 1.1587 1 Ei = npi 15. para un contraste bilateral.0228 0.3413 0. 40 − 30 x − 30 50 − 30  P [ 40 < x ≤ 50] = P  < ≤ = F0 (2) − F0 (1) = 0. 0'95 = 7.1 260.32 0.28 100 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 161.13 34.1587 0.13>7.1−α = χ 3.87 34.0228 1 Ei = npi 2.3413 0.00 -1. 0228 10   10  CLASES menos de 10 10-20 20-30 30-40 40-50 más de 50 ni 15 17 26 18 13 11 100 pi 0.3413 0.00 2.2 0.2 66.026 33. (ejercicio 11. Como 30.1 χ2 = 30.0800 0.6 66.8413 = 0.04 70.1358 100 Al igual que con el anterior procedimiento de contraste se rechaza H 0 dado que Dexp > DT 4. obteniéndose ni 32 26 18 24 100 CLASES Menos de 20 20-30 30-40 Más de 40 pi 0.1359 0.1613 0.96 0.8 11.00 0.00 1.0228 0.9987 Fn ( x) | F0 ( x) − Fn ( x) | 0.0013 Dexp = max F0 ( x ) − Fn ( x ) = 0.76 0.35 114.9772 = 0.89 1 0.13 13.2 66.35 76.1359 0.81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10.94 7.7 χ2 = Como las frecuencias esperadas son menores que 5 en la primera y última clase.15 0.94 7.13 2 Buscamos en las tablas χ k2−1. Contraste de Kolmogorov-Smirnov para bondad de ajuste muestra ordenada 0-10 10-20 20-30 30-40 40-50 50-60 x 10 20 30 40 50 60 ni 15 17 26 18 13 11 Ni 15 32 58 76 89 100 z -2. se agrupan éstas con las clases contiguas.13 15.85 1.00 F0 ( x) 0.59 2.0872 0.58 0.59 34.5000 0. relación tema 11) Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: 183 .9772 0.13 34.62 4.17 260.62 0.9772 − 0.1 260.3581 = 0.87 100 ( ni − Ei ) 2 ( ni − Ei ) 2 Ei 16.1613 Buscando en las tablas. DT = 1.0813 0.1587 0.8413 0.28 13.3413 0.1272 0.81 .1359 10 10   10   x − 30 50 − 30  P [ x > 50] = P  > = 1 − F0 (2) = 1 − 0. 00 0.1106 0.00 -1.00 1.000 de € y desviación típica 10.9938 Fn ( x) 0.0000 -0.5793 0.0228  x − 150 130 − 150  P [ x ≤ 130] = P  ≤ = F0 (−2) = 0.5 0.9772 Fn ( x) 0.8667 1.9000 -0.1493 DT (0. 05 ) SOLUCION: muestra ordenada 300 311 318 322 338 345 ni 1 1 1 1 1 1 Ni 1 2 3 4 5 6 z= x−µ σ F0 ( x) 0.0874 0.2413 0.1587 0.3333 0.00 2.4000 0. 0228 10   10   x − 150 140 − 150  P [ x ≤ 140] = P  ≤ = F0 (−1) = 0.0793 0.0062 Dexp = max F0 ( x ) − Fn ( x ) = 0.1841 0.6667 0.5000 0. SOLUCIÓN: Muestra ordenada 130 140 150 160 170 ni 2 4 4 3 2 Ni 2 6 10 13 15 z= x−µ σ -2.6667 0. obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros.2000 1.4207 0.0000 | F0 ( x) − Fn ( x) | 0.0253 0.8000 2.519 Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas.8413 0. ( α = 0.1667 0.1 ).Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.000 €? ( α = 0. Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov.2000 0.9641 0.1667 0.5000 0.1307 0. 5.1587 10   10  184 .1439 -2. (ejercicio 12.0228 0. relación tema 11) Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado.0228 0.05)bilateral = 0.8333 1 | F0 ( x) − Fn ( x) | 0.00 F0 ( x) 0.1493 0.1333 0. 8 24 ni 1 1 1 2 1 1 Ni 1 2 3 5 6 7 z -1. 2413 Dado que Dexp < DT DT (0.4500 1.2000 0.1151 0.9º 23.4º 20. (ejercicio 22.10)bilateral = 0. x − 150 150 − 150  P [ x ≤ 150] = P  ≤ = F0 (0) = 0..2362 0.1429 0. relación tema 11) Se ha observado la temperatura durante los días de una semana en la recepción de un hotel.4 17. 2451 n = 7 DT (0. 24 − 20   P [ x ≤ 24] = P  z ≤ = P [ z ≤ 2] = 0.9772 2    Dexp = 0.4 − 20  P [ x ≤ 16. SOLUCION: muestra ordenada 16.9713 0.7143 0. 483 Dexp < DT .8] = 0.3 23.6º 16.9772 Fn(x) |Fo(x)-Fn(x)| 0.3º 24.. relación tema 11) Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa.8413 10   10   x − 150 170 − 150  P [ x ≤ 170] = P  ≤ = F0 (2) = 0. obteniéndose 23.1706 0. 7.1069 0.0359 2   .2857 0.0228  16.8000 -1.9000 2.6500 1.0000 Fo(x) 0.9505 0.8º 23.9 23.6736 0.0359 0. la 185 . 6.1141 1 0.4] = P  z ≤  = P [ z ≤ −1.9772 10   10  Dexp = max F0 ( x ) − Fn ( x ) = 0.5 10   10   x − 150 160 − 150  P [ x ≤ 160] = P  ≤ = F0 (1) = 0. (ejercicio 13.4286 0.3º 17.6 20. por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. se obtuvo en sendas muestras de 4 y 5 meses.2451 0.0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º.304 se acepta la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros.05) bilateral = 0.8571 0. ( α = 0.2 0 70 4/5=0.cantidad de unidades producidas de un artículo concreto. (ejercicio 23.1000 0.2 0.2 80 1 3/5=0. SOLUCIÓN: muestras ordenadas 70 60 70 40 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos F41 ( x) F52 ( x) F41 ( x) − F52 ( x) 0.2500 -0.0 F51 ( x) − F52 ( x) 1/5=0.0000 F41 ( x) − F52 ( x) 0. El resultado de ambas fue No incentivos 70 80 Incentivos SOLUCIÓN: muestras ordenadas 70 70 60 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov.5 2/5=0. 25 4 DT (0.6 90 1 4/5=0.05)bilateral = 4 = 0. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar.4 70 1 4/5=0.4 1/5=0.0 Dexp = max F51 ( x) − F52 ( x) = 3 = 0.4 1/5=0.05 ) F51 ( x) F52 ( x) F51 ( x) − F52 ( x) 1/5=0.2000 0.1500 0.6 2/5=0.4 60 2/4=0.25 2/5=0.8 100 1 1 3/5=0.25 0 50 ¼=0.2 3/5=0. el resultado se muestra a continuación: Taller 1 Taller 2 talleres es la misma.2000 0. 6 5 186 .8 5 Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 8.1000 0.05) . relación tema 11) Se desea contrastar si determinados incentivos a la productividad son efectivos.2 60 1/5=0.2500 0.8 110 1 1 Dexp = max F41 ( x) − F52 ( x) = 1 = 0.6 2/5=0. (α = 0.2 0.1500 0.8 1/5=0. 6 5 DT (0.0000 40 ¼=0.05)unilateral = 3 = 0. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. 1429 0.1429 1/7=0.7143 6/7=0.1429 0. 7143 7 Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral 187 .1429 2/7=0.2857 5/7=0. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov.0000 1/7=0. Pasados tres meses se encuestan otras 7 familias. 05 ).4286 1/7=0. α = 0.8571 6/7=0. (ejercicio 24.1429 0.1429 2/7=0. Los resultados aparecen en la siguiente tabla.7143 6/7=0.0000 -1/7=-0.0000 F71 ( x) − F72 ( x) 0. 9.1429 0.4286 7 DT (0.0000 1/7=0.8571 1 F71 ( x) − F72 ( x) 0.0000 Dexp = max F71 ( x) − F72 ( x) = 3 =0. relación tema 11) Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”.05)bilateral = 5 = 0. Primera encuesta Tres meses después SOLUCIÓN: muestras ordenadas 0 10 20 30 40 50 60 30 20 20 20 0 10 50 60 40 0 30 30 30 20 F71 ( x) 1/7=0.Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento.8571 1 1 F72 ( x) 1/7=0.1429 3/7=0.8571 6/7=0.2857 5/7=0.0000 1/7=0.4286 -1/7=-0.1429 -3/7=-0. 188 . EJERCICIOS 189 . 490 ) 2. 0821 = 73.000€. 49 ) = (1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. zi (i = 1. Sean yi . análogamente para zi ).000€2.490 ) = (1.060. Los alumnos de TAM de una facultad con 3. 1. Encuentre el tamaño de muestra necesario para estimar el valor total de 1. 0821 (8.100) las respuestas del i-ésimo estudiante seleccionado ( yi = 0 cuando responden NO.000 cuentas por cobrar con un límite para el error de estimación de 10.. 62 ≈ 616 4.400). estime p1 (proporción de estudiantes que votarán a un determinado representante) p2 (proporción y número de estudiantes con algún tipo de trabajo) y los límites para los errores de estimación correspondientes. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600.000 cuentas de las cuales se examinan 300. Muestreo Aleatorio Simple 1. 49 ) τ ∈ (1. 25 = 225 3.. Según la muestra ∑ yi = 70 i =1 100 ∑z i =1 100 i = 25 Usando los datos de la muestra. 68%) 2 V ( p 2 ) = 0. 1. 100 100 Solución p1 = ∑y i =1 i 100 = 0. 25 (25%) 2 V ( p1 ) = 0.040. yi = 1 cuando responden SI.019. 21%) 2 V (τ 2 ) = 900 × 0.510 . Se toma una muestra aleatoria simple de 100 estudiantes de un centro con 900 estudiantes para estimar • • La proporción que votarán a un determinado representante de centro. 0868 (8.060.040€ y la varianza muestral (“cuasivarianza”) es S2=45.000 cuentas abiertas con un intervalo de confianza al 95%. La proporción de ellos que tienen algún tipo de trabajo.040 ∓ 20.000 ∓ 20. 70 (70%) p2 = ∑z i =1 i 100 = 0. Solución: n = 615.019. La media muestral de las cuentas fue y = 1. 1.89 τ 2 = N p 2 = 900 × 0. Estime el promedio de la deuda y el total de la deuda por cobrar para las 1. Suponga que existen 1.000 estudiantes desean realizar una encuesta para determinar la proporción de estudiantes que están a favor de hacer exámenes en 190 .51 ...2. Solución: µ ∈ (1. 04 ≅ 354 5.1697 7. Un grupo de 1. Usando los datos de la siguiente tabla: Número de caries en seis meses 1 0 2 4 3 2 4 3 5 2 6 0 7 3 8 4 9 1 10 1 ¿Se puede decir que la incidencia media de las caries ha disminuido? Niño Solución: 2. La información previa disponible indica que el 60% preferían los exámenes en sábado. con los resultados siguientes: y = 2. en 11 habita al menos una persona mayor de 65 años.2 caries cada seis meses para el grupo. según la guía de teléfonos más reciente. También se quiere estimar la proporción de estudiantes que apoyan al equipo decanal con un error máximo de estimación del 5%. La ciudad tiene 621 hogares. Después de un año de iniciado el estudio. B = 0. ˆ Solución: µ = 2. Solución: n = 353.sábado con un límite para error de estimación del 10%.2 ∈ (1. el dentista muestreó 10 niños para determinar cuánto habían progresado con la nueva pasta dental. Una muestra aleatoria simple de 20 pacientes fue seleccionada.4 segundos. 2. Un dentista está interesado en la efectividad de una nueva pasta dental. y fueron medidos sus tiempos de reacción.1. En un estudio sociológico.1 segundos y S = 0. Los registros de un estudio anterior mostraron que había un promedio de 2. de los 60 hogares muestreados.000 niños de escuela participó en el estudio. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad. Al terminar la investigación de campo. Una muestra aleatoria simple de 60 hogares fue seleccionada de la guía. Un psicólogo desea estimar el tiempo de reacción medio para un estímulo en 200 pacientes de un hospital especializado en trastornos nerviosos.06. Determinar el tamaño muestral que se requiere para estimar ambas proporciones con los límites de error especificados. 191 . Estime la proporción poblacional y establezca un límite para el error de estimación. realizado en una pequeña ciudad.94) ⇒ No 6. Estime la media poblacional y establezca un límite para el error de estimación. 91 min . determine el tamaño de muestra requerido para estimar el número total de árboles grandes en la plantación. por tanto no podemos aceptar esa hipótesis.) Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza. 66 ) Previsión más optimista: 23.500 acres. El gerente de un taller de maquinaria desea estimar el tiempo medio que necesita un operador para terminar una tarea sencilla. CONF . 61 min .: ( 3. Se seleccionaron aleatoriamente 5 operadores y se les tomó el tiempo. 23. B = 0.300 ∓ 3.450.9 3. El taller tiene 45 operadores.2 árboles.340 . Con objetivos benéficos. Cada hoja tiene espacio suficiente para 40 firmas pero en muchas de las hojas se ha obtenido un número menor.ˆ Solución: p = 0. 9.9408 10.259 192 . con una varianza muestral de S 2 = 136 .1 7.413 ≅ 400 11. Esta información se utiliza para estimar el volumen total de madera en la plantación.1833. Solución: τˆ = 37.340.34 . B = 3.0958 8. Solución: n = 399.259. una asociación filantrópica ha solicitado firmas para una petición en 700 hojas. 6. Una muestra aleatoria simple de 100 parcelas de 1 acre fue seleccionada.040. La media muestral para las 100 parcelas de 1 acre fue y = 25. Usando los datos del ejercicio anterior. Los resultados obtenidos son los siguientes: Tiempo(minutos) 4.2 5. 66 ) = (17.500 árboles.800.496 ¿Cuál sería la previsión más optimista y más pesimista en cuanto al número total de firmas recogidas para la petición? Solución: ( 20.8 5. Estime el número total de árboles de tamaño grande en la plantación.379.3 ¿Se puede aceptar la hipótesis de que el tiempo medio que necesitan los operarios del taller para terminar dicha tarea es inferior a 6 minutos? Solución: INTERV . y cada parcela fue examinada en relación con el número de árboles de tamaño grande.. con un límite para el error de estimación de 1. Un investigador está interesado en estimar el número total de árboles mayores de un cierto tamaño específico en una plantación de 1. ∑ Y i =1 i i =1 2 i = 54. previsión más pesimista: 17. Contando el número de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los siguientes resultados: 50 50 ∑ Y = 1. Establezca un límite para el error de estimación. 848 familias. a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta.842. El número de personas por familia en la muestra obtenida fue el siguiente: 5 6 3 3 2 3 3 3 4 4 3 2 7 4 3 5 4 4 3 3 4 3 3 1 2 4 3 4 2 4 Estimar el número total de personas en la zona.11% .09. 6 ≈ 642 . construyendo un intervalo de confianza al 95%. Solución: a) p ∈ (12. ¿cuál es el tamaño muestral necesario para estimar estos dos parámetros: la cuantía media de los prestamos cometiendo un error de estimación menor de 400 la proporción de préstamos pendientes de amortizar más de la mitad de la deuda euros y cometiendo un error máximo del 5%? Solución: n = 139. 65 ≈ 140 n = 333. 58. Durante una semana observaron al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta. 47 ≈ 334 193 . Existen razones para pensar que el préstamo hipotecario de menor cuantía es de algo más de 1200 euros.600€ (siendo la cuasivarianza de los datos 625). la proporción de compras pagadas con la tarjeta? (Consideren los datos anteriores como una muestra previa) c) Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Una muestra aleatoria de 30 familias fue extraída de una zona de cierta ciudad que contiene 14. Entre todas las oficinas bancarias de una pequeña ciudad se tienen concedidos 2000 préstamos hipotecarios. Solución: (44. siendo de casi 11000 euros el de mayor cuantía.89% ) .12.04 ) 13. b) ¿Cuantas compras deberían observarse para estimar. 45€ n i =1 14. 22. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 5. D c) y = 1 n 5600 ∑ yi = 35 = 160€ B = 2 V ( y) = 8.104. Estime el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. b) n = pq = 641. con un error inferior al 3%. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo. elegidos aleatoriamente de entre los más de cien mil habitantes de una ciudad para conocer su opinión sobre los nuevos impuestos municipales. 655 manifestaron su opinión desfavorable.1 ≈ 75 n = 105. el salario de los contratos temporales está comprendido entre 500 y 1.. b) Estime el número de empresas que usarían los servicios ofertados. 18. ¿Se puede afirmar que la mayoría de los habitantes están en contra? Solución: p ∈ (62. El número de bajas en el último año. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: Empresa Bajas Empleados Respuesta 1 1 7 Si 2 2 15 No 3 9 85 Si 4 0 3 No 5 2 12 No a) Estime el número de bajas en el último año en las empresas del pueblo. ¿Cuál debe ser el tamaño muestral total y su asignación para que se estime el salario medio de los contratos fijos con 194 . 49% . 2741 b) τ = N p = 10 B = 2 V (τ ) = 10. Calcule el límite para el error de estimación.000 vecinos. 68. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en el registro mercantil.700 euros mensuales. 4 ≈ 106 16. Solución: a) τ = N y = 70 B = 2 V (τ ) = 71.51%) ⇒ p > 50% ⇒ si se puede afirmar . Se decide clasificarlos en dos estratos. El Centro de Estadística desea estimar el salario medio de los trabajadores de los invernaderos de una región. Calcule el límite para el error de estimación. El salario de los contratos fijos está comprendido entre los 1. Estime la proporción de vecinos que están en contra de los nuevos impuestos y establezca el límite para el error de estimación.200 euros mensuales.9545 17. los que poseen contrato fijo y los que tienen un contrato temporal.. Se han entrevistado 1.15. ¿Cuál debe ser el tamaño muestral para que al estimar el salario medio la cota de error se sitúe en 10 euros y al estimar la proporción de los que apoyan a la actual directiva el error máximo cometido sea del 2%? Solución: n = 74.200 y 2. La empresa tiene 110 empleados y se sabe que el salario está comprendido entre los 1500 y 1800 euros mensuales. Se desea estimar el salario medio entre los empleados de una empresa y la proporción de empleados que apoyan a la actual directiva. Solución: 25% ∉ (17% ∓ 4.89 + 3.un error inferior a 100€ y el salario medio de los contratos temporales con un error inferior a 120€? Solución: n1 = 25 n2 = 25 n = n1 + n2 = 50 19.7 17 4. de 9 compras de clientes de un centro comercial para estimar el valor medio de las compras por cliente. 44. 21% ) = (12. 21. de los 300 hogares muestreados.7 4 3. Puesto que se considera que el consumo es demasiado elevado. 79%. El consumo en litros de combustible por cada 100 Km se recoge en la siguiente tabla Taxi nºConsumo Taxi nº Consumo Taxi nº Consumo Taxi nº Consumo 1 5.5 14 5.91. 67 ≈ 36 compras 20.4 12 6.87 ) c) n = 35. en 51 habita al menos una persona mayor de 65 años. El consumo medio de combustible de los taxis de una ciudad es 5. según la guía de teléfonos más reciente. 40. 21% ) luego se rechaza la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años. realizado en una pequeña ciudad. En un estudio sociológico.1 19 5.4 15 5.8 3 6.98 .6 16 5.89 − 3. elegidos entre los 600 que colocaron el dispositivo.4 20 6. se hicieron llamadas telefónicas para estimar la proporción de hogares donde habita por lo menos una persona mayor de 65 años de edad.6 litros/100 Km.87 ) b) No porque 45 ∉ ( 36.5 39 a) Obtener un intervalo de confianza para el valor medio de las compras.6 litros cada 100 Km.s.8 5 4.5 10 4. La ciudad tiene 5000 hogares. VALOR en € 33.5 32 52 43 40 41 45 42.3 11 3.2 18 4. 44.91. Pasado cierto tiempo se toma una muestra aleatoria de 20 taxis. Contraste la hipótesis de que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65 años.98 ) = ( 36.9 8 5 13 5. b) ¿Cuantos taxis deben observarse para estimar la anterior proporción con un error menor o igual que un 10%? 195 .4 2 5. Al terminar la investigación de campo.5 7 5. 21. Una muestra aleatoria simple de 300 hogares fue seleccionada de la guía.2 a) Estímese mediante un intervalo de confianza la proporción de taxis con un consumo inferior a 5.a. Se selecciona una m. b) ¿Podemos aceptar que la compra media es de 45€? c) ¿Qué tamaño muestral deberíamos tomar para que el LEE sea de 2€? Solución: a) ( 40. en 600 taxis se monta un dispositivo para disminuirlo.9 9 4.4 6 6. n1 = n Estrato 1 470 510 500 550 Estrato 2 490 500 470 520 550 500 2 y 2 = 505 S 2 = 750 Estrato 3 540 480 500 470 470 Estrato 4 450 560 460 440 580 y1 = 507. 94 '53% ) (b) n = 66. El distribuidor tiene medios suficientes para controlar y obtener datos sobre el consumo anual de 20 hogares. 67 2 y 3 = 492 S32 = 870 y 4 = 498 S 4 = 4420 Estime el consumo anual medio por hogar y fije un límite para el error de estimación. Dado que no tiene información previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada municipio. 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 . aplica asignación proporcional. Sin embargo. identificar las facturas individuales sin consultar un archivo es complicado.5 S12 = 1091. el 30% en el municipio 2. 77 ≅ 67 3. Muestreo Aleatorio Estratificado 1.5€ N 2 V ( y st ) = 18. N Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros). 79 € 2. Una muestra aleatoria simple presentó 70 facturas al por mayor y 30 al por menor. Solución: y st = ∑ i =1 4 Ni y i = 500. Un distribuidor de productos de limpieza desea conocer el consumo por hogar durante un año de un determinado producto en una comarca formada por cuatro municipios. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio de las facturas de la empresa (Nota para estimar el total necesitaríamos conocer N). Se sabe que el 20% de la población de la comarca vive en el municipio 1. el 25% en el municipio 3 y el 25% restante en el municipio 4.Solución: (a) ( 55' 47%. Para estimar de paso también el consumo en cada municipio decide usar muestreo estratificado tomando cada municipio como un estrato. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al por menor. Los datos 196 . la cual conduce a N1 = 20 × 0. De entre las piezas muestreadas de la operación B. En una muestra aleatoria de 100 circuitos integrados resulta que 20 provienen de la operación A y 80 de la operación B. Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que provienen de dos diferentes operaciones de ensamble. B = 28. después de la selección. De entre los circuitos integrados muestreados de la operación A. y establezca un límite para el error de estimación. Ella sabe que de entre los circuitos integrados que van a ser inspeccionados. y fije un límite para el error de estimación. 40  = 0. 60% procede de la operación de ensamble A y 40% de la operación de ensamble B. en circuitos integrados provenientes de la operación A y B.14€ 3. la muestra global no representa adecuadamente este hecho. 0901 (14% ) ( 9.18 (18%) 100 1 N 2 V ( p) = 0. la estimación esté sesgada hacia el valor de B ( p 2 = 0. 20 ) frente al de A 197 . 0772 ( 7. 2 son defectuosos. b) Estratifique la muestra. con los siguientes resultados en €: Por mayor Valor total facturas=36400€ n1 = 70 y1 = 520€ S1 = 210€ Por menor Valor total facturas=8400€ n2 = 30 y 2 = 280€ S 2 = 90€ Estime el valor medio de las facturas de la empresa. 16 son defectuosas. p st = ∑ Ni pi = ∑ i =1 i =1 L L Ni 2   16   p i =  0. predominando los elementos de B (80) frente a los de A (20).14 N 20   80   2 V ( p st ) = 0. estime la proporción de los defectuosos en el lote. y fije un límite para el error de estimación. estime la proporción de los defectuosos en la población. Solución: yst = 376€.son separados en facturas al por mayor y al por menor después del muestreo. p = 18 = 0. c) ¿Qué respuesta encuentra más aceptable? ¿Por qué? Solución: a. 72% ) b. 01% ) c) Aunque en el conjunto de la población hay más elementos que proceden de A (60%) que de B (40%). 60  +  0. a) Considerando únicamente la muestra aleatoria simple de 100 circuitos integrados. esto ocasiona que en el apartado a. 364 imparten estudios universitarios de dos años y 1.10 ). 70 en Barcelona y 30 en Sevilla. 5 de Barcelona y 5 de Sevilla. una muestra aleatoria simple de 40 universidades con estudios de dos años y otra de 60 con estudios de 4 años. 4.96 ≈ 15 n3 = 5.52 2 i n1 = 23. Una cadena de restaurantes tiene 100 establecimientos en Madrid.1 S1 = 12 S 2 = 11 S3 = 9 a) Estimar el número medio de pedidos semanales por restaurante para los restaurantes de la cadena. Carreras de 2 años Carreras de 4 años Media Desviación típica 198 154. y st = 1 N ∑N y i =1 i L i = 3834 = 19.8 219. Dar un límite del error de estimación. La dirección está considerando añadir un nuevo producto en el menú. D = n= (∑ N σ ) L i =1 i i 2 N D + ∑ N iσ 2 i =1 L = 43.40 respectivamente para estimar p. lo introdujo en el menú de muestras aleatorias de 10 restaurantes de Madrid.3 87. respectivamente. 2 y2 = 13. las medias y las desviaciones típicas muestrales del número de pedidos de este producto recibidos por restaurante en las tres ciudades durante una semana fueron: y1 = 21.17 pedidos / semana 200 2 V ( y st ) = 5.395 universidades de Estados Unidos.3 411. Las medias muestrales y las desviaciones típicas del número de estudiantes matriculados el pasado año en asignaturas de estadística aparecen a continuación. 24 ≈ 6 n = 45 5. Solución: a. b) Determinar el tamaño muestral y la asignación para repetir el estudio anterior cometiendo un error inferior a 3 pedidos. En el apartado b.9 . 02 pedidos / semana B 9 = = 2. De las 1. Se recogieron de manera independiente.( p1 = 0.031 estudios universitarios de cuatro años. 2 y 3 para designar Madrid.3 y3 = 26.60 y 0. Barcelona y Sevilla.31 ≈ 24 n2 = 14. 25 4 4 2 b. Para contrastar la posible demanda de este producto. este hecho se corrige dando a p1 y p 2 las ponderaciones 0. Usando los índice 1. Estimar la proporción de universidades en las que esta asignatura es impartida por profesores del departamento de economía. determine cuántos pertenecerían al barrio 3.731.5277 . b) Si se asigna la muestra de 100 hogares de la mejor forma. B = 0. b) En el estudio del ejercicio anterior. 29 de los asociados y 34 de los titulares se encontraban realmente en sus despachos. B = 57. 127 profesores asociados y 208 profesores titulares. 725. Se halló que 31 de los profesores ayudantes. Una universidad tiene 152 profesores ayudantes.9 1.0685 199 . Solución: ˆ (a) τˆst = 480. (3.a) Estimar el número total de estudiantes matriculados en asignaturas de estadísticas. 40 asociados y 50 titulares.6 3.2058.84 (b) p st = 0.82 ≈ 45 7. En la muestra se halló que en 7 de las universidades con carreras de dos años y en 13 de las que tienen carreras de cuatro años sucedía esto.594. Dar un límite de error de estimación. Dar un límite de error de estimación.8 0.7214. B = 0.9 3. Solución: ˆ p st = 0.8 S i 0. (Suponga iguales los costes de observación) Solución: (a) yst = 3.0826 6.2 0. Algunos estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus horas de tutorías.5 3. 3. Decide investigar muestras de 40 profesores ayudantes. Una reportera del periódico de los estudiantes quiere averiguar si los profesores están realmente en sus despachos durante las horas de tutorías. B = 0. Se tomaron muestras aleatorias de hogares en cada barrio y se solicitó a los miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5 (totalmente a favor) su opinión sobre el servicio propuesto. se investigó también en qué proporción de las universidades la asignatura de estadística para economistas era impartida por miembros del departamento de economía. Los resultados se resumen en la tabla adjunta: Barrio 1 2 3 4 N i 240 190 350 220 ni 25 25 25 25 y i 3. Hallar un intervalo de confianza para la proporción de profesores que permanecen en sus despachos durante las horas de tutorías.9223) (b) n3 = 44. Una compañía de autobuses está planeando una nueva ruta para dar servicio a cuatro barrios.7 a) Halle un intervalo de confianza para la opinión media de los hogares que dispondrán del nuevo servicio.1973. Un analista de la opinión pública tiene un presupuesto de 20. n = 130 (b) n1 = 22. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compañía. Elija el tamaño de la muestra y la asignación que minimiza la varianza del estimador para este costo fijo.83.83. 400. 20.59. Solución: n1 = 18. Determinar el tamaño muestral y la asignación para estimar el valor medio de las facturas por cobrar cometiendo un error de como mucho 5 euros. Solución: (a) n1 = 47.05 para el error de estimación. n2 = 83. La población se divide en cuatro estratos que contienen 500. respectivamente. y 2 = 463 2 2.94 11. Los costos por efectuar la observación de un cliente actual es de 4€ y de 8€ para uno que no lo es. De una ciudad con 350 casas. Las entrevistas por teléfono cuestan 10 euros por hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado.721 a) Obtenga una estimación del número medio de kilovatios-hora utilizado en la ciudad. Al realizar una encuesta sobre el consumo de energía (en kilovatios-hora) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Media muestral Cuasivarianza muestral Eléctrica 24 972 202. Se va a realizar una encuesta para estimar la proporción de familias con niños que utilizarán las instalaciones ampliadas. Se sabe que de los 10.000 tienen teléfono. Registros existentes nos dan que existen 97 familias que en la actualidad utilizan las instalaciones y 145 que no lo hacen. 300 y 200 facturas.31. Suponga 200 .55 9.96 b. b) Suponga que el costo total de muestreo se fija en 400 € .000 hogares de la ciudad.19 = 2. n4 = 19. 9. b) Obtenga una estimación del número medio de kilovatios-hora utilizado por las casas que no tienen calefacción eléctrica. Un ayuntamiento está interesado en ampliar las instalaciones de un centro de atención diurna para niños. Basándose en una experiencia previa. a) Encuentre el tamaño muestral aproximado y la asignación necesaria para estimar la proporción poblacional con un límite de 0. y st = 701. Solución: a. respectivamente.8. Las familias están dividas en aquellas que en la actualidad usan las instalaciones y las que aún no la usan. Dé un límite para el error de estimación.000 euros para realizar una encuesta sobre el número medio de coches por hogar. n3 = 22. Aproximadamente el 90% de los que usan las instalaciones y el 50% de los que no las usan van a utilizar las nuevas instalaciones. n2 = 19.50 2 2. 30 y 40 euros.396 No eléctrica 36 463 96. n2 = 39. se estima que las desviaciones típicas en estos estratos son de 15.17 = 2. Dé un límite para el error de estimación. n = 80. n = 61 10. se sabe que 164 de ellas tienen calefacción eléctrica. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 300 números de teléfono. mediante muestreo aleatorio estratificado después de seleccionar la muestra. Omitir el corrector por población finita.000 16.107 = 2. Con el objetivo de minimizar el límite de error de estimación ¿Cuántos hogares deben ser entrevistados en cada estrato si los hogares que cuentan con servicio telefónico son entrevistados por teléfono y los hogares sin teléfono son entrevistados personalmente? n1 = 1677.59 ≈ 107 n = n1 + n2 = 1784 12. Solución: y st = 187. Se lleva a cabo la encuesta por teléfono mediante una muestra aleatoria simple de 500 números de teléfono del citado municipio. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos Ni ni yi HOMBRES 2.15 2 1. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar el gasto medio mensual por habitante en ocio. Solución: y st = 8. Se desea conocer el número de fines de semana que las familias de una gran ciudad salen Solución: fuera de ella.000 Si2 Estime la media poblacional de gasto mensual en ocio y su cota de error.5 2 29.8 14. obteniéndose los siguientes datos: Número de hijos ni i =1 n ∑ yi S i2 0-2 25 239 60’76 3-5 19 174 63’01 Mas de 5 16 78 78’24 Estimar el número medio de fines de semana que las familias pasan fuera de la ciudad y dar el límite de error de estimación. 2 ≈ 1677 n2 = 107. Se realizó un muestreo según el número de hijos y se preguntó a las familias sobre los fines de semana que pasan fuera.16 = 10.que las varianzas en los estratos con y sin teléfono son iguales. Después de obtenidos los datos se observa que sólo 201 .700 400 250 9. el 30% tienen de 3 a 5 hijos y el 27’5% tienen más de 5 hijos. En una población compuesta por aproximadamente igual número de hombres que de mujeres se desea estimar la proporción de individuos que ven un determinado programa de televisión.500 100 120 MUJERES 2.1 13. Se sabe que el 42’5% de las familias tienen de 0 a 2 hijos. Después de obtenidos los datos se observa que sólo 100 de los encuestados fueron hombres y el resto mujeres. Solución: p st = 0.50 de los encuestados fueron hombres y el resto mujeres. 4 ≈ 2 16. mediante muestreo aleatorio estratificado después de seleccionar la muestra. 0608 = 2.8 ≈ 14 n3 = 40 × 0.9 ≈ 66 17.9 ≈ 96 n2 = 200 × 0. Ya que los obreros.5941 = 23. Se dispone de la siguiente información sobre tamaños poblacionales de los estratos. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No eléctrica 40 2080 90 202 .8 ≈ 24 n2 = 40 × 0. En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. costes de observación y estimaciones de las proporciones Tamaño del estrato Coste de observación Proporciones en % ESTRATO 1 5000 9 90 ESTRATO 2 2000 25 55 ESTRATO 3 3000 16 70 Determine la mejor asignación para una muestra de 200 observaciones. Datos de años previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el número de horas perdidas por empleado en los tres grupos. 4795 = 95. formando con cada grupo un estrato. determine la mejor asignación para una muestra de 40 empleados. y de datos actuales se obtienen los tamaños de los estratos. la corporación decide usar muestreo estratificado. técnicos y administrativos tienen diferentes tasas de accidentes.3296 = 65.3451 = 13.38 ⇒ p st = 38% 2 V ( p st ) = 0. en un determinado mes. Solución: n1 = 200 × 0. No habiendo diferencia entre los costes de observación de cada grupo. 0687 ⇒ 6.87% 15. Una corporación desea estimar el número total de horas perdidas debido a accidentes de sus empleados. 2 ≈ 38 n3 = 200 × 0. Obreros Técnicos Administrativos Si2 Ni Solución: 36 132 25 92 9 27 n1 = 40 × 0. Por ello se decide llevar a cabo una estratificación después de seleccionar la muestra obteniéndose los siguientes datos HOMBRES MUJERES Encuestados 50 250 Ven el programa 12 130 Estime la proporción de la población que ven el programa de televisión y su cota de error.1909 = 38. Estime la proporción de piezas defectuosas de la factoría y dé el límite del error de estimación. las 133 restantes procedían de la máquina B. 05€ 2 V ( y st ) = 25. La producción de piezas de una factoría se realiza en dos máquinas.99 ≈ 46 n3 = 11.74% 20. Para la comercialización de un producto se le clasifica. Para estimar el peso total de producto almacenado se decide tomar una muestra aleatoria que contenga piezas de todas las categorías. 0625 2 4N 4. Omita el coeficiente corrector por población finita.Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. 24. 67 producidas por la máquina A y dos de ellas resultaron defectuosas. Dé un límite para el error de estimación.9%. Para ajustar sus tarifas desea estimar el gasto de dichas empresas en pequeñas reparaciones de mantenimiento (objeto del seguro).000. siendo 6 de ellas defectuosas. 31. 66 2 i n1 = 13. 34 Considerando los anteriores datos como una muestra previa. obtenga el número de unidades que cada categoría debe aportar a la muestra para que el error en la estimación del peso total no supere el medio kilo. Solución: y st = 1 N ∑N y =∑ N i =1 i i i =1 2 2 Ni y i = 65. 500 medianas y 200 piezas grandes. Solución: ˆ p = 3. 22. 12. Un establecimiento dispone de 300 piezas pequeñas. en tres categorías: pequeña.000 n= (∑ N σ ) L i =1 i i 2 N D + ∑ N iσ 2 i =1 L = 71. 20. mediana y grande. Una empresa especializada en seguros está pensando en ofrecer sus servicios a las empresas de los polígonos industriales de una ciudad. 20. B = 2. El número de empresas de cada tipo. 14.87 ≈ 12 n = 72 19. 79 ≈ 14 n2 = 45. el coste de obtención de esta información en cada empresa así como los valores mínimos. Solución: D= B2 250. 18 Grande 4 30.24€ 18. 12 Mediana 6 16.000 = = 0. El 40% de las piezas las produce la máquina A y el 60% restante la máquina B. Se clasifican las empresas en función de su tamaño. 33. medios y máximos de un estudio similar hecho hace dos años se expresan en la siguiente tabla (los costes y gastos están expresados en euros) 203 . atendiendo al calibre. Se les pasó control de calidad a 200 piezas. 15. resultando Categoría Nº de piezas Peso en gramos Pequeña 5 12. 7 59.65 ≅ 21 ⇒ n = 202 22. mostraron las siguientes mediciones: Semana A Semana B 58.27 ≅ 52. n3 = 33. Las muestras aleatorias simples de los pesos (en kilos) de las máquinas transportadas en el embarque. Un determinado embarque de una fábrica consistía en las máquinas producidas por la citada fábrica a lo largo de las dos últimas semanas. n 4 = 20.8 60. Se decide estratificar basándose en las semanas.Tipo de Número de Costes de Gastos de reparación empresa empresas observación Mínimo Media Máximo A 100 16 400 500 600 B 500 9 240 300 360 C 700 4 70 100 130 Si la empresa de seguros dispone de hasta 600 € para llevar a cabo la estimación. ¿cuántas empresas de cada tipo tiene que observar para conseguir que sea mínimo el error de estimación asociado? Solución: n1 = 8.1 59.2 60. n = 78 (8 x6 + 34 x9 + 36 x 4 = 578€) 21. A partir de la información proporcionada por la siguiente tabla. Se quiere estimar la proporción de padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se decide estratificar según la edad de los alumnos. El coste de transportar mercancías en avión depende del peso. n 2 = 51.1 59. n3 = 36.3 60. con el fin de observar si existe variación semanal en la cantidad producida. n = 200.4 59. para las dos semanas.2 58.3 58. de cada estrato.3.84 ≅ 95. n 2 = 34. En un centro escolar se quiere realizar una encuesta para conocer la proporción de padres que estarían dispuestos a participar en actividades. n1 = 94.6 59.53 ≅ 34. hay que encuestar para que la proporción de participación de los padres con hijos de edades entre 6 y 8 años sea estimada con un error menor o igual al 10%. obtener el número óptimo de padres que.5 204 . (Suponemos que cada padre tiene un solo hijo en el centro) Años Alumnos matriculados 150 130 120 100 Porcentaje de participación en años anteriores 40% 30% 25% 20% Coste de encuestar a un elemento 4 9 16 25 4-6 6-8 8-12 12-14 Sol.6 59. A=Avanzado. n1 = 34.67.1173 (b) n = 132.593'71. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria. n 2 = 22. con cada tienda como un estrato. siendo el coste de muestreo igual para todos. Una cadena de almacenes está interesada en estimar la proporción de cuentas no cobradas. n 2 = 31.37 ≅ 35.17 ≅ 13 ⇒ n = 134 24. clasificado como N=Normal. se les hizo el examen final de matemáticas y se obtuvieron las siguientes calificaciones (entre paréntesis. L=Lento. Los estudiantes de la escuela se agrupan en tres estratos según el tipo de aprendizaje. con unas cuasivarianzas de 80. ˆ Solución: (a) p = 0. Estimar el peso total del embarque de maquinaria. 19. 30 y 40 respectivamente. el tipo de aprendizaje de cada estudiante): 205 . Se usa muestreo aleatorio estratificado. En el presente curso.30. b. c. Solución: (a) τˆ = 19. Estime la proporción de cuentas no cobradas para la cadena y fije un límite para el b.35 ≅ 39. 2 8 1 a. 30 avanzado y 20 lento. Estrato I Estrato II Estrato III Estrato IV Nº cuentas por cobrar Tamaño muestra N 1 = 65 n1 = 14 N 2 = 42 n2 = 9 N 3 = 93 n3 = 21 N 4 = 25 n4 = 6 Nº cuentas no cobradas 4 error de estimación.722.850'56) (c) n = 65. se tomó una muestra aleatoria de estudiantes. Utilice los datos anteriores para determinar la asignación y el tamaño de la muestra necesarios para estimar la proporción de cuentas no cobradas. B = 0. n 4 = 12. la calificación media de los estudiantes según el tipo de aprendizaje fue en el primer examen parcial: 75 para el normal. con un límite del error de estimación del 5%. La cadena está formada por 4 almacenes. Considere las muestras anteriores como muestras previas para estimar los parámetros necesarios.13 (b) (19. Para actualizar esta información. n3 = 58. n1 = 38. sabiendo que el número total de máquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.98 ≅ 59. en el caso de que se quiera estimar el peso total del embarque.30 ≅ 32 ⇒ n = 67 23.80 ≅ 23.a. 89 para el avanzado y 70 para el lento. Una escuela desea estimar la calificación media que puede obtener en el examen final de matemáticas en este curso. con un límite para el error de estimación de 50 kg.30. Determinar el tamaño de la muestra y su asignación. Las dispersiones en los pesos se suponen diferentes de una semana a otra. la distribución de los alumnos según el tipo de aprendizaje es 50 normal. 77 ≅ 8 n2 = 19. n1 = 18. Estime la calificación media en el examen final de matemáticas. utilizando asignación proporcional. con un intervalo de confianza. Se decide clasificarlos en dos estratos: los que tienen contrato fijo y los que poseen un contrato temporal. 43.69). d. Los contratos temporales son 320 y su salario está comprendido entre 700 y 1800 euros mensuales. n3 = 7. qué tamaños muestrales en cada estrato son necesarios para un error máximo admisible de 2 puntos.53. n = 16. el número de estudiantes con aprendizaje normal que han superado los 80 puntos.70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A) 91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L) Se pide: a. teniendo en cuenta más información. ¿Qué ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados de ambos métodos de estimación. ¿Cuál debe ser el tamaño de la muestra y su asignación para que al estimar el salario medio mensual el error de estimación sea inferior a 100 euros? Solución: Neyman n = 26. b. Se desea mejorar la estimación de la nota media del examen final en matemáticas. así como determine la ganancia en precisión.15 ≅ 19.14 ≅ 20 ⇒ n = 28 206 . Si se pudiera planificar de nuevo la muestra. B = 3.8 ≅ 17 25. Estime. De una medida del error de estimación. c.25 (c) n = 36.59. n 2 = 10. 21 ˆ (b) µ = 77. Usando estos resultados como muestra previa.87.89 ≅ 11.91 n1 = 7. Se desea estimar el salario medio de los empleados de una empresa.31. B = 4.26 ≅ 8 ⇒ n = 38 (d) (11. Los primeros son 143 y su salario varía entre 1500 y 2500 euros mensuales. ¿qué tamaño de muestra sería necesario para que esta misma estimación tuviera un error máximo admisible de 10 estudiantes? ˆ Solución: (a) µ = 78. 37€ 2.200 3.4 16 4.04 1. Se desea estimar el consumo mensual de una ciudad. vía declaración de la renta. Se realizó un sorteo entre los socios para elegir a 20 de ellos a los que se les preguntó por la superficie plantada y se les tasó su producción.1 11 5 15 5. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen en esta tabla.484 3.46 1.06 2.803. Solución: τˆy = 1. Estimación de Razón.56 1.5 16 3.1 15 5. De el LEE.530 euros mensuales.080 1. Se sabe que el total de superficie plantada es de 3. ascienden a 1.000 Estime el consumo total mensual para todos los hogares de la ciudad mediante el estimador de razón.19 2. Regresión y Diferencia 1.4.339.400 2.600 1.87 1. Se sabe que los ingresos en dicha ciudad.537.53 1.502.4 14 207 .000 1.7 12 4. Renta Consumo 1.702.702. B = 59.36 1.000 981. 07€.7 18 6 20 3 8 7 20 5.3 14 4.502.116.002.800 1.04 1.005.240 1.06 800 2.402. Mediante una tasación previa se desea estimar la producción media y la producción total de los 750 socios de una cooperativa agrícola.840 hectáreas.519.204 1.8 12 8 24 5. Los resultados fueron: Superficie Producción 3.053.080.85 1.44 1.053. Bµ = 0.265.2 22 a) Estimar la producción media y total mediante los estimadores de razón y m.000 pequeños establecimientos se desea realizar un estudio sobre la media y el total de ventas diarias.5 18 5 15 5. por término medio.9 18 5. se toma el máximo n=43. Se tiene información de que.a.25 toneladas y el LEE del total no debe superar las 200 toneladas ¿a cuántos socios se les debe tasar su producción antes de realizar una nueva estimación? Solución: ˆ (a) razón : µ y = 15.7 120 4. 69 tm.5 160 3.1 150 5.: µ = y = 16 tm.s.000 tm.9 150 6.5 140 5 150 5.5. Bµ = 1. 208 .4 150 4. 38 socios para estimar el total. 61 tm.14 tm ˆ m.s.3 140 4. Bτ = 1. 3. 76 tm (b) 43 socios para estimar la media.6 170 a) Estimar la media y el total de ventas diarias utilizando estimadores de regresión.6 17 5 15 7. b) Supongamos que queremos reducir el LEE de la media a 0.37 tm. Para un grupo de 1. Dar LEE. Los resultados son: Gastos Ventas 3.a. Se elige al azar una muestra de 18 establecimientos y se les toma dato de su gasto en publicidad diaria y sus ventas diarias. el gasto en publicidad es de 5 euros.7 125 6 130 0 80 7 150 5. Bτ = 278.4 120 5. τˆ = 12.1 135 5 150 5.8 120 8 160 5.57 tm. Dar sus respectivos LEE y compararlos. τˆy = 11.680. 38€. B µ = 5. obteniéndose: Ingresos Gastos 470 405 650 585 710 650 300 240 475 410 505 435 610 550 380 320 540 480 520 460 a) Estime el gasto medio y el gasto total diario para los 200 establecimientos utilizando muestreo aleatorio simple.900€ ˆ µ y = r µ x = 439. Para un grupo de 200 establecimientos se desea realizar un estudio sobre el gasto diario.3€ Bτ = 1.76€ (b) n = 361. τˆ yL = 138.5€ τˆ = Ny = 90.46€ ˆ τˆyL = N µ yL = 87.000 euros ¿cuál debe ser el tamaño muestral? ˆ Solución: (a) µ yL = 138.97€ ˆ ˆ Bµ = 2 V(µ ) = 75.500€ 209 Estimadores de regresión ˆ µ yL = 437.040.559. Se elige al azar una muestra de 10 establecimientos y se toman datos de ingresos y gastos. Obtenga el LEE en cada caso.700€ Bτ = 200 × Bµ =15.20€ Estimadores de razón r= y = 0.67 ≅ 362 establecimientos 4.5€ Bµ = 9.503€ Bτ = NBµ = 462.879 x τˆy = rτ x = 87. b) Se quiere repetir el estudio anterior utilizando un estimador de diferencia y cometiendo un error máximo de 300 euros al estimar el total ¿cuál debe ser el tamaño muestral? Solución: (a) Muestreo aleatorio simple ˆ µ = y = 453. Se tiene información de que los ingresos medios diarios son de 500 euros. Bτ = 5.b) Se quiere repetir el estudio anterior de forma que la estimación del total no supere los 1. 09€ ˆ τˆyD = N µ yD = 87. regresión y diferencia. estimadores de razón.31€.3104€ ˆ µ yD = 437.5€ Estimadores de diferencia .860.515€ Bµ = 2.56€.314. para las familias de una pequeña comunidad. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año. Solución: r = 0. estime las ganancias medias y establezca un límite para el error de estimación. Una cadena de electrodomésticos está interesada en estimar el total de ganancias por las ventas de televisores al final de un periodo de tres meses.8899 (b) 20 establecimientos 5. Se tienen cifras del total de ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses correspondiente al año anterior. B = 0.1467.0102 6. Una muestra aleatoria simple de 5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la siguiente tabla: Oficinas Datos de 3 meses del año anterior Datos de 3 meses del año actual 1 550 610 2 720 780 3 1500 1600 4 1020 1030 5 620 600 a) Usando un estimador de razón.85 ) 210 . ese total es de 128. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 9 34600 3800 10 32700 4100 11 31500 4500 12 30600 5100 13 27700 4200 14 28500 4000 Estime la razón poblacional. estime el total de ganancias con un intervalo de confianza. Una muestra aleatoria de 14 familias fue seleccionada de entre 150. Solución: a) τ y ∈ (129940. b) Utilizando un estimador de regresión y un estimador de diferencia. y establezca un límite para el error de estimación. 138668.ˆ ˆ Bµ = 2 V ( µ yD ) = 2. 67 .200 €.179 Bτ = NBµ = 435. 66.611. τˆYL = 231. (Existen 45 sectores industriales que se utilizan para determinar el ingreso nacional total). Use los siguientes datos para estimar el total de ventas para el periodo actual y establezca un límite para el error de estimación.83 . Se dispone de los datos del ingreso de 1980 para los 45 sectores industriales y los totales son 2. Los datos se presentan en la tabla adjunta: Industria Producto de fábricas textiles Productos químicos y relacionados Madera aserrada y leña Equipo eléctrico y electrónico Vehículos y equipo Transporte y almacenaje Banca 1980 13. τˆYD = 231.4 35. B = 3.16 ≅ 67 8. Diferencia: n = 66.53. Determinar el tamaño requerido de muestra para estimar τˆY con un límite para el error de estimación igual a 2.6 33.5 42.5 44. B = 40.5 211 .00. Tienda Ventas antes de Ventas Tienda Ventas antes de Ventas la campaña actuales la campaña Actuales 1 208 239 11 599 626 2 400 428 12 510 538 3 440 472 13 828 888 4 259 276 14 473 510 5 351 363 15 924 998 6 880 942 16 110 171 7 273 294 17 829 889 8 487 514 18 257 265 9 183 195 19 388 419 10 863 897 20 244 257 a. µYD = 1.4 1981 14. Los datos de las ventas trimestrales son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a la nueva campaña.849.2 48.01 (b) Razón: n = 44.4 19. b. Supóngase que las ventas totales en el periodo previo a la campaña de promoción fueran de 216. B = 2.38 ≅ 42 . Solución: (a) τˆY = 231.511.256 €.094.7 15.6 25.ˆ ˆ b) µYL = 1. B = 41.174.6 37.85 . El ingreso nacional para 1981 será estimado con base en una muestra de 10 sectores industriales que declaran sus ingresos de 1981 antes que las 35 restantes.084.9 48.581.86. 7. 28.1 53.000€. Una muestra aleatoria simple de 20 tiendas es seleccionada de 452 tiendas regionales en las cuales se vende el producto. B = 3.56 ≅ 45 .073. 28 .950. 46 . Una agencia de publicidad está interesada en el efecto de una nueva campaña de promoción regional sobre las ventas totales de un producto en particular.2 (en miles de millones). Use los tres métodos de estimación con información auxiliar.7 15. Regresión: n = 41. B = 45. justifíquese. en 5 de las 250 oficinas que tiene abiertas una agencia de seguros. 7.000 Antes de calcular el estimador. este año (Y) y el año pasado (X): 212 .91. estime el total de ingresos y el límite para el error de estimación. se quiere estimar el gasto total en alimentación durante un año.000.2 114.433.000 17.000 31.432.64 (c) τˆY = 2. B = 180.4 (a) Encuentre el estimador de razón del ingreso total de para el error de estimación. ¿cree que es útil utilizar esta información auxiliar?.90.500 15.95 (b) τˆYL = 2. Solución: τ yD = N µ yD = 3349000 € V (τ yD ) = N 2 2 N − n SD S2 = N ( N − n ) D = 50169875 € 2 N n n 2 V (τ yD ) = 14166.07 9.000 €. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio (expresado en euros).000 20. Solución: τ y ∈ ( 7.2 Servicios de Educación 15.14 € 11. Se desea conocer las ventas medias (en euros / habitante) en este año de un determinado producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con 200 habitantes.500 Gasto general 24. y establezca un límite (b) Encuentre el estimador de regresión del ingreso total de 1981.205.0 17. han sido (en euros) 570 721 650 650 569 Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros.659. y establezca un límite para el error de estimación.693€ .000 10. 221. B = 48.Bienes Raíces 198. Estime con un estimador de razón el total de gasto en alimentación mediante un intervalo de confianza.3 Servicios de Salud 99. Se sabe que las ventas medias en ese municipio el año pasado fueron de 170 euros / habitante. Las diferencias entre ingresos y gastos. (c) Encuentre el estimador de diferencia del ingreso total de 1981. para la que es conocido que el gasto total general durante un año es de 15. y establezca un límite para el error de estimación. en el presente mes.0 1981.000 36.172€ ) 10.30. para lo que se obtiene una muestra aleatoria simple de 4 hogares que proporciona los siguientes valores anuales en €: Gasto en alimentación 12. En una población de 500 hogares.455. (d) ¿Cuál de los tres métodos es el más apropiado en este caso?¿Por qué? Solución: (a) τˆY = 2. Pueblo A Pueblo B xi yi xi yi 204 210 137 150 143 160 189 200 82 75 119 125 256 280 a. B = 53. Dé un límite para el error de estimación.81 (c) µ = 171. El muestreo estratificado se comporta mal porque los estratos no son homogéneos. Se está investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.69 (b) µ = 171.0 4. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado pero si el pueblo? c. ˆ ˆ ˆ Solución: (a) µ = 180.9 3. estime las ventas medias para este año utilizando un estimador de razón. Por este motivo.91. 12.43.2 4.0 4. B = 5. Se seleccionan al azar 10 parcelas cuyo tamaño y litros utilizados en riego aparecen en la siguiente tabla Litros Hectáreas 600 50 1800 150 750 60 900 70 1100 100 1400 120 950 80 700 60 1000 90 720 60 Estime la media de litros/hectárea que utiliza la comunidad de regantes y la cota del error de dicha estimación. Se obtuvieron los siguientes resultados: N1 = 80.9 2. Solución: r = 11'81 litros / hectarea 2 V (r ) = 0 '3392 13.8 3. N 3 = 40. B = 49. N 2 = 60. deciden formar estratos observándose el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de un mes de tratamiento (Y). Compare los estimadores que se obtienen en cada caso justificadamente. n3 = 6 Zona A Zona B Zona C X Y X Y X Y 3.1 3. n1 = 10. Se desea estimar el agua utilizada en la presente campaña por una comunidad de riego constituida por 250 parcelas.0 2.7 213 .8 3. Los investigadores piensan que hay razones para creer que el comportamiento es diferente dependiendo de la zona de crianza.53 (d) La mejor estimación es en la que se usa el estimador de razón. b.53. Sin hacer distinción entre pueblos.0 3. ¿Qué se obtiene si no se tiene en cuenta los datos del año pasado ni se hace distinción entre pueblos? d. por la fuerte relación entre las variables.1 3. n 2 = 8. 0516. Estimar el peso medio estratificado de los conejos al principio y al final del tratamiento. Los resultados fueron los siguientes: Nota curso 99/00 80 78 98 45 214 Nota curso 00/01 87 65 86 47 . Estimar el peso medio de los conejos al final del tratamiento utilizando muestreo aleatorio simple. B = 0.2 4.8 4. B = 0.1 3.4.1 3.1467.9 3.2 kilogramos.8 2. ˆ ˆ Solución: (a) µ x = 3. Comentar los resultados.0 3.0617 14. En una escuela de 560 alumnos.8 3. µ y = 3.01 para estimar el peso medio estratificado al final del tratamiento.1 3.0 3.8 2. n1 = 64. n3 = 32.8875.2 4. Dar una estimación del error.2 2.9 2. B = 0. Sabiendo que el peso medio de los conejos antes de introducir la nueva dieta era de 3.9 4.7 2.0008.8 3.0 3.9 4.9 3.8 3. B = 0.1 3. ¿cuáles deben ser los nuevos tamaños muestrales? Usar asignación proporcional. c.7 3.0793 ˆ (d) µ = 3. d.1 3.1 3. b.1 ≅ 33 ⇒ n = 147 ˆ (c) µ y = 4.8 3.8944.6 3. estimar el peso medio de los conejos al final del tratamiento utilizando un estimador de razón.0 3. n 2 = 48.0523 (b) n = 144. se desea estimar la calificación media que puede obtenerse en el examen final de matemáticas en el curso 00/01.9 3. Se toma como información auxiliar la calificación de los mismos alumnos en el examen final de matemáticas del curso 99/00 con una nota media de 75.15 ≅ 49.7 2.8 3.1 3.2 ≅ 65.0 3.0 3.2 4. Si se le permite un error de estimación de 0.2. Dar el límite de error de estimación.8 a. A partir de una muestra aleatoria de estudiantes para los cuales se observó la nota del examen final en el curso 00/01 y la calificación de dicho alumno en la prueba correspondiente al curso 99/00. 31. b. es de 12.000 um. ¿Cuál ha de ser el tamaño de la muestra necesario para estimar el total de abetos muertos.45 15. Un director de recursos forestales está interesado en estimar el número de abetos muertos por una plaga en una zona de 300 hectáreas. Estimar el gasto total en alimentación para los 40 hogares mediante un intervalo de confianza. se obtiene una muestra aleatoria simple de tamaño 4 que proporciona los siguientes valores anuales (en um): Gasto en alimentación 125000 150000 100000 175000 a. Se toma una muestra aleatoria de 10 parcelas.. Estime el número total de abetos muertos en el área de 300 hectáreas y fije un límite para el error de estimación.3077.44 ) (c) n = 38. El número total de abetos muertos.61 83 79 56 67 94 67 67 Estimar la calificación media del curso 00/01 utilizando como información auxiliar la calificación obtenida en el curso 99/00 mediante un estimador de razón. c. 1'4097) (b) τˆ y = 5.492. para la que es conocido que el gasto total general durante un periodo de un año. Estime la razón poblacional y obtenga su intervalo de confianza. Supongamos que de esos 4 hogares tenemos también los valores anuales de su gasto general (en um): Gasto General 250000 300000 200000 350000 Antes de calcular otro estimador. Dar una estimación del error de muestreo. obtenidos según la cantidad en fotografía es 4200. B = 7. De una población de 40 hogares. en general. B = 428. (1'2057. b. ¿obtendríamos mejores resultados si utilizamos esta información auxiliar?¿Por qué? 215 . con un límite de error de estimación de 200 abetos? Solución: (a) r = 1. Usando una fotografía aérea. Parcela Cantidad en terreno 1 2 3 4 5 6 7 8 9 10 Cantidad en fotografía 12 30 24 24 18 30 12 6 36 42 18 42 24 36 24 36 14 10 48 54 a.000. ˆ Solución: µ y = 75. el director divide la zona en 200 parcelas de hectárea y media.9 ≅ 39 16. se pide: CHICOS 39 43 21 64 65 78 52 82 57 47 28 75 34 52 CHICAS 92 89 73 98 56 75 Examen previo Examen de cálculo Examen previo Examen de cálculo a.5 B = 0. 6. De una medida del error de estimación.767 18. estima la calificación media en el examen final de cálculo utilizando un estimador de razón.000. Teniendo en cuenta que 291 eran chicos y las calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas. el del apartado a o el del apartado c. Estimar mediante un estimador de razón el total de gasto en alimentación.275. Solución: (a) (4.724. El trabajador social selecciona una muestra aleatoria simple de 25 viviendas de las 275 del barrio. Sin tener en cuenta el sexo. utilizando la información auxiliar del apartado b. d.6 ∑ xi2 = 2240 i =1 25 ∑ yi2 = 169 i =1 25 ∑ xi yi = 522 i =1 25 estime la razón personas/habitación en el barrio y establezca el límite para el error de estimación con una confianza del 95%. Se consideraron dichas calificaciones como una variable auxiliar de la variable “calificación final en cálculo”.744) (b) ρ = 1 (c) τˆ y = 6. Sea x el número de personas en cada vivienda e y el número de habitaciones por vivienda. Corroborar la respuesta del apartado b indicando qué estimador es mejor.255. ¿Qué ocurre si no se tiene en cuenta la información auxiliar pero si el sexo? c. a partir de los datos de la tabla siguiente. 216 . Un trabajador social quiere estimar la ratio personas/habitación en un determinado barrio. En una universidad se realizó una prueba de conocimientos matemáticos antes del ingreso a 486 estudiantes. Compare los estimadores que se obtienen en cada caso justificadamente.000 (d) B = 0 (límite del error de estimación del apartado (c) 17. b. Solución: r = 3. A partir de los datos siguientes: x = 9.1 y = 2.c. ¿Qué ocurre si no se tiene en cuenta la información auxiliar ni el sexo? d. 93 12. B = 9.46 5.1 ≅ 218 2.94.91 11.85 11.03 11. B = 10. Automóvil 1 8 15 2794 Respuesta 1 1 0 1 400 i =1 ∑ y i = 324 b.5 (c) µ = 76. ˆ Solución: (a) µ sy = 11.01 11.05 11. Use los datos de la tabla adjunta para estimar la proporción de conductores que portan su licencia.93 11.80 11. Suponga que 2. Determinar el tamaño de muestra requerido para estimar µ dentro de 0.87 12.95 11. Suponga que N=1. 217 .97 11.91 11.00 11. Estime µ . En un nuevo control.01 unidades.98 12.98 11.00 11. La sección de control de calidad de una empresa usa el muestreo sistemático para estimar la cantidad media de llenado en latas de 12 onzas que sale de una línea de producción.98 11. a.ˆ ˆ ˆ Solución: (a) µ y = 80. B = 0.01 12. Determine el tamaño de muestra y k para estimar p con un error inferior al 2%. Se instala un puesto de control en una carretera nacional y se detiene un conductor de cada siete.800.76. B = 9.02 12.05 11.98 12. y establezca un límite para el error de estimación.83 11.94 11. Los datos de la tabla adjunta representan una muestra sistemática 1 en 50 de la producción de un día.01 11. la Guardia Civil de Tráfico espera que pasen unos 5.89 11.93 11. La Guardia Civil de Tráfico está interesada en la proporción de automovilistas que llevan el permiso de conducir.0259 (b) n = 217.87 11.54 (b) µ = 73.97. b.87 11.000 automóviles por el puesto de verificación. Cantidad de llenado (en onzas) 12.72 11. Muestreo Sistemático 1.04 a.05 12. Establezca un límite para el error de estimación.97 12.88 12.800 autos pasan por el puesto de verificación durante el periodo de muestreo.87 12.90 11.03 12. y establezca un límite para el error de estimación.450 Use estos datos para estimar el número total de personas que visitan el museo durante el periodo específico. (b) Estime la tasa media anual de natalidad para el periodo 1955-1980. a partir de una lista en orden alfabético de los 650 miembros registrados. La tabla anexa muestra el número de nacimientos y la tasa de natalidad por cada 1000 individuos para Estados Unidos durante seis años seleccionados sistemáticamente. (c) ¿Cree usted que el muestreo sistemático es mejor que el muestreo aleatorio simple para los problemas de los apartados (a) y (b)?¿Por qué? 218 . los funcionarios deciden obtener estos datos cada décimo día. Sea y i = 1 si la i-ésima persona muestreada favorece los cambios propuestos e y i = 0 si se opone a los cambios. B = 0.868.7385. Puesto que el control de visitantes en el museo cada día es muy costosa. La información de esta muestra sistemática de 1 en 10 se resume en esta tabla Día 3 13 23 Nº personas que visitan el museo 160 350 225 173 290 18 i =1 ∑ y i = 4.8100. (a) Estime el número medio de varones nacidos por año para el periodo 1955-1980. B = 1.ˆ Solución: (a) p sy = 0.370. Los funcionarios de un museo están interesados en el número total de personas que visitan el lugar durante un periodo de 180 días cuando una costosa colección de antigüedades está en exhibición. B = 0. y establezca un límite para el error de estimación.97 ≅ 1177 k = 4 3. Establezca un límite para el error de estimación.176. Establezca un límite para el error de estimación.34 4. Solución: τˆ sy = 48680.1042 5. Los funcionarios toman una muestra sistemática de 1 en 10. 65 i =1 ∑ y i = 48 ˆ Solución: p sy = 0. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. Use los siguientes datos de la muestra para estimar la proporción de miembros en favor de los cambios propuestos. 18 i =1 2 ∑ y i = 1.0364 (b) n = 1.321. (b) µ sy = 19.0 1960 2.3 1915 1.5 1925 1.927.4 1975 1.935. B = 3.6 1975 4.9 1955 2. 7.437. se observa.7 1980 5.719 1.57 . B = 139.613.17 .5 1970 3.731.Año Nac. 6.616 1.6 1965 2.759.6 1910 0.760.078.5 1930 1. En la tabla anexa se presentan los datos sobre las tasas de divorcio (por cada 1000 personas) en Estados Unidos para una muestra sistemática de los años de 1900-1980.531.4 1970 1. en general.8 1950 2.2 1920 1.378 1.9 ˆ ˆ Solución: (a) µ sy = 1.833. una tendencia creciente en ˆ Solución: µ sy los datos de la muestra. La gerencia de una compañía privada con 2.7 1945 3. (c) Si.047. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo (las respuestas a favor se han representado como 1) Empleado Respuesta muestreado 3 1 13 0 23 1 1993 1 ∑y i =1 200 i = 110 219 .358 19. aunque se rompa ese orden parcial en los años 1945-1955.2 1940 2.816.179.642 3. Mejor. Estime la tasa media anual de divorcios para tal periodo y establezca un límite para el error de estimación. B = 0.000 empleados está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión.257.144.054 1.8 1935 1.852.926.304 3.35 .0 = 2.Femeninos Total de Nac.135 1.26. Observando la tendencia de las muestras se puede decir que las poblaciones en estudio están “ordenadas” de forma decreciente.0 1960 2.5 1905 0.073. Natalidad 1955 2. ¿Es en este caso el muestreo sistemático mejor o peor que el muestreo aleatorio simple?¿Por qué? Año Tasa Año Tasa 1900 0.708 2.973.67.Masculinos Nac.612.850 23.6 1980 1.386 18.063 3.142 4.295 26.576 4.915.7 1965 1.008 3.198 14.258 15. Un auditor se enfrenta a una larga lista de 1. Se quiere repetir el estudio anterior con un error de estimación inferior al 5%.000.000 cuentas por cobrar de una empresa. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a 1. a partir de una lista en orden alfabético de los 650 miembros registrados. (Se recomienda realizar con el ordenador los ejercicios 1. con cada industria como un conglomerado. Los funcionarios de cierta sociedad profesional desean determinar la proporción de miembros que apoyan varias enmiendas propuestas en las prácticas de arbitraje. ¿qué tipo de muestra sistemática deberá obtenerse? (indique n y k). obteniendo que 47 estaban a favor de los cambios propuestos. 02 215 k =3 6.8 ≈ 215 ( N − 1) D + pq k≤ 625 = 3. Entonces decide usar muestreo por conglomerados. Un fabricante de sierras quiere estimar el coste medio de reparación mensual para las sierras que ha vendido a ciertas industrias. El fabricante selecciona una muestra aleatoria simple de 20 de 96 industrias a las que da servicio. 3. 2. 5 y 7 dado el elevado número de datos y resolver a mano. una versión con menos datos) 1. 7 ≈ 331 k = 6.000 € con una confianza del 95%. Muestreo por Conglomerados. Solución: k = 10 9. ¿Qué tipo de muestra sistemática deberá obtenerse? (indique n y k). Los datos sobre coste total de reparaciones por industria y el número de sierras son: 220 .Se quiere repetir el anterior estudio con un error de estimación inferior al 5% (considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios).000 €. Los funcionarios tomaron una muestra sistemática de 1 en 10. Considerando la muestra anterior como una muestra previa para estimar los parámetros necesarios. verificando la solución con el ordenador. Solución: n = 330. El valor de cada una de estas cuentas no suele superar los 21. pero puede obtener la cantidad total gastada en reparación y el número de sierras que tiene cada industria. Para ello decide tomar una muestra sistemática de 1 en k . 04 ⇒ k = 6 8. Determine el valor de k. El fabricante no puede obtener un coste de reparación para cada sierra. Solución: n = Npq = 214. B = 1. Después de verificar sus registros de ventas.312. Usando esta información adicional. y establezca un límite para el error de estimación.73.175. Estime el costo medio de reparación por sierra para el mes pasado. c. B = 3.008. el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. b. Ya que los resultados deber ser obtenidos rápidamente y con poco dinero. Establezca un límite para el error de estimación.Industria Nº sierras Costo total de reparación para el mes pasado (€) 1 3 50 2 7 110 3 11 230 4 9 140 5 2 60 6 12 280 7 14 240 8 3 45 9 5 60 10 9 230 11 8 140 12 6 130 13 3 70 14 2 50 15 1 10 16 4 60 17 12 280 18 6 150 19 5 110 20 8 120 a. estime la cantidad total gastada en reparación de sierras por estas industrias. Una industria está considerando la revisión de su política de jubilación y quiere estimar la proporción de empleados que apoyan la nueva política. Se selecciona una muestra aleatoria simple de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a través de un cuestionario. La industria consiste en 87 plantas separadas localizadas en todo Estados Unidos.07 (c) τˆ = 14.78 (b) τˆ = 12. la industria decide usar muestreo por conglomerados.110. con cada planta como un conglomerado. B = 1. y establezca un límite para el error de estimación.78 2. Estime la cantidad total gastada por las 96 industrias en la reparación de sierras. ˆ Solución: (a) µ = 19. Los resultados se presentan en esta tabla: Planta Nº empleados Nº empleados que apoyan la nueva política 1 51 42 2 62 53 221 .85. con barrios formando los conglomerados. los gastos totales se muestran en esta tabla: Barrio Nº hogares Cantidad total gastada en servicios (€) 1 55 2210 2 60 2390 3 63 2430 4 58 2380 5 71 2760 6 78 3110 7 69 2780 8 58 2370 9 52 1990 10 71 2810 11 73 2930 12 64 2470 13 69 2830 14 58 2370 15 63 2390 16 75 2870 222 .81% ) (b) n = 47. b) La industria modificó su política de jubilación después de obtener los resultados de la encuesta. Se diseña una encuesta económica para estimar la cantidad media gastada en servicios para los hogares en una ciudad.6 ≅ 48 3.91%. Ahora se quiere estimar la proporción de empleados a favor de la política modificada ¿Cuántas plantas deben ser muestreadas para tener un límite del 2% para el error de estimación? Use los datos anteriores para aproximar los resultados de la nueva encuesta.3 49 40 4 73 45 5 101 63 6 48 31 7 65 38 8 49 30 9 73 54 10 61 45 11 58 51 12 52 29 13 65 46 14 49 37 15 55 42 a) Estime la proporción de empleados en la industria que apoyan la nueva política de jubilación y establezca un límite para el error de estimación. ˆ Solución: (a) p = 70. Ya que no se encuentra disponible una lista de hogares. Los entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados. se usa muestreo por conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. B = 4. Los resultados se muestran en esta tabla: 223 .3 16. con un límite de 5.0 16.1 15.0 15. La selección y entrevista de una muestra aleatoria simple de votantes registrados es muy costosa por lo que se utiliza muestreo por conglomerados.0 15.1 16.0 16.9 16. El inspector selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes muestreados.9 16.2 16.1 16. con los resultados (en onzas) que se muestran: Paquete Onzas de llenado 1 16. ˆ Solución: µ = 16. Suponga que el número total de cajas empaquetadas por la fábrica es lo suficientemente grande para que no se tome en cuenta la corrección por población finita. y establezca un límite para el error de estimación.0 15.9 Estime el peso medio de llenado para las cajas empaquetadas por esta fábrica.9 15.0 5 16. El periódico quiere hacer la estimación el día de la elección.7 16.64 (b) τˆ = 157.1 16.2 16.9 15.8 16.927.9 16.1 16. c.1 16. B = 0. Use los datos anteriores para encontrar el número aproximado de conglomerados que se necesitan para obtener ese límite.8 16.3 15.1 15.1 4 15.8 16.9 16. ˆ Solución: (a) µ = 40.0050.3 15.7 16. La encuesta económica se va a llevar a cabo en una ciudad vecina de estructura similar.1 15. En la encuesta anterior se desconoce el número de hogares en la ciudad.9 16. Es por eso que los reporteros son enviados a los lugares de votación de cada distrito en la muestra. B = 6.0215 5.2 15.0 15.9 16.0 16.17 78 3210 18 51 2430 19 67 2730 20 70 2880 a.1 15.3 15.0 2 15. Un periódico quiere estimar la proporción de votantes que apoyan a cierto candidato A en una elección estatal.0 16.020.9 16.9 16.0 16.88 (c) n = 29. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un límite para el error de estimación. Se selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que tiene el estado.9 16.1 16.4 ≅ 30 4.9 3 16. Estime la cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un límite para el error de estimación. b.17.8 16. El cereal está en paquetes que contienen 12 cajas cada uno. para obtener la información pertinente directamente de los votantes.0 16.1 16.0 15.1 15.9 15. pero antes de que se haya hecho la cuenta final de los votos.2 16. El objetivo es estimar la cantidad total gastada en servicios por los hogares de la ciudad. B = 0.8 16.1 15. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas en una fábrica.000€ para el error de estimación.1 15.2 15.8 15.8 16. b. usando los datos de la encuesta piloto. y establezca un límite para el error de estimación.1 ≅ 21 6.92 ≈ 97 7. ¿Cómo de grande debe ser la muestra para estimar la proporción de votantes a favor de un candidato similar con un límite del 5% para el error de estimación? Solución: ˆ p = 0. Con motivo del cuarto centenario del Quijote. el Ministerio de Cultura desea estimar el número de libros comprados cada mes en una localidad. cuántas manzanas debe tener una nueva muestra si se quiere estimar los libros comprados cada mes con un error de estimación inferior a 140 unidades.0307 (b) n = 20.Nº votantes Nº votantes A Nº votantes Nº votantes A Nº votantes Nº votantes A 1290 680 1893 1143 843 321 1170 631 1942 1187 1066 487 840 475 971 542 1171 596 1620 935 1143 973 1213 782 1381 472 2041 1541 1741 980 1492 820 2530 1679 983 693 1785 933 1567 982 1865 1033 2010 1171 1493 863 1888 987 974 542 1271 742 1947 872 832 457 1873 1010 2021 1093 1247 983 2142 1092 2001 1461 1896 1462 2380 1242 1493 1301 1943 873 1693 973 1783 1167 798 372 1661 652 1461 932 1020 621 1555 523 1237 481 1141 642 1492 831 1843 999 1820 975 1957 932 a. Solución: n = 96. Se selecciona una localidad con 6. Un sociólogo quiere estimar el ingreso medio por persona en cierta ciudad pequeña donde no existe una lista disponible de adultos residentes.5701. B = 0. El periódico quiere realizar una encuesta similar durante la siguiente elección.200 hogares agrupados en 700 manzanas de viviendas. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 manzanas y se entrevistaron a todas las familias. obteniéndose los siguientes resultados: manzana libros comprados cada mes por familia 1 1 2 1 0 3 2 1 0 1 2 2 1 0 2 2 0 0 1 3 3 2 1 1 1 1 0 2 1 2 2 2 4 1 1 0 2 1 0 3 Determine. Estime la proporción de votantes que apoyan al candidato A. Por esta razón para el diseño de la 224 . supongamos conocido M = 6 × 415 = 2. obteniéndose estos datos: Conglomerado (i) Nº de residentes (mi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 12 4 5 6 6 7 5 8 3 2 6 5 10 9 3 6 5 5 4 6 8 7 3 8 151 residentes Ingreso total por conglomerado en € (yi) 96000 121000 42000 65000 52000 40000 75000 65000 45000 50000 85000 43000 54000 49000 53000 50000 32000 22000 45000 37000 51000 30000 39000 47000 41000 1329000 € a) Estime el ingreso medio por persona en la ciudad y establezca un límite para el error de estimación. b) Estime el ingreso total de todos los residentes de la ciudad y el límite para el error de estimación.490 ) y estime el total por los dos métodos 225 .500 residentes en la ciudad.encuesta utiliza muestreo por conglomerados. estime el ingreso total de todos los residentes de la ciudad mediante un intervalo de confianza. Se divide la ciudad en bloques rectangulares y el sociólogo decide que cada bloque rectangular va a ser considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. suponiendo que M es desconocido. El investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25 conglomerados y entrevistar a cada hogar dentro de cada uno. c) Suponiendo que existen 2. NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo. Se seleccionan aleatoriamente 25 conglomerados y se realizan las entrevistas. mi = 6 ∀i . B = 562.617.1 32. Las observaciones se presentan en la tabla adjunta: Paquete nº Volumen envasado en cm3 1 33 32. En un proceso de control del volumen envasado por una fábrica de bebidas se eligen 5 de los 40 paquetes que tiene la fábrica. Observe como coinciden las dos estimaciones así como la varianza del estimador y el límite para el error de estimación.400 € B = 3. d) Tomando los anteriores datos como una muestra previa. y se mide el volumen que cada envase contiene. B = 0.061.4 4 34.18€ ) d) n = 166. Se selecciona una muestra aleatoria simple de 4 bloques que proporciona los siguientes resultados: Bloque tubos gastados por hogar 1 1 2 1 3 3 2 1 4 2 1 3 2 2 3 1 4 1 1 3 2 1 1 1 3 2 2 4 1 1 3 2 1 5 1 3 Estime de distintas formas el número total de tubos gastados.584.1 32.801. Solución: Muestreo por conglomerados τˆ = 8000.949.22 10.5 3 30. cómo debe tomarse la muestra en una encuesta futura para estimar el ingreso promedio por persona con un límite para el error de estimación de 500€. cada uno de los cuales contiene 4 envases. ˆ Solución: µ = 32.1 33.505.14€ ( ) comunidad de 4000 hogares divididos en 400 bloques.8 32.2 5 32 32.85 Muestreo aleatorio simple τˆ = 6400. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las empresas de un pueblo.6 33.2 2 32 32. 26.32 € / residente b) τ t = 22.5 33.791.78 9.58 ≈ 167 8.9 33. 04 € c) (17.6 Estime el volumen medio por envase y dar la cota de error de estimación. B = 1077.1 33 33. Para ello decide seleccionar una muestra de 10 de las 85 inscritas en el registro mercantil. El número de bajas en el último año.80. Un empresario quiere estimar el número de tubos de dentífrico usados por mes en una B = 1.056. Solución: a) µ = 8.7 34. obtenga el límite para el error de estimación en cada caso y comente los resultados. el número de empleados y la respuesta de cada empresa sobre si utilizaría los servicios de la empresa de trabajo temporal fueron los siguientes: 226 .5 31.34€ .estudiados τ = M y τ t = N y t .6 33.831. Dicha ciudad está dividida en 200 manzanas de viviendas.0674 12. Cierto tipo de tableros posee 12 microcircuitos cada uno. B = 30.68% 11. ˆ Solución: (a) τˆ = 212. Dé el límite del error de estimación.Empresa 1 2 3 4 5 6 7 8 9 10 a. El número de microcircuitos defectuosos por tablero fue 2 0 1 3 2 0 0 1 3 4 Estime la proporción de microcircuitos defectuosos en la población y establezca una cota para el error de estimación.1333. De un pedido de 50 tableros se seleccionan 10 de ellos para su estudio. Estime el número de Bajas Empleados Respuesta 1 7 Si 2 15 No 9 85 Si 0 3 No 2 12 No 0 8 No 1 21 Si 0 4 No 4 35 No 6 92 Si bajas en el último año en las empresas del pueblo. emitido las 24 horas del día por un canal Digital. Se extrae una muestra aleatoria simple de 10 manzanas. Los datos de la encuesta se encuentran en la siguiente tabla: Manzana Nº hogares con canal Digital 1 2 3 4 5 6 7 8 7 9 6 5 9 6 Nº total horas que ven programa 13 13 14 13 0 10 6 227 . B = 151. En una pequeña ciudad se quiere estimar el número total de horas diarias que sus residentes dedican a ver el programa ``Gran Hermano''.02 (b) p = 40%. Estime la proporción de empresas que usarían los servicios ofertados. y se interroga a cada familia acerca de si están conectados a Vía Digital y cuántas horas ven el programa. B = 0. b. Solución: ˆ p = 0.5. Dé el límite del error de estimación. 8 9 6 14 16 4 a.28 ≅ 65 14. Obtener un intervalo de confianza para el número total de horas. 0'4547) (c) n = 64. Determinar cuántas manzanas se deberían muestrear para estimar el total poblacional.4 ≅ 197 13.4247 (b) (0'3947. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios.70) (c) n = 196. 2704. (b) (1415. y se elige una 228 . c.8 9 10 de Canal Digital. c. En un municipio de 5000 familias se pretende estimar el porcentaje de las que poseen ordenador. Estimar el número total de horas que se ve el programa ``Gran Hermano'' a través b. Se extrae una muestra aleatoria simple de 10 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Estimar la proporción de hogares interesados en contratar la televisión digital.30. Obtenga un intervalo de confianza para la citada proporción. con un límite para el error de estimación de magnitud 20. Determinar cuántas manzanas se deberían muestrear para estimar la proporción poblacional con un límite para el error de estimación del 1%. Solución: (a) τˆ = 2060 . Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la Nº hogares manzana interesados 1 2 3 4 5 6 7 8 9 10 8 7 9 6 5 9 6 8 9 6 3 3 4 3 2 4 3 3 4 2 a. ˆ Solución: (a) p = 0. b. En una urbanización se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital. Se consideran 1000 conglomerados de 5 familias cada uno. Considere la muestra anterior como una muestra previa para estimar los parámetros necesarios. Obtenga una estimación de la varianza del estimador empleado.0002 16. Determine el tamaño de la muestra necesario para estimar el peso total de mariscos dañados en el embarque. 20 ≅ 7 6 3 10 2 a. Se desea conocer la proporción de empleados de una empresa que no están dispuestos a trasladarse a una nueva planta de producción. B = 308. Solución: ˆ ˆ ˆ p = 0. conteniendo cada una 24 paquetes de 5 kilos. en los que el número de familias con ordenador es: 2 1 5 3 0 1 4 3 5 0 Estimar la proporción de familias que poseen ordenador y la varianza del estimador usado para estimar dicha proporción.1167.muestra aleatoria de 10 conglomerados. V ( p) = 0. Solución: (a) τˆ = 600. Realizada una encuesta a los empleados de 5 factorías elegidas al azar entre las 50 que tiene la empresa. Hay 100 cajas en el embarque. V ( p) = 0. Un gran embarque de mariscos congelados es empaquetado en cajas. con un límite de error de 275. b.48.0143 15. Solución: ˆ ˆ ˆ p = 0. Los datos son: 9 para el error de estimación. los resultados han sido: Factoría Nº empleados Dispuestos 1 2 3 4 5 250 190 210 400 150 225 175 190 350 120 Estimar la proporción de empleados que no están dispuestos a trasladarse a la nueva factoría. Estime el peso total de mariscos dañados en el embarque y establezca un límite 229 . Un inspector del gobierno determina el peso total de mariscos dañados para cada una de las 5 cajas muestreadas. 22 (b) n = 6. En la primera muestra se atrapan 320 codornices. por lo que una 230 .51 3. se devolvía inmediatamente. Obsérvese que la muestra representa 100 peces diferentes. Un mes después se repite el proceso.88 5. Se usa una serie de 50 trampas. se marcan y se sueltan.7.4. Los regentes de una ciudad están preocupados por las molestias que causan las palomas alrededor del ayuntamiento. Estimar el tamaño total de la población de codornices y dar un límite de error de estimación. Se atrapa una muestra aleatoria de 2876 salmones.867. ˆ Solución: N = 444. B = 150.82 4. que ya había sido marcado. Varios meses después se obtiene una segunda muestra de 515 codornices. usando 60 palomas.60 2. Ciertos biólogos de poblaciones salvajes desean estimar el tamaño total de la población de codorniz común en una sección del sur de Florida. se marcan y se devuelven al arroyo. Suponga que 91 de estos pájaros están marcados. Expertos en pesca están interesados en estimar el número de salmones de una reserva. B = 344. Estime el tamaño de la población total y establezca un límite del error de estimación. Varias semanas después se atrapó una muestra de 120 peces y se observó el número de peces marcados. Supongamos que 678 tienen marcas en la segunda muestra. Un mes después se atrapa una segunda muestra de 2562. B = 715. A fin de cuantificar el problema contratan un equipo de investigadores para que estime el número de palomas que ocupan el edificio. Después de ser capturadas. sea atrapan 100 truchas. ˆ Solución: N = 1810.72. Durante un periodo de varios días. Cada uno es marcado y soltado. B = 78. ˆ Solución: N = 200. Estime el tamaño total de la población de truchas y dé un límite de error de estimación. cada ave es retirada de la trampa y marcada con una banda de metal en su pata izquierda. Ella cree que el tamaño de la población está entre 500 y 1000.99. Estimar el tamaño total de la población de palomas y dar un límite de error de estimación. Estimación del Tamaño de la Población. 1. Una zoóloga desea estimar el tamaño de la población de tortugas en determinada área geográfica. Supongamos que este número fue de 27 en la segunda muestra. de las que 18 están marcadas. Un club deportivo se interesa por el número de truchas de río en un arroyo. ya que cualquier pez atrapado en esos días. ˆ Solución: N = 10. Luego se sueltan todas las aves. Con varias trampas se captura una muestra de 60 palomas. Estimar el total de personas que visitan la oficina diariamente y dar la cota de error de estimación. ˆ Solución: M = 912. durante 12 intervalos de 5 minutos cada uno. Las diez parcelas muestreadas tuvieron una media de 2. Solución: muestreo inverso (1910 ∓ 326. decide contar los alumnos que pasan hasta observar a 100 que portan la carpeta.32 7. conoce perfectamente que es una pérdida de tiempo innecesaria observar el flujo de 231 . ˆ ˆ Solución: (a) λ = 5. marcadas y liberadas.T. está pensando en abrir una farmacia de 24 horas.M.67. repartidos aleatoriamente entre las 8 horas que permanece abierta la oficina. Estime con un intervalo de confianza el número de alumnos que asistieron esa mañana a la Facultad. ˆ Solución: N = 1. Se toma una muestra de 10 cuadros de 0.8 8. Para ello se basa en que dicho día una conocida marca comercial ha repartido a primeras horas de la mañana en la entrada de la Facultad 500 carpetas. B = 2.A. Se desea estimar el número total de personas que diariamente solicitan información en una oficina turística. desea estimar el número de alumnos que una determinada mañana han ido a la Facultad. En un intercambio de clase. Atrapa 160 tortugas antes de obtener las 15 marcadas. Toma una segunda muestra un mes después y decide continuar muestreando hasta que se recapturen 15 tortugas marcadas.58 ) 9. Las 100 tortugas son capturadas.72 6. se va a estimar la densidad de árboles que presentan hongos parásitos.muestra inicial de 100 parece ser suficiente.M.1 (b) M = 1. Para saber si los ingresos compensarían los gastos de esta inversión deciden observar un establecimiento similar para estimar los ingresos diarios. B = 423.6.120. B = 507. Este asiduo alumno de T.C. Un alumno de A.066.5 acres cada uno. B = 170.8 árboles infectados por cuadro.A. En una plantación de pinos de 200 acres. El hermano de un alumno de T. a) Estime la densidad de árboles infectados y establezca un límite de error de estimación. b) Estime el total de árboles infectados en los 200 acres de la plantación y establezca un límite de error de estimación. Estime el tamaño total de la población de tortugas y establezca un límite de error de estimación. sentado en un banco del pasillo. Se observa que 114 personas solicitan información. para lo que fue necesario contar hasta 382 alumnos. 232 Control . B = 272.62 11.160. Se desea estimar el número de vehículos de un modelo determinado que el mes próximo utilizarán el aparcamiento de Puerta Real.000.76 . Estimar el tamaño total y el límite de error de estimación. Transcurrido el mes. Se desea estimar el número total de palomas en la glorieta de una ciudad. se marcan y se devuelven a la población. Muestreo aleatorio simple Ingresos = 20. B = 1. Se obtiene una muestra de tamaño 60.110. ˆ Solución: N = 2.25 12. B = 3. se ha observado en los 5 controles los siguientes resultados: Número de vehículos de ese modelo que usan el aparcamiento 1 1 2 1 3 2 4 1 5 3 Estimar el número total de vehículos del modelo en estudio que utilizaron el aparcamiento.402. obteniendo los datos de la siguiente tabla clientes 35 10:00-10:30 20 13:00-13:30 19 16:00-16:30 30 19:00-19:30 25 22:00-22:30 9 01:00-01:30 12 04:00-04:30 18 07:00-07:30 Sabiendo que el gasto medio por cliente es de 20∈. Al día siguiente se elige otra muestra de tamaño 400 y en ella se encuentran 12 marcados. se han tenido que capturar para ello 300 aves. se marcan y se devuelven a la población. Durante las 720 horas del mes se van a establecer 5 controles aleatorios de 1 hora de duración cada uno. estime los ingresos diarios de la farmacia observada y el correspondiente límite para el error de estimación utilizando diferentes métodos. Se desea estimar el número total de pingüinos en una determinada zona. Solución: Muestreo por cuadros Ingresos = 20. Estimar el número total de pingüinos y dar la cota de error de estimación.160. ˆ Solución: N = 800.22 10.clientes las 24 horas del día por lo que decide observar de forma sistemática media hora cada 3 horas. Se realiza una segunda muestra hasta encontrar 30 palomas marcadas. B = 5.137. Se capturan 80 palomas. 250. Se quiere conocer el tamaño de la población de este año para compararlo con el del año pasado.4. Estime el número total de asistentes a la inauguración y fije un límite para el error de estimación. 1. a. a. Estime el número total de asistentes. Estimar la densidad de las partículas dañinas en dicha zona. B = 814.48 15. Se atrapa una muestra inicial de 600 palomas y se les da el fármaco. Estime el tamaño de la población con un intervalo del 95% de confianza.ˆ Solución: M = 1152. B = 229.9 16. ˆ ˆ Solución: (a) λ = 1. ˆ Solución: (a) (1. B = 7. y fije un límite para el error de estimación. en 100 cuadros de igual tamaño y seleccionaron 40. La densidad de cierto tipo de partículas dañinas es el parámetro de interés para el sector industrial. 1'6424) (b) M = 1875. Para ello. Se toman periódicamente muestras del aire en un área industrial de la ciudad.6) (b) M = 5. 233 . observando que el número de personas era 2100. de dimensiones 100 metros de largo por 35 metros de ancho.5306. Se sabe que el pabellón tiene forma cuadrada de 35 metros de lado y se traza una malla que divide el área total en 100 cuadros de igual tamaño. ˆ Solución: λ = 210 part / cm 3 . b. El ayuntamiento de Madrid está interesado en conocer el número de aficionados que acudieron al aeropuerto a vitorear al equipo campeón de la Champion League. dividieron la sala de espera. Se desea conocer cuántas personas asistieron a la inauguración del pabellón de Portugal en la Expo de Lisboa.59 13. A partir de 15 muestras de 1 cm 3 . observando que el número de personas es de 750.13 ≅ 229 14. Estime la densidad de asistentes por metro cuadrado y obtenga su intervalo de confianza. Estime la densidad de asistentes por metro cuadrado mediante un intervalo de confianza del 95%. Un equipo de ecólogos quiere medir la efectividad de un fármaco para controlar el crecimiento de la población de palomas. Se selecciona una muestra aleatoria de 40 cuadros. B = 136. a la vez que se aprovecha para marcarlas en una pata. (1'4188. b. se obtuvo un promedio de 210 partículas/ cm 3 . a. En fechas posteriores se atrapa otra muestra de 100 palomas de las cuales 48 tienen marca. así como dar una estimación del error de dicha estimación. al coste de los factores en millones de pesetas en 1991 fueron: V.3 92. Solución: (a) ( 989 '79. 1.724.8 Murcia 362.3 Luxemburgo 4.2 Inglaterra 595. ¿en qué proporción deben ser mayores las cantidades 100 y 48 observadas en la segunda muestra?.354.B.1 68.294.1 Total 3230. Sabemos que.0 Holanda 165.4 248.920..025. 200 y 96?. Se realizó un estudio sobre la economía de las provincias mediterraneas españolas.160.1 Irlanda 24.450. Para reducir el límite de error de estimación a la mitad.318. 7095 2.026.475.5 Dinamarca 76.0 Grecia 42.4 43.5 30.4 Castellón 205.0 Baleares 358.1 España 216.8 Francia 674.016. Solución: F = 0. cuyos V.0 301. en 1995.) Superficie (1000 km 2 ) Alemania 826.869. es decir. el PIB a precios de mercado de los siguientes países fue: PIB (u.8 132.A.B.A. 1510 ' 21) (b) el cuádruplo 8. Indicadores estadísticos regionales.2 504..3 41..3 Comunidad Valenciana 1.876.7 Gerona 257.9 Italia 473. ¿se deberían observar el doble de las cantidades anteriores.m.5 2253.0 234 .6 Portugal 27.8 544.7 Tarragona 301.7 Bélgica 104.3 Valencia 1.b.7 2.0 244.809. ¿el triple?.3 Alicante 503.3 Determinar el índice de asociación geográfica de Florence del PIB respecto a la extensión superficial de cada país. Cataluña 2.0 Barcelona 2. ¿el cuádruplo?. 870.A.B.158.487. 235 . 6865 = ∑ di = = 0. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS 350 80 R1 70 15 R2 450 100 R3 250 50 R4 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.503. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga la desigualdad colectiva e interprete su valor.3 6. El índice de concentración de Theil de la producción de esta zona. 6716 4 4 i =1 4 5. Determinar: 1. Solución: T = ln N + ∑ x j ln x j = 0.1152 ln N 4.379.748.4 a.8 206. b.1604 (b) 68% 3.7 362.056.2 346.396. ¿Qué parte de la desigualdad existente es responsabilidad de las diferencias existentes entre las provincias de cada grupo? Solución: (a) IT = 0.Andalucía Almería Granada Málaga Cádiz Total V. En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB 80 R1 15 R2 100 R3 50 R4 Obtenga el índice de concentración de Theil e interprete su valor.0 140. Solución: D = ∑ di fi = ∑ di i =1 i =1 N N 1 1 N 2.1597 j =1 N IT = ITHEIL = T = 0. Los coeficientes de diversificación regional.19 1.87 CLi Siderurgia 0.52 0.59 1.97959 2 j =1 9. Los cocientes de localización para cada industria en cada región.57 0. Papeleras y Alimentación. Medidas de localización espacial. 1.16 Químicas 0. dividido administrativamente en cuatro regiones.65 1. Químicas.32 Papeleras 0. d. En un país.33 0.65 III 0.Solución: F = 1− 1 N ∑ x j − y j = 0.47 1.98 0.22 236 .32 0.51 1.29 0 0. b. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia.52 0. Los coeficientes de localización sectorial para cada industria.79 0.63 IV 0 1. Solución: (a) Regiones II III 3 1 8 7 1 5 7 10 3 12 22 35 IV Total 0 9 12 37 3 9 3 24 4 21 22 100 Lij Siderurgia Construcción Químicas Papeleras Alimentación (b) I 2.45 II 1.14 Alimentación 0. Los coeficientes de especialización para cada región. c. Construcción.54 1.46 Construcción 0. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era: I Siderurgia 5 Construcción 10 Químicas 0 Papeleras 4 Alimentación 2 Total 21 Determinar: a. (c) CE j I II III IV (d) CD j I 0,61 II 0,73 III 0,77 IV 0,54 2. Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10.000 65.000 20.000 Castilla La Mancha 3.000 18.000 14.000 Castilla León 19.000 30.000 8.000 Cataluña 15.000 60.000 90.000 a) Obtenga los coeficientes de localización de las distintas actividades. b) Calcule los coeficientes de especialización para cada comunidad. Solución: a) Coeficientes de localización sectorial SECTOR REGION S1 S2 S3 R1 0,0571 0,1058 0,1184 R2 0,0356 0,0046 0,0066 R3 0,2423 0,0115 0,1013 R4 0,1496 0,1219 0,2131 0,25 0,12 0,23 0,22 CL j b) 0,2423 0,1219 0,2197 Coeficientes de especialización regional SECTOR CEi REGION S1 S2 S3 R1 0,0283 0,1927 0,1645 0,192733 R2 0,0478 0,0228 0,025 0,047808 R3 0,1998 0,0348 0,2346 0,234649 R4 0,0426 0,1278 0,1705 0,170455 3. La distribución de algunas especies animales en 4 areas geográficas es la siguiente 237 Area/Especie Buitre Nutria Lince I 15 8 60 II 12 9 40 III 16 7 10 IV 13 4 18 Obtener el coeficiente de diversificación de estas especies en las distintas zonas. Solución: CDI = 0,59; CDII = 0, 68; CDIII = 0,9; CDIV = 0,8 4. En un país, dividido administrativamente en tres regiones, el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia, Construcción, Químicas y Alimentación. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I II III Siderurgia 15 10 6 Construcción 165 110 66 Químicas 30 20 12 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas, justificando y apoyando los comentarios en los datos del enunciado. Solución: (Notamos los distintos sectores y regiones de forma genérica para simplificar el aspecto de las tablas.) datos REGION R1 R2 R3 S1 15 10 6 SECTOR S2 S3 165 30 110 20 66 12 S4 195 130 78 Participación de las regiones en cada sector y en la población total SECTOR REGION R1 R2 R3 S1 0,4839 0,3226 0,1935 S2 0,4839 0,3226 0,1935 S3 0,4839 0,3226 0,1935 S4 población 0,4839 0,4839 0,3226 0,3226 0,1935 0,1935 Participación de los sectores en cada región y en la población total REGION R1 R2 R3 población S1 0,0370 0,0370 0,0370 0,0370 SECTOR S2 S3 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 0,4074 0,0741 S4 0,4815 0,4815 0,4815 0,4815 238 Cocientes de localización y especialización Lij SECTOR REGION R1 R2 R3 S1 100,00 100,00 100,00 S2 100,00 100,00 100,00 S3 100,00 100,00 100,00 S4 100,00 100,00 100,00 Coeficientes de localización sectorial S1 SECTOR S2 S3 0 0 0 S4 0 CL j Coeficientes de especialización regional CEi REGION R1 R2 R3 0 0 0 Coeficientes de diversificación de cada región CDi CDi* REGION R1 R2 R3 0,6178 0,6178 0,6178 0,49 0,49 0,49 5. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 15 225 195 Región Sur 6 90 78 Calcule los coeficientes de localización sectorial. Interprete los resultados Solución: La participación de cada una de las regiones en el sector j, ( ∀j , CL j = 0 ) es igual a la participación de cada región en el conjunto de sectores. Cada sector se localiza en igual medida que todos ellos en conjunto. 6. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 60 225 150 Región Sur 24 90 60 Calcule los coeficientes de especialización regional. Interprete los resultados Solución: La presencia de cada sector en la región i, ( ∀i , CEi = 0 ) es igual a la presencia de cada sector en el conjunto del pais (todas las regiones). Cada región se especializa en la misma medida que el conjunto del pais. 239 7. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 300 195 Región Sur 36 120 78 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: Yij2 R1 R2 S1 8100 1296 S2 90000 14400 S3 ∑Y j =1 L 2 ij CDi = Yi i2 L∑ Y j =1 L 2 ij CDi* = L  1  CDi −  L −1  L 0,75702479 0,75702479 38025 136125 6084 21780 0,838016529 0,838016529 8. El valor añadido bruto en 2005 a precios constantes del 2003 en millones de euros para las actividades que aparecen en la tabla en las dos regiones en que se divide un país es: Region/Sector Agricultura Industria Servicios Región Norte 90 0 0 Región Sur 30 30 30 Calcule los coeficientes de diversificación normalizados. Interprete los resultados Solución: En la región norte (R1) el grado de diversificación es mínimo, CDi* = 0 , esto ocurre cuando una sóla actividad, (S1=agricultura), está presente en ella. En la región sur (R2) el grado de diversificación es máximo, CDi* = 1 , esto ocurre cuando la actividad de la región se distribuye uniformemente entre los distintos sectores, (S1=S2=S3=30). 10. Contrastes χ 2 de Pearson 1. El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. En base a una muestra aleatoria de cuatro semanas completas de trabajo, se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 240 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?, ( α = 0.05 ). 2 2 Solución: ( χ exp = 4,9 ) < ( χ 4; 0,95 = 9, 49 ) . No existe razón para creer que el número que asisten al consultorio no se encuentra distribuido en forma equitativa. 2. En un cajero automático se ha observado una baja utilización del mismo. Con el fin de confirmar este hecho, se ha controlado el número de llegadas diarias al mismo, obteniéndose los siguientes resultados: Nº llegadas al cajero Nº de días 0 21 1 18 2 7 3 3 4 ó más 1 En base a esta información, ¿existe alguna razón para creer que el número de llegadas diarias es una variable de Poisson con parámetro 0,9? ( α = 0, 05 ) 2 2 Solución: ( χ exp = 0, 04 ) < ( χ 2; 0,95 = 5,99 ) . Se acepta la hipótesis de que los datos proceden de una distribución P (0,9) . 3. La siguiente tabla proporciona el número de erratas por página cometidas por una secretaria de una cierta empresa: Nº erratas por página Nº páginas 0 832 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 10 10 11 ó más 11 Contrastar a nivel α = 0.05 si el número de erratas por página sigue una distribución de Poisson con parámetro 3. Solución: (χ 2 exp 2 = 3291, 05 ) > ( χ 9; 0,95 = 16,92 ) . Luego se rechaza la hipótesis de que el número de erratas por página sigue una distribución de Poisson con parámetro 3. 4. En la siguientes tabla están los datos de 2764 personas clasificadas según sus ingresos y el tiempo trancurrido desde su última visita al médico: 241 Ingresos/Visitas <7 meses 7 meses-1 año >1 año Total Menos de 90.000 186 38 35 259 90.000-100.000 227 54 45 326 100.000-150.000 219 78 78 375 150.000-200.000 355 112 140 607 Más de 200.000 653 285 259 1197 Total 1640 567 557 2764 Contrastar a un nivel α = 0.05 si los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. Solución: (Estadístico=47'90, Valor crítico=15'5). Se rechaza la hipótesis de que los ingresos y el tiempo transcurrido desde la última consulta médica son independientes. 5. En la siguiente tabla están los datos de 56 personas clasificadas según si fuman por la noche y si tienen o no cancer de pulmon: Si fuman No fuman Total Si tienen cancer 20 16 36 No tienen cancer 6 14 20 Total 26 30 56 Contrastar a un nivel de α = 0.05 si son independientes estos dos atributos. Solución: (Estadístico=3'38, Valor crítico=3'84). Se acepta la hipótesis de independencia. 6. Cierto comercio vende dos marcas distintas de un mismo producto. Durante una semana se observa la marca de cada paquete vendido, y si el comprador es hombre o mujer, y se obtienen los siguientes resultados: A B Hombres 20 15 Mujeres 25 30 Contrastar la hipótesis de que la marca comprada y el sexo del comprador son independientes. Solución: (Estadístico=1'169, Valor crítico=3'84). Se acepta la hipótesis de que la marca comprada y el sexo del comprador son independientes. 7. Se preguntaron a 40 personas de tres barrios diferentes de una ciudad: A, B y C, si había problemas de polución en su ciudad. Los datos obtenidos se resumen en la siguiente tabla: No Si A veces No lo sabe Total 5 31 2 2 40 10 21 4 5 40 11 20 7 2 40 26 72 13 9 120 Contrastar a un nivel α = 0.05 si son los tres barrios homogeneos respecto al conocimiento de los problemas de polución en su ciudad. Barrio A B C Total 242 Solución: (Estadístico=7,74, Valor crítico=9'49). Luego hay diferencias entre los tres barrios respecto al conocimiento de los problemas de polución. 8. Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3, 0, 1, 3, 2, 4, 4, 5, 5, 3, 3, 1, 2, 2, 3, 4, 3, 3, 2, 4, 5, 1, 0, 4, 2, 3, 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? ( α = 5% ) Solución: (χ 2 exp 2 = 1,18 ) < ( χ 2; 0,95 = 5,99 ) . Luego se acepta que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson. 9. La siguiente tabla presenta el nº de reclamaciones recibidas en una oficina de información al consumidor, clasificadas por tipo de producto reclamado (A, B, C) y por la edad del reclamante A B C El contraste a realizar es: H0 : Tipo de producto y edad son independientes (no están asociados). H1 : No son independientes (están asociados). 2 2 Solución: ( χ exp = 1, 27 ) < ( χ 2; 0,95 = 5,99 ) . Luego no hay motivos para rechazar la hipótesis ≤ 30 8 12 22 42 > 30 28 44 53 125 36 56 75 167 de independencia. 10. Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Los resultados aparecen en la siguiente tabla. ¿Hay independencia entre los sueldos y la antigüedad? (α = 0, 05) Sueldo\Antigüedad 0-500 500-1000 1000-2000 2000-3000 >3000 n• j <5 años 17 16 4 9 6 52 5-10 5 8 11 8 3 35 10-20 10 9 5 8 4 36 >20 años 6 7 2 6 6 27 ni• 38 40 22 31 19 150 2 2 Solución: ( χ exp = 13,1) > ( χ 6; 0,95 = 12,59 ) . Luego existen razones para pensar que los sueldos y años de antigüedad NO son independientes. 243 11. A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja, media o alta, obteniéndose: Universidad A Universidad B 140 105 BAJA 135 140 MEDIA 225 255 ALTA Contrastar la hipótesis de que la distribución de calificaciones en las 2 universidades es la misma (con α = 0, 01 ) 2 2 Solución: ( χ exp = 6,95 ) < ( χ 2; 0,99 = 9, 21) . La distribución de las notas es la misma en las dos universidades con un nivel de significación del 1%. Observese que se llegaría a la conclusión opuesta con un nivel de significación del 5%. 12. Se observan durante 100 horas el número de llamadas recibidas durante una hora en una empresa de seguros del hogar. Los resultados se recogen en la siguiente tabla Número de llamadas / hora Número de horas 6 0 13 1 20 2 22 3 16 4 23 5 o más Contraste la hipótesis de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. ( α = 0,1 ) 2 2 Solución: χ k2−1,1−α = χ 4, 0'90 = 7, 78 . Como ( χ exp = 1,91) <7,78 aceptamos la hipótesis nula de que el número de llamadas recibidas en una hora sigue una distribución de Poissson con media 3,4. 13. El colectivo de trabajadores de la banca de un país quiere conocer si existe dependencia entre el nivel de salarios que reciben y la antigüedad en la empresa. Para ello seleccionan una muestra aleatoria de 500 trabajadores, le formulan el correspondiente cuestionario y obtienen la siguiente información: Antigüedad Menos de 5 Entre 5 y 10 Entre 10 y 15 Más de 15 Salarios años años años años 34 14 16 36 Bajos (<1.000€) 82 20 34 64 Medios (1.000€, 1.500€) 84 16 50 50 Altos (>1.500€) Contrastar la independencia de los salarios con la antigüedad al nivel de significación del 10%. 2 Solución: χ (2r −1)( c −1);1−α = χ 2*3 ; 0,90 = 10, 6 . 244 15. 2 Solución: χ1.8833) > ( χ (2r −1)( c −1).Como ( χ 2 = 10. ( χ 2 = 0.1−α = χ 2*2 . resumiéndose la información de la siguiente forma Tipos de embalaje Cartón Madera Plástico 6 8 12 Primavera 65 52 27 Verano 57 63 103 Otoño Contrastar. 49 . 14. 0. si los tres tipos de embalajes se comportan de la misma forma en la conservación de su contenido. La siguiente tabla recoge la edad y el número de ausencias laborales durante un año de los empleados de un ayuntamiento: 245 .95 = 9. En las fichas informativas de cada caja consta el número de kilogramos que llegaron en mal estado a su destino en las distintas épocas del año. madera o plástico. Para decidirse y utilizando información de otras empresas exportadoras.1−α . selecciona aleatoriamente las fichas informativas de 142 cajas de cartón.63 luego aceptamos la hipótesis de que el número Número de accidentes por día 0 1 2 3 ≥4 de accidentes por día sigue una distribución de Poisson. 63 . utilizando un nivel de significación del 1%. al nivel de significación del 5%. se rechazaría la hipótesis nula de un comportamiento homogéneo (igual) de los tres tipos de embalajes en la conservación de cítricos. obteniéndose la siguiente distribución de frecuencias: Número de días 69 42 15 4 0 130 Contraste la hipótesis de que el número de accidentes por día sigue una distribución de Poisson. Como ( χ 2 = 31.99 = 6. 2 Solución: χ (2r −1)( c −1). En una empresa constructora se ha observado el número de accidentes que ocurren durante 130 días.1−α = 10. 6) . pero no sabe si utilizar cajas de cartón. 123 cajas de madera y 128 de plástico.8) > χ (2r −1)( c −1). (Obsérvese que se ha restado un grado de libertad más por el parámetro λ de la distribución de Poisson estimado) 16.72) <6. Una empresa exportadora de naranjas piensa en cambiar su tipo de embalaje para el envío de sus cítricos al exterior.0. se rechazaría la hipótesis nula de independencia entre los salarios y la antigüedad en la empresa. De ellos. 60 Incluso con un nivel de significación del 10% se acepta la hipótesis nula de igual preferencia por cada tipo de vehículo. 18. 006) > ( χ 6. 006 2 χ (2r −1)( c −1).1−0. Solución: χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 13.95 = 12. ¿Concuerdan los datos muestrales con los estadísticos de años anteriores? ( α = 0. sin distinguir entre hombre y mujeres. se rechazaría la hipótesis nula de que el número de ausencias es independiente de la edad con un nivel de significación del 5%. 0'90 = 4.01 = χ 2. Se ha preguntado a 1000 conductores sobre su preferencia en relación a tres tipos de vehículos. se acepta la hipótesis nula de que la edad y el número de ausencias son independientes con un nivel de significación del 1%. 0. 05 ) 246 . obteniéndose Sexo/Vehículo monovolumen deportivo todo terreno hombres 250 275 225 mujeres 80 75 95 c) ¿Es independiente la preferencia de vehículo del hecho de ser hombre o mujer? d) En general.1−α = χ 2. 0. 54 dejaron de estudiar.99 2 2 χ (3−1)(2−1). el 37% pasan a formación profesional y el 1% pasan a enseñanza secundaria. 2 Sin embargo ( χ 2 = 13. b) χ 2 = 1. el 62% de los estudiantes de último curso dejan de estudiar. Se sabe que en un centro de Enseñanza Primaria. 006) < ( χ (2r −1)( c −1).233 2 2 χ (3−1)(2−1). ¿existe un mismo grado de preferencia entre los conductores por cada tipo de vehículo? Solución: a) χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 6. 0. 0. 17. 4 2 χ k2−1.99 = 9.59) .81) .1−0.81 Como ( χ 2 = 13.1−α = χ 2×3 .99 = 16.Ausencias 0-5 5-10 Más de 10 Edad 30 9 20 16-25 31 22 10 25-40 25 20 9 40-55 35 14 15 55-65 Contraste la independencia entre la edad y el número de ausencias con un nivel de significación del 1%.05 = χ 2.1−α = 16. 17 se pasaron a formación profesional y nueve pasaron a enseñanza secundaria. 21 Se rechaza la hipótesis nula de independencia con un nivel de significación del 5% pero se acepta esa misma hipótesis nula con un nivel de significación del 1%. Se toma una muestra de 80 de estos estudiantes que finalizaron el año pasado.95 = 5. 1−α . cuáles cambiaron de auditor al año siguiente. negativa o neutra de un auditor. 2. si el cambio de auditor por las empresas no depende de la opinión que recibieron del auditor. 18 consideran que son pocos útiles y 14 que son nada útiles. Se toma una muestra aleatoria de 100 estudiantes y se les pregunta sobre la utilidad de los cursos. 1. 63 . 0. se rechazaría la hipótesis nula de independencia entre las opiniones de los auditores y la reacción de las empresas.84 .99 = χ1.1−α = χ12×1.0. 05 ) 2 Solución: χ 2 = 1.95 = 3. Contrastar. el 24% son europeos y el 1% de otros paises. El rector de una universidad opina que el 60% de los estudiantes consideran los cursos que realizan como muy útiles.99 = 6.84 . 1. 247 . a nivel del 1%.0. 05 ) 2 Solución: χ 2 = 2.027<3. ( α = 0. históricamente.333<3.95 = 3. Se realizó una investigación para estudiar la reacción de las empresas ante las opiniones de importantes auditores. 19.84 luego se acepta la hipótesis de que los porcentajes de alumnos que lo dejan y siguen estudiando son el 62% y 38% repectivamente. En Estados Unidos se sabe que. 027 χ1. De una muestra de 100 candidatos que se han presentado este año. el 75% de los profesores de la Universidad de Harvard que se presentan a decanos son americanos. La siguiente tabla muestra. hay que compararlo con el valor 2 χ (2r −1)( c −1). Opinión recibida Positiva Negativa Neutra Cambiaron auditor 141 227 23 No cambiaron auditor 991 8051 14 Solución: r c χ =∑∑ 2 i =1 j =1 (n ij − Eij ) Eij 2 = 224.0. Como χ 2 > χ (2r −1)( c −1). para empresas que habían recibido una opinión positiva. 21 eran europeos y nueve de otros paises. 21.2 Solución: χ 2 = 1.84 luego se acepta la hipótesis de que los porcentajes de alumnos que consideran los cursos útiles y poco o nada útiles son el 60% y 40% repectivamente. 20.84 luego se acepta la hipótesis de que los porcentajes de candidatos americanos y no americanos son el 75% y 25% repectivamente. 0.84 .33 χ1. el 36% como poco útiles y el 4% como nada útiles. 70 eran americanos.95 = 3. ¿Los candidatos de este año han seguido el mismo patrón que en años anteriores? ( α = 0. 67 χ1. 68 consideran que los cursos son muy útiles. Contrastar la hipótesis de que los resultados obtenidos se corresponden con la opinión personal del rector.67<3.223415 . 95 = 3.186078677 . 1007. 981.84 . de dos a cuatro y más de cuatro horas. 875. para muestras independientes de hombres y mujeres. 1063. 963. 933. 1048. 1023.1−α . Como χ 2 < χ (2r −1)( c −1). Solución: χ = ∑ ∑ 2 i =1 j =1 r c (n ij − Eij ) Eij 2 = 1. 0. hay que compararlo con el valor 2 χ (2r −1)( c −1).22. 1035. 1018. La siguiente tabla muestra.1−α = χ12×1. La siguiente tabla muestra los resultados. 1015. con edades comprendidas entre los 16 y los 24 años y de origen anglosajón o hispano. 11. A continuación se proporcionan los valores ordenados de una muestra aleatoria del número de respuestas correctas para un determinado test: 852. se acepta la hipótesis nula de independencia entre el consumo de alcohol y el origen de los individuos. 248 . 998. Número de botellas alcohol 0-1 2-4 Mas de 4 Anglosajón 19 45 3 Hispano 25 47 7 Contrastar. Horas de televisión por día Menos de 2 horas De 2 a 4 horas Más de 4 horas Hombre 18 10 2 Mujer 17 13 8 Contrastar a nivel de significación del 5% si el número de horas que ven la televisión se distribuye de igual forma en hombres que en mujeres. 957. Contrastes no Paramétricos 1. 1010. A una muestra aleatoria de individuos del sudoeste de los Estados Unidos.84 . 0. 0.1−α . a nivel del 5% si el alcohol consumido depende del origen de los individuos. se acepta la hipótesis nula de que se distribuye de igual forma en hombres que en mujeres el número de horas que ven la televisión. hay que compararlo con el valor 2 χ (2r −1)( c −1).1−α = χ12×1. Como χ 2 < χ (2r −1)( c −1). se les preguntó cuanto alcohol consumían a lo largo de una semana. cuántos de ellos ven la televisión menos de dos horas.95 = 3. 0. Solución: χ 2 = ∑ ∑ i =1 j =1 r c (n ij − Eij ) Eij 2 = 0.95 = χ1. 23.563581681 . 910.95 = χ1. 1 n = 10 ⇒ Dα = 0.1 Solución: α = 0. Los resultados obtenidos son Grupo 1 50 83 45 63 72 56 65 47 66 35 14 57 90 25 15 74 Grupo 2 95 92 85 86 72 75 93 67 56 85 93 98 85 62 54 56 Comparar. utilizando el test de Kolmogorov-Smirnov.05 ) Solución: ( Dexp = 0.1 8 10. la mejora que se produce en el rendimiento de cada trabajador. 50).( α = 0.84 y desviación típica 3.1594 ) < ( Dα = 0. 3.5 16 12. por una N(985. n=m=16 Dα = 6  8  6 . 4. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa. el resultado se muestra a continuación: Taller 1 78 Taller 2 110 64 75 45 82 70 53 51 249 . lo que se refleja en que F16 ( x) > F16 ( x) . si los dos métodos producen la misma distribución de probabilidades sobre las puntuaciones resultantes. ¿existe razón para creer que ha ocurrido un cambio en la distribución de respuestas correctas? ( α = 0. Dos grupos de empleados de una empresa son sometidos a sendos programas de entrenamiento.369 . se obtuvo en sendas muestras de 5 y 4 meses. siendo evaluada posteriormente. El grupo 2 arroja 1 2 puntuaciones mayores.1207 ) < ( Dα = 0.1 12. 50).1 si los datos siguientes proceden de una distribución Normal con media 10. lo que sugiere un contraste unilateral.369 ) luego no existen motivos para rechazar la hipótesis nula. α = 0. la cantidad de unidades producidas de un artículo concreto. los dos métodos no son iguales.1 4. 05 . ( Dexp = 0. 2.  Dexp =  >  Dα =  ⇒ las dos muestras no provienen de la misma 16  16   16  población. de forma adecuada.En años anteriores el número de respuestas correctas estaba representado.5: 10.05 ) Solución: La función de distribución del primer grupo siempre es mayor que la del 1 2 segundo grupo. o lo que es lo mismo.327 ) luego no existen motivos para rechazar que el número de respuestas correctas está representado por una N(985. Contrastar a un nivel α = 0. F16 ( x) > F16 ( x) . mediante un test que valora en una escala de 0 a 100. Con base en esta muestra y usando el test de KolmogorovSmirnov.5 8 15 12. 5.19) (U = 9) > (Uα = 1) ⇒ los dos talleres producen lo mismo. No incentivos 72 83 74 71 60 60 82 84 61 48 50 70 71 67 78 69 67 56 57 78 79 56 43 45 65 84 99 73 94 85 70 80 93 63 80 84 85 88 78 98 67 87 79 65 76 87 57 76 77 78 Incentivos  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 442 RSI = 833 250 .5 + 7. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 12 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 100. comprobar si la productividad en los dos talleres es la misma.5 + 20.5) < (U α = 42) ⇒ rechazo la hipótesis nula.05 )  H 0 : Fn ( x) = Fm ( x)  Solución:    H1 : Fn ( x) > Fm ( x)  RNO = 1 + 2 + 3.Utilizando el contraste de Mann-Whitney. (α = 0. U α = 1 (tabla 3. Repítase el contraste suponiendo que se dispusiera de información para 25 trabajadores en cada situación y que los datos son los que se recogen en la siguiente tabla. 5.5) = 32.05) . Se desea contrastar si determinados incentivos a la productividad son efectivos.5 = 32. Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 12 trabajadores también seleccionados al azar.5 + 10 + 10 + 12 + 17.5 = 111. por tanto. 9 ) = 9 n = 4.5 = 110.5 2 U 0 = min (111.5 + 3.5 + 17.5 + 5.( α = 0. los incentivos tienen efectos positivos sobre la producción. Solución: RT 2 (taller 2) = 2 + 3 + 5 + 9 = 19 ⇒ U T 2 = ( 4 × 5 ) + 4×5 − 19 = 11 ⇒ U T 1 = ( 4 × 5 ) − U T 2 = 9 2 U = min (11.5 U NO = (12 × 12 ) + 12 ×13 − 110. El resultado de ambas fue No incentivos 67 78 69 67 56 57 78 79 56 43 45 65 Incentivos 78 98 67 87 79 65 76 87 57 76 77 78 Realizar el contraste utilizando la prueba de Mann-Whitney.5 U α = 42 . (U 0 = 32. m = 5. 32.5 ⇒ U SI = 144 − 111. 13.25.5<10 se acepta que el tiempo empleado en concluir la tarea es menor despues del curso.5<8 se rechaza la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es es Dα =0.54    ( p = 0. 05) ⇒ rechazo la hipótesis nula. 5%) valor crítico: 10. antes y después del curso. 14.  12   117 − 312. 14. controlando el tiempo medio empleado en concluir determinada tarea. los incentivos tienen efectos positivos sobre la producción. 12. 79] = 0.5 R− = 7. Para contrastar si un determinado curso de perfeccionamiento es efectivo. 18. 8] (vease tabla 4. Con nivel de significación 5% contraste la hipótesis de que los siguientes valores muestrales 251 . 409 ) luego no existen motivos para rechazar la hipótesis nula. se somete a una muestra de 11 trabajadores a dicho entrenamiento. 00007 ) ≤ (α = 0. 6. se acepta la hipótesis nula de que el tiempo en concluir la tarea antes y después del curso es el mismo.05) Solución: Test de Wilcoxon de los signos-rangos: R+ = 47. por tanto. proceden de una distribución normal de media 14 y varianza 2.U NO = ( 25 × 25 ) + 25 × 26 − 442 = 508 ⇒ U SI = ( 25 × 25 ) − 508 = 117 2 U 0 = min (508. Test de los signos: El número de diferencias negativas y positivas (3 y 7 respectivamente) cae dentro de la región de aceptación [ 2.5   p = P [U ≤ 117 / H 0 ] = P  Z ≤ = P [ Z ≤ −3.2 (unilateral. 7. 15. Según tabla 4.117) = 117  25 × 25 25 × 25 × 51  U →N  = N ( 312. 51. 8. ( Dexp = 0. bilateral 5%).5 . el mismo. 5%) valor crítico 8.54 )  2 . 7.409.5 R = 7. 00007 51. Solución: Para n=10 y α = 0. contraste la hipótesis de que los siguientes valores muestrales 12. (bilateral. Los resultados son los siguientes Antes 12 15 9 16 13 17 12 14 8 10 11 7 Después 8 15 10 10 11 15 13 12 9 9 ¿Ha influido el curso en el tiempo empleado en concluir la tarea? (α = 0. Con un nivel de significación del 5%.4. 17. 14.5. 15. 05 el valor crítico Dα para el test de bondad de ajuste de K-S 7.1088 ) < ( Dα = 0. 13) >7.ni 2 0. acepto la 10 2 2 4 4 2 5 3 3 5 5 6 4 7 7 hipótesis nula de que las dos muestras se han obtenido de la misma población. 0'95 = 7.1−α = χ 3. 05 . Como ( χ 2 = 30.45 3 0.294. Dα = = 0. n=m=10. 2 α = 0.85 2 0. contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población. Con nivel de significación de 5%. la hipótesis de que la duración de las llamadas recibidas sigue una distribución Normal con media 30 minutos y desviación típica 10 minutos. Utilice los contrastes de bondad de ajuste χ 2 y de Kolmogorov-Smirnov.8 4 0. 252 .75 1 0. usando el test de Kolmogorov-Smirnov. con un nivel de significación del 5%. ( Dexp = 0.81 rechazamos la hipótesis nula de que la duración de las llamadas sigue una distribución Normal con media 30 y desviación típica 10. 294 ) luego acepto la hipótesis nula. La duración en minutos de las 100 llamadas telefónicas recibidas durante un día en una empresa de seguros de automóviles se recoge en la siguiente tabla Duración en minutos menos de 10 10-20 20-30 30-40 40-50 50-60 Número de llamadas 15 17 26 18 13 11 Contraste. 2 Solución: χ k2−1.6 2 0.88 5 1 n = 20 proceden de la distribución de probabilidad dada por 0  F0 =  x 2  1   0 ≤ x ≤ 1  x ≥1  x≤0 X Solución: Para n=20 y α = 0. 05 Dα =0. 10. 6 . Dexp < Dα .55 1 0.81 . 9. Muestra 1 Muestra 2 Solución: Dexp 8 9 3 6 5 3 6 = 2 /10 = 0.19 ) < ( Dα = 0. Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0.6º 16.05)bilateral = 0. 253 . 12.05) bilateral = 0.1358 .1493 DT (0.8º 23. para un contraste bilateral. 2413 DT (0.1 ). obteniéndose las siguientes cantidades: 150 140 150 130 160 160 150 140 170 140 130 160 150 140 170 Contraste la hipótesis de que el número de litros vendidos se distribuye según una ley normal de media 150 litros y desviación típica 10 litros.1613 .9º 23. Utilice el contraste de bondad de ajuste de Kolmogorov-Smirnov.4º 20. ( α = 0. Se ha observado la temperatura durante los dias de una semana en la recepción de un hotel. Se observa durante 15 días los litros de cerveza de una determinada marca que se han vendido en un supermercado.Dexp = max F0 ( x ) − Fn ( x ) = 0. Al igual que con el anterior procedimiento de contraste se rechaza 100 H 0 dado que Dexp > DT 11. Solución: Dexp = 0.304 Se acepta H 0 dado que Dexp < DT 13.3º 24.0º Contraste con un nivel de significación del 5% la hipótesis de que la muestra procede de una población normal con media 20º y desviación típica 2º.000 €? ( α = 0. Las inversiones realizadas (en miles de €) por un grupo de 6 empresas en el mes pasado se recogen en la siguiente tabla: Empresa E1 E2 E3 E4 E5 E6 Inversión 318 322 345 300 338 311 ¿Puede considerarse que siguen una distribución normal de media 320.3º 17. 2451 n = 7 DT (0. Dexp < DT por tanto se acepta la hipótesis de que las inversiones de las empresas siguen una ley normal con la media y desviación típica indicadas.519 . 483 Dexp < DT . 05 ) Solución: Dexp = max F0 ( x ) − Fn ( x ) = 0. Buscando en las tablas.10)bilateral = 0. obteniéndose 23. DT = 1.3581 = 0.000 € y desviación típica 10. por tanto se acepta la hipótesis nula de que la muestra procede de una población normal. Los resultados aparecen en la siguiente tabla. pues hay una pareja donde la diferencia es cero.39 0. Supóngase que analizamos 15 pares de valores mediante el test de los signos. un test al nivel del 5% unilateral. ru = 15 y como para ( R = 15) ≤ (ru = 15) se rechaza la hipótesis nula a favor de que las muestras proceden de poblaciones distintas. 18. Supóngase dos muestras aleatorias independientes de tamaños n1 = 20. caso bilateral. 21. Se realiza una encuesta entre 15 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. 21. Para la comparación. Contraste la hipótesis nula de igualdad de las poblaciones de procedencia.02 0.47 1.40.10 ) Solución: R = 4 es compatible al 10% con la hipótesis de aleatoriedad pues ( ru = 3) < ( R = 4 ) < ( ro = 9 ) 15.46 0. al nivel del 5%.70 0. 18.94 0.85 0.47 B (mg/muestra) 0. Un bioquímico quiere comparar dos métodos de determinación de la concentración de testosterona en la orina. 17. 05 ) Solución: Únicamente un reducido número de rachas nos induciría a rechazar la hipótesis nula de igualdad de poblaciones. Se desea verificar la aleatoriedad de la siguiente serie de valores 18.41 1. Obtenemos 2 diferencias nulas y 13 no nulas. Buscando en la tabla 4. (utilícese el test de Wilcoxon de los signos-rangos) Muestra nº 1 2 3 4 5 6 7 8 9 A (mg/muestra) 0.36 0. 254 .51 Solución: n=8. Los valores encontrados en nuestro caso caen fuera de los límites por lo que se rechaza la hipótesis nula y se acepta que ambas muestras proceden de poblaciones distintas. con ayuda de los extremos críticos inferiores del 5% de la tabla 4. Pasados tres meses se repite la encuesta entre las mismas familias. No se sabe si la distribución de los valores es normal.87 0.33 0. 19. bilateral y al nivel del 5%. 16. Es decir.2 se tiene que R = 13. n2 = 20 que han proporcionado el siguiente número de rachas R = 15 . ( α = 0.14. de ellas 11 positivas y 2 negativas. 22 ( α = 0. dispone de 9 muestras de orina. 19. 20.52 0.84 0. Sean A y B dichos métodos. 17. 19.5 > 3 . 18.4 obtenemos para n=13 los extremos 3 y 10. por tanto no puede rechazarse la hipótesis nula. Los valores vienen dados en miligramos contenidos en la orina de 24 horas. ¿Proceden las dos muestras ligadas de la misma población? Solución: De la tabla 4.00 0.52 0.61 0. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice los tests de los signos y de Wilcoxon). el extremo izquierdo para el test bilateral con α = 5% es 63. se realiza una encuesta a 200 personas a las que se les solicita su opinión sobre un determinado producto financiero. En este ejemplo parece más adecuado el test unilateral dado que claramente predomina el cambio de signo en la opinión en un sentido frente al opuesto. 645 (unilateral 5%.33 con -1.96 (unilateral 2.5>13 se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. Los resultados se recogen en la siguiente tabla DESPUES DE LA CAMPAÑA BUENA NO BUENA ANTES DE LA BUENA 30 24 CAMPAÑA NO BUENA 126 20 Utilice el test de los signos para contrastar la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. Al cabo de tres meses se repite la 255 .4.5 R = 23. Después de realizada la campaña. Según la tabla 4. Se encuestan 40 establecimientos para conocer los beneficios diarios. 9] (vease tabla 4.5 ⇒ σ = 6.96 que 24 con 63). Solución: µ = np = 24 − µ n 150 = = 75 2 2 σ 2 = npq = n 150 = = 37. 23. como 24<63 se llega a la misma conclusión que antes (donde 63 ≅ µ − 1.2 (bilateral.5 para n=150=126+24. 19. Según tabla 4. que se obtienen con la venta de un determinado producto.124 4 4 σ 24 − µ = −8.5 R− = 54. bilateral 5%) al mismo resultado se llega con estos otros niveles de significación. Test de los signos: El número de diferencias negativas y positivas (9 y 3 respectivamente) cae dentro de la región de aceptación [3. en euros. bilateral 10%) se rechaza la hipótesis nula de que no ha cambiado la opinión que los encuestados tienen sobre el producto. 5%) valor crítico: 13. bilateral 5%). se realiza la misma pregunta a las mismas 200 personas.33 < −1. es lo mismo comparar -8.96σ = 62. σ = −8. 20.5 .5%. Antes de realizar una campaña de publicidad.99 .33 < −1.Familia nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Muestra A 30 24 0 50 37 25 29 38 56 56 42 26 17 0 78 Muestra B 32 20 12 65 0 28 29 45 43 62 76 26 37 0 82 Solución: Test de Wilcoxon de los signos-rangos: R+ = 23. se acepta la hipótesis nula de que la cantidad mensual dedicada al “pago por visión” no ha cambiado. 13. 12. Los resultados se recogen en la siguiente tabla. sigue siendo la misma”. Test de los signos: El número de diferencias negativas y positivas (16 y 14 respectivamente) cae dentro de la región de aceptación [10. 14. al cabo de tres meses. 210. 15. Nº de encuesta 1ª muestra 2ª muestra Nº de encuesta 1 16 17 21 2 20 24 22 3 8 12 23 4 9 6 24 5 27 24 25 6 12 15 26 7 35 28 27 8 25 25 28 9 15 17 29 10 30 21 30 11 16 30 31 12 32 31 32 13 21 21 33 14 23 26 34 15 19 21 35 16 32 32 36 17 27 32 37 18 16 14 38 19 21 21 39 20 34 30 40 Solución: Test de Wilcoxon de los signos-rangos: 1ª muestra 24 16 17 27 17 41 35 45 12 23 15 34 21 19 0 24 33 12 19 21 2ª muestra 25 19 15 24 17 32 32 41 0 23 19 30 21 19 14 29 47 20 19 21 R+ = 210. 23. Contraste la hipótesis “la distribución de los beneficios. 13. 21. al cabo de tres meses. sigue siendo la misma. sigue siendo la misma. 17. 05) MUESTRA A MUESTRA B 10. 13. 5%) valor crítico: 137. Según tabla 4. 9. 15.5 R− = 254. 14 Solución: Test de Kolmogorov-Smirnov: Dexp = 0.encuesta. 15. 256 . 14. 21. 15. al cabo de tres meses.05)bilateral = 22 + 14 1. 17. 13. 286 n1 y n2 grandes DT (0.4. 15. 14. 10. 17 12.3581 = 0. 12. 12. Mann-Whitney y de las rachas que las siguientes muestras proceden de la misma población (α = 0. Se desea contrastar mediante los contrastes de Kolmogorov-Smirnov. 11.2 (bilateral. 10. 17. 15. se acepta la hipótesis nula de que la distribución de los beneficios. 14. bilateral 5%). 12. 16. 20] (vease tabla 4. 20. por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. 464 22 ×14 Dexp < DT .5 R = 210. 14.5 .5>137 se acepta la hipótesis nula de que la distribución de los beneficios. 14. 8. n = 14 ) U 0 > Uα por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. Se desea contrastar si determinados incentivos a la productividad son efectivos. z= 15 − µ σ = −1.103) > (− z0. 645) ⇒ por tanto se rechaza la hipótesis nula de que las dos muestras proceden de una misma población.05)bilateral = 4 = 0. 25 4 DT (0.1 n1 + n2 14 + 22 2 µ= σ2 = z= 2n1n2 (2n1n2 − n1 − n2 ) 2 ( n1 + n2 ) ( n1 + n2 − 1) σ = −1.19. Test de las rachas: Según se ordenen los empates se obtienen 13 o 15 rachas.81 13 − µ ( z = −1. (α = 0. se obtuvo en sendas muestras de 4 y 5 meses. 05.815 = 2 ×14 × 22 ( 2 × 14 × 22 − 14 − 22 ) (14 + 22 ) (14 + 22 − 1) = 7.876543 ⇒ σ = 2. la cantidad de unidades producidas de un artículo concreto. Para comparar la productividad de dos talleres de artesanía pertenecientes a una misma empresa. 22.103 ( z = −1. Utilizamos la aproximación normal con 2n1n2 2 × 14 × 22 +1 = + 1 = 18.815) ≤ (− z0. α = 0.05) .8 5 Se acepta que la productividad de los dos talleres de artesanía es la misma dado que Dexp < DT 23.Test de Mann-Whitney: RA = 453 RB = 213 U 0 = 108 U α = 93 ( tabla 3. 645) ⇒ por tanto se acepta la hipótesis nula de que las dos muestras proceden de una misma población. el resultado se muestra a continuación: Taller 1 70 60 70 40 Taller 2 110 70 50 50 70 Utilizando el contraste de Kolmogorov-Smirnov comprobar si la productividad en los dos talleres es la misma. Para ello un equipo de expertos somete a observación el comportamiento en el trabajo de 5 trabajadores seleccionados al azar asignando a cada uno de ellos una puntuación entre 0 y 257 .05 = −1. m = 22.05 = −1. Solución: Dexp = max F41 ( x) − F52 ( x) = 1 = 0. 0.100. El resultado de ambas fue No incentivos 70 80 70 70 60 Incentivos 80 100 70 90 80 Realice un contraste de Kolmogorov-Smirnov. 6 5 DT (0. 7143 7 Solución: Dexp = max F71 ( x) − F72 ( x) = 3 =0.05 ) Solución: Dexp = max F51 ( x) − F52 ( x) = 3 = 0.05)bilateral Se acepta la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado dado que Dexp < DT bilateral . 24. 6 5 Se acepta que los incentivos a la productividad no son efectivos dado que si Dexp ≤ DT unilateral no se rechaza la hipótesis nula de que las dos poblaciones (con incentivos y sin incentivos) tienen el mismo comportamiento. Pasados tres meses se encuestan otras 7 familias. Los resultados aparecen en la siguiente tabla. Primera encuesta Tres meses después 30 20 20 20 0 10 50 60 40 0 30 30 30 20 5 = = 0.05)unilateral = 3 = 0. Contraste la hipótesis de que la cantidad mensual dedicada al “pago por visión” no ha cambiado significativamente (utilice el contraste de Kolmogorov-Smirnov.4286 7 DT (0. α = 0. ( α = 0. 258 . 05 ). Tras aplicar los incentivos se realiza de nuevo la observación sobre otros 5 trabajadores también seleccionados al azar. Se realiza una encuesta entre 7 familias de un barrio para conocer la cantidad mensual (en euros) dedicada a las cuotas de utilización de determinados programas de televisión “pago por visión”. PRE-PRÁCTICAS 259 . sea capaz de modificarlas y adaptarlas a nuevas situaciones. están protegidas. Todas las celdas. Sería deseable que el alumno construyera hojas de cálculo como las del fichero PRÁCTICAS partiendo de hojas en blanco. colores. Una vez resuelta cada PRE-PRÁCTICA su contenido debe coincidir con la hoja correspondiente del fichero PRÁCTICAS. Al faltar el valor de determinadas celdas. sencillamente se recuerda y aconseja sobre la forma de utilizarlo.. Se pretende así que el alumno conozca mejor cómo se han construido estas hojas para que haga un uso correcto de ellas y.INTRODUCCIÓN. si fuera el caso. se han confeccionado unas PRE-PRÁCTICAS donde la base de la plantilla como líneas. etiquetas.. permanece en las hojas y falta por completar aquellas expresiones que hemos considerado más interesantes. Dado el escaso número de horas de prácticas y para que dicho tiempo se dedique a los aspectos más relacionados con la asignatura. otras que dependen de las anteriores aparecerán con mensajes de error de cálculo.. 260 . Los comentarios que siguen no pretenden ser un manual sobre el uso de Excel que se supone conocido por el alumno. Esos errores de cálculo se irán resolviendo a medida que se vayan completando las primeras. salvo las que el alumno debe completar. Para completar las expresiones de las celdas C12. =CONTAR(C21:C100)).PRE-PRÁCTICA 1 Muestreo aleatorio simple en poblaciones infinitas En esta pre-práctica completaremos todas las expresiones (celdas amarillas) del caso numérico y aquellas del caso no numérico que son diferentes de las anteriores. como las anteriores.. usaremos la función PROMEDIO. C13. Para contar el número de datos de la muestra usaremos la función CONTAR y para hallar la cuasivarianza utilizaremos VAR. D11.e. Recordemos que debemos empezar siempre con el signo =. que las operaciones aritméticas habituales están representadas por los conocidos símbolos del teclado 261 (p. C14. C18. Todas las funciones de Excel van precedidas por el signo =. C15. en lugar de escribir la expresión de la suma de las celdas donde están los datos y dividir por el número datos. Si el rango de celdas ocupa más de una columna. indicaremos la primera y última celda separadas por dos puntos primera celda de la primera columna y la última celda de la última columna. D12 Y D18 nos basaremos en las expresiones estudiadas para este tipo de muestreo que aparecen en los apuntes y en el formulario. se refiere a los datos contenidos en un rango de celdas (conjunto continuo de celdas). Las expresiones o funciones más habituales están en Excel y nos podemos referir a ellas simplemente indicando su nombre. Cuando una función. Así para calcular la media aritmética. se indicará la . e. Para la raíz cuadrada utilizaremos la función RAIZ (p. / . para elevar B3 al cuadrado: =B3^2). PRE-PRÁCTICA 2 Muestreo aleatorio simple en poblaciones finitas El muestreo aleatorio simple en poblaciones finitas es análogo en sus expresiones al caso infinito tratado anteriormente salvo por dos hechos: el coeficiente corrector para poblaciones finitas que aparece en la expresión de la varianza del estimador de la media  S 2  N .e.n  V ( y) =   y la novedad de que no sólo se puede estimar la media sino también el  n  N    total. * . − .+ . =RAIZ(D11)) y para las potencias el símbolo del acento circunflejo francés ^ (p. Utilizando las relaciones de la estimación del total y su varianza con los correspondientes valores para la media τ = N y . V (τ ) = N 2 V ( y ) completaremos las celdas D10 y D12. ( ) 262 .. n  V ( y) =  . Si se observa se verá que dichas expresiones hacen referencia a los datos de la columna C (estrato y muestra 1). éstas se han simplificado previamente y lo que aparece no es la trascripción fiel de cómo están en los apuntes de clase y en el formulario. caso numérico.n   . D18. observemos que en la pre-práctica aparece en la parte superior (donde calculamos los estimadores y sus errores) sólo las expresiones para el primer estrato (según el muestreo aleatorio simple). PRE-PRÁCTICA 3 Muestreo aleatorio estratificado Trabajaremos sobre el modelo de tres estratos. n −1 N  S2  N . Análogas 263 . La cota del error de estimación y los extremos de los intervalos de confianza tienen en este tipo de muestreo y en los que siguen la misma expresión que se ha visto para el muestreo aleatorio simple en poblaciones infinitas por lo que no volveremos a recalcularlos en cada una de las pre-prácticas. En primer lugar y para ilustrar lo último dicho. También serán útiles las funciones copiar y pegar para no tener que repetir una por una todas las expresiones en cada uno de los estratos. Los modelos de dos y cuatro estratos así como el caso no numérico se han construido de forma análoga. n  N  En las celdas C18. n= Nσ 2 ( N − 1) D + σ 2 D= D= B2 4 B2 4 (media) ( proporción) D= D= B2 4N 2 B2 4N 2 (total ) (total ) n= Npq ( N − 1) D + pq Para facilitar la escritura en Excel de algunas expresiones del fichero PRÁCTICAS.La varianza para el estimador de la media (y proporción) en C12 (y E12) es análoga a la del caso infinito salvo el coeficiente corrector para poblaciones finitas: V ( p) = pq  N . Este tipo de muestreo se basa en repetir para cada uno de los estratos un muestreo aleatorio simple por lo que serán válidas las expresiones construidas para este tipo de muestreo en la pre-práctica anterior. Debe decirse en este punto que debemos usar los paréntesis necesarios para que el orden de las operaciones sea el correcto. E18 y F18 calculamos el tamaño de la muestra n según las expresiones que aparecen en el formulario. Repetiremos lo mismo para el estrato 3. como puede comprobarse. referidas a la columna E en lugar de C. Cuando usemos la función SUMA con celdas o expresiones que no ocupan posiciones contiguas sustituiremos los dos puntos por punto y coma (por ejemplo. Esto último es lo que se ha hecho en las expresiones de I10 y I12 que se podrían igualmente haber escrito usando el símbolo + sencillamente. seleccionaremos copiar. Para eso se puede usar el símbolo + o la función SUMA ( =C8+E8+G8 o =SUMA(C8:G8)).B15. marcaremos el rango E9:F15 (o sólo la primera de las celdas. Con las acciones anteriores tenemos completado lo que se refiere a las estimaciones a nivel de cada estrato pero no de la población global (columnas I y J).F3)). dependiendo del número de estratos. E9) y con la opción pegar se copiarán las expresiones del estrato 1 en el estrato 2 pero. 264 . Para calcular en I8 el tamaño total de la población (igual en I9 para el tamaño total de la muestra) debemos sumar los correspondientes tamaños en cada estrato. Dadas las conocidas relaciones entre la media y el total (trabajado en la pre-práctica anterior) nos vamos a centrar en la media y concretamente en las expresiones que son diferentes de todo lo que hasta aquí se ha visto. Marcaremos el rango de celdas que va de C9 a D15. usaremos las acciones copiar y pegar. =A5+B15+F3 es igual a =SUMA(A5.expresiones pero referidas a la columna E necesitamos para el estrato 2 y referidas a la columna G para el estrato 3. Para evitar la tediosa tarea de rescribir cada una de esas expresiones dos o más veces. pero referidas a los datos de cada uno. TAMAÑO MUESTRAL MEDIA y TOTAL (error fijo B ) n = ∑N σ i =1 i L i ci L ∑ i =1 i =1 L Ni σ i ci N 2 D + ∑ N iσ i2 C∑ i =1 L i L ASIGNACIÓN ÓPTIMA (coste fijo C ) n = N iσ i ci i ∑Nσ i =1 ci N jσ j ωj = cj ∑ i =1 L L N iσ i ci 2 i i n= ASIGNACIÓN DE NEYMAN (∑ N σ ) i =1 L i =1 N 2 D + ∑ N iσ i2 N jσ j ωj = ∑Nσ i =1 i L i L i n= ASIGNACIÓN PROPORCIONAL ∑N σ i =1 2 i ND + 1 L ∑ Niσ i2 N i =1 N ωj = j N 265 . seleccionaremos copiar y pegaremos en las celdas E16. nos centraremos en el caso de la media. C17. E18 y E19 para el segundo estrato y en G16. G18 y G19 para el tercero.Para facilitar la construcción de las expresiones correspondientes a las distintas asignaciones se calculan previamente en la franja intermedia de color blanco los elementos que aparecen en esas sumatorias. escribiremos primero las correspondientes al estrato 1 (C16. C18 y C19) y posteriormente como se hizo antes. G17. Como las expresiones son las mismas para cada estrato. E17. las marcaremos. Dada la analogía de las expresiones para las distintas asignaciones en el caso de la media y total (como puede consultarse en el formulario y en el fichero PRACTICAS en Excel). Los coeficientes de asignación son similares para cada estrato por lo que los escribiremos para el estrato 1 en la columna C y lo copiaremos en los otros estratos. I24 Y I25. Para que esto no sea así (cuando nos convenga. confeccionaremos las celdas I22. G23. en ambos casos usamos la asignación óptima). I23.D B2 D= (media ) 4 B2 D= (total ) 4N 2 De acuerdo a las expresiones de n para cada tipo de asignación. 266 . cuando copiamos la expresión de una celda en otra. Según las anteriores aclaraciones escribiremos ni = nωi en las celdas C22. E y G. E23. Una novedad en relación a las copias que se han hecho antes es que aparece el símbolo $ precediendo bien la letra o el número que definen la posición de una celda. a continuación calcularemos los tamaños de las muestras de cada estrato según la expresión ni = nωi en las correspondientes celdas de las columnas C. Nota: se recuerda que el hecho de que aparezca el símbolo $ en la referencia a una celda no cambia en absoluto su valor. como el caso que nos ocupa de las asignaciones) con el símbolo $ fijaremos las posiciones de las celdas que no queramos que cambien en la copia. C24 y C25 (observe que el valor de ωi es el mismo en C22 y C25. E24 y E25 para el estrato 2 y en G22. y posteriormente lo copiaremos en E22. Como es conocido. C23. En la siguiente pantalla se pueden observar algunos de los anteriores comentarios. todas las letras y números relativos a la posición de las celdas referenciadas en la expresión cambian avanzando o retrocediendo tantas filas y/o columnas como separan la celda de partida de la celda donde copiamos. Este símbolo tiene la propiedad de fijar el valor de la columna (letra) o fila (número) a la hora de hacer copias. N jσ j n1 = nω1 = n cj ∑ i =1 L N iσ i ci $I22=n Los paréntesis que C19= aparecen en N1σ 1 c1 la expresión $C19+$E19+$G19= ∑ i =1 3 N iσ i ci y en otras de la celda C22 (=$I22*(C19/($C19+$E19+$G19))) garantizan que las operaciones se llevan a cabo en el orden adecuado. G24 y G25 para el estrato 3. 267 . regresión y diferencia En esta pre-práctica estimaremos la razón R y la media utilizando estimadores de razón . regresión y diferencia (no nos ocuparemos de las expresiones para el total que son inmediatas a partir de la media).PRE-PRÁCTICA 4 Estimadores de razón. H12 y H13. no confunda ∑ d y  ∑ di  . H ( di = yi − xi ) e I ( di2 ) cuando se opera sobre valores inexistentes de las columnas C y D. Sólo un detalle digno de mención: debido a los ceros que aparecen en las columnas E ( rxi ).XY. La complicada expresión de la “varianza residual” para los estimadores de regresión (F17) se ve facilitada porque su raíz cuadrada (“desviación típica residual”) es la función de Excel =ERROR. C13. H17 ⇒ =(SUMA(I22:I100)-(C11*((SUMA(H22:H100)/C11)^2)))/(C11-1) n 2  n  Nota: Mucho cuidado. En las PRÁCTICAS hemos utilizado la última. se tiene que utilizar en H12 la expresión =SUMA(H22:H100)/C11 en lugar de =PROMEDIO(H22:H100) (el uso de la función PROMEDIO incluiría a todos los ceros como datos. al hallar las “varianzas residuales” C17 y H17 se han usado las expresiones: S r2 = 1 n 2 ∑ ( yi − rxi ) n − 1 i =1 C17 ⇒ =SUMA(F22:F100)/(C11-1)       2 2 SD = 1 n ∑ yi − ( xi + d ) n − 1 i =1 ( ) 2 = 1 n ∑ di − d n − 1 i =1 ( ) 2  n 2 n  ∑ di  n  2 ∑ di − n  i=1n  ∑ di  n  ∑ di2 −  i=1 n  i=1   = i =1 = n −1 n −1 di = yi − xi En la anterior línea aparecen distintas formas de escribir la cuasivarianza de las diferencias. F12. Por esta misma razón. A pesar de esta posible solución se ha dejado así esta hoja de prácticas para que seamos conscientes del peligro de esos “falsos” ceros que aparecen cuando se opera de esta forma. F. i =1  i =1  2 i Ese problema de ceros inexistentes no hubiese aparecido si en los mencionados cálculos de las columnas E. D13. acción si falsa). como veremos en la práctica 6. Nota: Cuidado al escribir los argumentos de esta función. F13.Los valores de los estimadores así como de sus varianzas se expresan fácilmente en las celdas C12. En primer lugar se colocan las celdas con los valores de la variable Y (D22:D100) y a continuación después del punto y 268 . acción si cierta. H e I se hubiese utilizado la función =SI(condición. obteniendo un valor falso para dicha media).TIPICO. D12. F ( ( yi − rxi ) 2 ). H e I de igual forma. 2 B2 µx . 4 La expresión C19 es algo distinta y no se puede copiar directamente de las anteriores expresiones. Dado que usamos el valor r de la celda C12 en todas las expresiones de E22 a E100 habrá que fijar con el símbolo $ dicha celda (no es necesario fijar C anteponiéndole el $. G19 y H19. aunque aparece así en la práctica.XY(D22:D100.C22:C100). H22=D22-C22. Si observamos el formulario. (E22=$C$12*C22. escribiremos las expresiones en las celdas E22. es exactamente igual a D19 salvo el valor D = Para completar las columnas E. según nuestros apuntes. a partir de la covarianza y varianza. F. Hacerlo al revés supondría calcular la desviación típica residual para la recta de regresión de X/Y ( x = a + by ) que no es la recta utilizada en el modelo de los estimadores de regresión. 4N 2 4N =($C8*C17)/(C17+((E18^2)/(4*$C8))). I19. H22 e I22. F22. En G22 la calcularemos. Nσ r2 n= ND + σ r2 2 Nσ L n= 2 ND + σ L 2 Nσ D n= 2 ND + σ D Basándonos en el anterior comentario y utilizando para copiar el símbolo $ donde sea necesario. F22=(D22-E22)^2. A la hora de determinar el tamaño muestral para estimar el total se ha tenido en cuenta la siguiente simplificación en las anteriores expresiones: ND = N por ejemplo E19 ⇒ B2 B2 = . Con esta coincidencia se quiere mostrar que en este caso. son similares salvo que cada tipo de estimador considera su “varianza residual”. H e I.coma los valores de la variable X: =ERROR.TIPICO. bastará con crear las expresiones D19 y E19 y copiarlas en F19. 269 . puede haber distintas alternativas para calcular un mismo valor. como en otros. basta con escribir C$12 puesto que al copiar no nos movemos de columna. En G23 aparece según la función de Excel que nos da dicho valor. sólo nos movemos de fila). los tamaños muestrales (tanto para la media como para el total) para conseguir un determinado error de estimación máximo. En G22 y G23 se recogen dos formas alternativas de calcular la pendiente de la recta de regresión. I22=H22^2) posteriormente copiaremos desde E22 hasta E100 (colocando el ratón en la esquina inferiorderecha de E22 y arrastrando hasta E100) y repetiremos para las columnas F. La función VARP es la varianza de los datos de la muestra mientras que la función VAR es la cuasivarianza de la muestra. Las celdas en las que se encuentran los valores de Y y de X deben aparecer en la función PENDIENTE en dicho orden pues si se altera estaríamos calculando la pendiente de la recta de regresión de X/Y. PRE-PRÁCTICA 5 Muestreo sistemático Los cálculos para este tipo de muestreo se basan en el muestreo aleatorio simple para poblaciones finitas que ya se ha estudiado.C22:C100) vale aquí.C22:C100) La misma advertencia que se hizo con la función =ERROR. 270 .G22 ⇒ G23 ⇒ Notas: =COVAR(C22:C100. La única novedad que presenta respecto a éste es el cálculo de k. En algunas funciones bidimensionales como es el caso de la covarianza (COVAR) el orden en que aparezcan las celdas con los valores de X e Y es indiferente.TIPICO.D22:D100)/VARP(C22:C100) =PENDIENTE(D22:D100. el cual se ilustra en la PRACTICA 5 RESUELTA. Se sugiere escribir estas funciones cambiando el orden de las celdas que aparecen como argumentos para comprobarlo.XY(D22:D100. (C9-C10)*C17/(C10*C9*((C8/C9)^2))) C8 (aparece C9 271 .PRE-PRÁCTICA 6 Muestreo por conglomerados En esta pre-práctica haremos uso de la función “=SI” a la que hacíamos referencia más arriba en la pre-práctica 4. C19. Recordemos su formato. En nuestro caso concreto la condición va a ser el conocimiento o no del tamaño de la población M o lo que es equivalente el conocimiento o no del tamaño medio de los conglomerados de toda la población M = M . C13 ⇒ =SI(C8="".(C9-C10)*C17/(C10*C9*(C11^2)). =SI(condición. en cambio si la celda C8 no está vacía se utilizará dicha información y se procederá de otra forma (acción si falsa). D12 y D13 se construyen utilizando la anterior función “=SI” que nos permite realizar dos cálculos (o acciones) distintos dependiendo de una condición. En C13 y C19 las dos formas de proceder consisten en usar m = C11 o M = subrayado). acción si falsa) De las celdas cuya expresión vamos a completar en esta pre-práctica C13. acción si cierta. Si el contenido de la celda C8 es vacío (C8=“”) se entenderá que no se N conoce M y se procederá de una manera (acción si cierta). (D23-E23)^2) y copiaríamos su 272 ."".C$12*C23) y copiaríamos su contenido hasta la celda E100. En la celda F23 escribiríamos =SI(D23=“”. E12.En D12 y D13 (también en D14.“”. E17 y E19) se resuelven fácilmente a partir de las correspondientes expresiones del formulario. En la celda E23 escribiríamos =SI(C23=“”. D15 y D16) dejaremos la celda en blanco (“”) si no tenemos la información de C8 o bien utilizaremos las expresiones correspondientes cuando tengamos esa información. La función =SI se podría haber utilizado en el cálculo de las celdas E23 a E100 y F23 a F100 para evitar la aparición de ceros “falsos” como se anunció en la pre-práctica 4.C12*C8) El resto de celdas de esta pre-práctica (C12. D19. C17. E13.“”. D12 ⇒ =SI(C8="". las celdas C17. E24. D18. E17. E18. D17. a partir del formulario. La cota del error de estimación y los intervalos de confianza se completan a partir de las anteriores celdas igual que en el resto de tipos de muestreo. Como puede comprobarse. F23 y F24. 273 . F17. PRE-PRÁCTICA 7 Estimación del tamaño de la población Utilizando las operaciones algebraicas básicas. potencias y logaritmos neperianos (=LN) se completan sin ningún tipo de nueva dificultad. E23. de esta manera no aparecen ceros “falsos” y los problemas que comentábamos en la pre-práctica 4. F18. C18.contenido hasta la celda F100. 274 . PRÁCTICAS 275 . 276 .. En la parte superior de cada hoja se calculan los estimadores y errores asociados (además de otros valores necesarios y relativos como los intervalos de confianza. Las celdas en las que calculamos el valor de las expresiones (coeficientes... que se le han facilitado. hay unas características comunes que vamos a describir en primer lugar: Las celdas en las que debemos introducir los datos de la muestra son de color gris... Las hojas de estos ficheros están protegidas para evitar que se modifiquen involuntariamente pero pueden modificarse si se desprotegen previamente según se indica en el párrafo anterior.) por debajo de estas filas y separadas por una o más filas de color blanco se calcula el tamaño de la muestra (o muestras) necesario para que se pueda hacer la estimación con un error máximo fijado de antemano. “COTA DEL ERROR DE ESTIMACION DESEADA” (o un coste total máximo. Una vez resueltos los ejercicios que aparecen en el enunciado de estas 9 prácticas (que se han seleccionado como representativos de las diversas posibilidades que pueden plantearse) el alumno debe resolver cuantos problemas pueda de las relaciones de ejercicios. estadísticos. Aunque el formato de cada hoja es distinto dependiendo de los cálculos que en ella se realizan. resueltos o no. Las demás celdas de distintos colores (por motivos meramente estéticos) se corresponden con etiquetas para identificar los valores que aparecen en la hoja..INTRODUCCIÓN Se han diseñado unas hojas de cálculo en Excel que permiten calcular todas las expresiones sobre muestreo. Para que puedan comprobar la correcta resolución de las mismas. En el desarrollo de la asignatura se propone a los alumnos la realización de 9 prácticas con la ayuda del fichero “PRACTICAS”... véase el muestreo estratificado) Para evitar que involuntariamente alteremos las expresiones de estas hojas de cálculo se ha protegido el contenido de todas las celdas salvo las de introducción de datos (celdas grises).) son de color amarillo. se ofrecen resueltas en los ficheros: “PRACTICA 1 RESUELTA”. Si se quiere modificar una celda protegida seleccionaremos Herramientas / Proteger / Desproteger hoja o bien copiaremos la hoja del fichero original (“PRACTICAS”) en una nueva hoja no protegida (se aconseja esta segunda opción). índices. indicadores estadísticos regionales y medidas de localización espacial que se estudian en la asignatura... En las celdas donde permanezcan dichos errores son expresiones que no se pueden calcular con la información de que disponemos y por tanto no podemos conocer. Con la anterior sugerencia se quiere poner de manifiesto que no hay ejercicios especiales que se resuelven con la ayuda del ordenador y otros a mano. en ese caso en las correspondientes celdas (marcadas con un color amarillo más intenso) escribiremos dichos valores. Sería conveniente resolver todos ellos a mano antes de hacerlo con el ordenador. Cuando se borren los datos de las celdas grises aparecerán errores de cálculo en las celdas donde se evalúan las expresiones sobre dichos datos (#¡DIV/0!. Estos errores desaparecerán en cuanto se introduzcan los correspondientes nuevos datos. no por los motivos indicados aquí para el muestreo aleatorio simple y estratificado). regresión y diferencia se utilizan distintos tonos de amarillo sólo con fines estéticos... antes de introducir los datos del problema... #¡VALOR!. de hecho en este documento se pueden apreciar formatos distintos en las pantallas que se presentan pero ello no resta generalidad ni validez a los comentarios que se acompañan. Destacamos aquí. pues dejar datos de ejercicios previos podría dar lugar a resultados erróneos. En algunas ocasiones será necesario introducir la información del problema en celdas distintas a las habituales (grises).. el contenido de todas las celdas de datos (celdas grises). . el hecho de que en ejercicios de clase sobre muestreo aleatorio simple y muestreo estratificado en lugar de disponer de todos los datos que forman las muestras sólo tenemos la información resumida del tamaño. (Nota: en la hoja Razón.. El aspecto de las pantallas de Excel puede variar ligeramente dependiendo de la versión del programa y de la configuración de las barras de herramientas. #¡NUM!. dado que se evalúa la expresión considerando cero el valor de las celdas vacías). zoom. por ser muy frecuente.. quedando vacías las celdas grises correspondientes a los datos muestrales. Para cada una de las prácticas que siguen se han elegido ejercicios representativos. se debe borrar. eso ayudará a una mejor comprensión de cómo se ha construido la plantilla para la práctica y de la potencialidad del ordenador para resolver este tipo de problemas.Cuando se vaya a utilizar el fichero “PRACTICAS”. media y varianza (en variables numéricas) o del tamaño y proporción (en variables dicotómicas). para ello desprotegeremos previamente la hoja. algunos están resueltos en los ejemplos y ejercicios contenidos en el desarrollo de los capítulos. sino que todos los ejercicios que hay 277 . Las prácticas 10 y 11 sobre contrastes de hipótesis no paramétricos se realizarán con la ayuda del programa SPSS. 278 .en las relaciones de cada capítulo se pueden resolver (salvo puntuales excepciones) de ambas formas y deberían resolverse cómodamente una vez que se dominen estas prácticas tras resolver los ejemplos que siguen. Previo a estas prácticas se ofrece una “Introducción al SPSS” para aquellos alumnos no familiarizados con el programa y en Internet se ha dejado una “Guia breve de SPSS” para aquellos otros que quieran profundizar más en su uso. 2 29.11% 2 Sn −1 = 0.18%) b) Cuasivarianza muestral c) Límite para el error de estimación d) Intervalo de confianza S = 13. Límite para el error de estimación (95% de confianza) d.04% .6 26.4 27.5 35.3 28.5 29 27. tal y como se aconseja en la “INTRODUCCIÓN A LAS PRÁCTICAS EN EXCEL” debemos borrar toda la información numérica que hubiera en las celdas grises.6 31.5 29. Con objeto de estimar la media poblacional de dos poblaciones infinitas.5 34.5 31.6 25.1507 (36. Intervalo de confianza para la media poblacional (nivel de confianza del 95%) Solución: MUESTRA 1 31.3 35. 2556 0.38 1.57) 2 n −1 Seleccionamos del fichero Excel “PRACTICAS” la hoja “MAS infinito” (Muestreo aleatorio simple en poblaciones infinitas) y antes de nada. 66.5 24.PRÁCTICA 1 Muestreo Aleatorio Simple en poblaciones infinitas (o con reemplazamiento) 1.35 MUESTRA 2 p = 51. realizamos un muestreo aleatorio simple sobre ambas poblaciones.8 26 24 26 31. b.5 27.8 30.4 28.1 1 0 1 1 0 0 1 1 0 1 1 1 0 0 1 1 0 1 MUESTRA 2 0 1 0 0 0 0 1 0 1 1 1 0 0 1 1 0 0 1 1 0 1 1 0 0 0 0 1 a) Media muestral MUESTRA 1 y = 29.3 Obtenga en ambos casos: a. La cuasivarianza muestral.22 (28. Este primer paso común a todas las prácticas que siguen no se repetirá en la explicación de cada una para no aumentar innecesariamente la longitud del documento 279 .3 32.6 30. c.6 32. La media muestral.4 26 38 24 29 29.2 34.5 25 35.13 . 30. recogiendo en la primera una muestra de tamaño 36 y en la segunda una muestra de tamaño 45 26.2 27 25. 280 . del apartado b) en C11 y D11. del apartado d) en C14. C15.Dado que los datos de la muestra 1 son numéricos los escribiremos en la columna correspondiente a “Datos numéricos” (columna C) y la muestra 2 por ser dicotómica la escribiremos en la columna D Obteniéndose la solución del apartado a) en C10 y D10. del apartado c) en C13 y D13. D14 y D15. con un error inferior al 2%. Un hipermercado desea estimar la proporción de compras que los clientes pagan con su “Tarjeta de Compras”. 15. cuántas compras deberíamos observar para asegurar que la anterior estimación se realiza con un error inferior al 2%. Escribimos en D9 el tamaño de la muestra (300) y en D10 el valor de la proporción muestral (=35/300) 281 . a) Estime con un intervalo de confianza la proporción de compras pagadas con dicha tarjeta..6≈1.38%). la proporción de compras pagadas con la tarjeta..031. Desprotegemos la hoja para poder modificar el valor de las celdas en amarillo más intenso (Herramientas/Proteger/Desproteger hoja. (Consideren los datos anteriores como una muestra previa) c) Si no se tuviera ninguna información acerca de los clientes que utilizan la tarjeta. Durante una semana observaron al azar 300 compras de las cuales 35 fueron pagadas con la tarjeta. b) n=1.95%. Solución: a) (7.500.030. c) n=2. Puesto que se trata de una variable dicotómica trabajaremos sobre la columna D. b) Cuantas compras deberían observarse para estimar.2.). Obteniéndose en D14 y D15 la solución al apartado a): (0,0795 , 0,1538). Si deseamos ver el valor de una o varias celdas con más decimales, seleccionaremos éstas y pulsaremos en el botón “aumentar decimales” de la barra de herramientas “formato” tantas veces como decimales se quieran añadir. Análogamente, con el botón “disminuir decimales” redondearemos el resultado con un menor número de decimales. (Si la hoja está protegida no nos permitirá hacer este tipo de acciones). 282 En casi todas las hojas (“MAS infinito”, “MAS finito”, “2 Estratos”, “3 Estratos”, “4 Estratos”, “Razón, regresión y diferencia” y “Conglomerados”) se ha adoptado un esquema similar: en la parte alta de la plantilla (etiquetas de color rosa) se obtienen las estimaciones y los errores de estimación asociados (y cálculos relacionados con los anteriores) en la parte inferior (etiquetas de color naranja y separadas de las anteriores por una banda blanca) se determina el tamaño de la muestra para un límite del error de estimación fijado (deseado). Para esta parte inferior de la plantilla se necesita como información, para realizar los cálculos, la cota del error de estimación deseada y en el caso numérico la varianza muestral que puede obtenerse de una muestra previa cuyos datos deben aparecer bajo la etiqueta “Muestra” o bien a partir del rango (como veremos en el ejercicio 5 de la práctica 2). En el caso dicotómico la varianza muestral depende de p (proporción muestral o estimación de la proporción) y este es el valor que debemos incluir en la plantilla para obtener el tamaño muestral, p puede obtenerse de una muestra previa que aparecería bajo la etiqueta “Muestra”, introducirse directamente si se conoce su valor (como en el apartado b de este ejemplo, p = 35 / 300 ), o bien, darle el valor 0.5 cuando no se tenga ninguna información acerca de su valor (como en el apartado c). NOTA: No debe confundirse el tamaño muestral que aparece etiquetado en rosa que corresponde al tamaño de una muestra que hemos observado, que ya tenemos, del tamaño muestral que aparece etiquetado en naranja y que nos dice cómo debe ser la muestra que debemos tomar, por tanto aún no se tiene, para conseguir que las estimaciones tengan 283 como máximo un determinado error de estimación. Asimismo no debemos confundir la cota del error de estimación etiquetada en rosa que se refiere al error asociado a una estimación hecha con la muestra que hemos observado y por tanto su valor no lo decidimos nosotros, con la cota del error de estimación etiquetada en naranja que la fijamos de antemano. Para resolver el apartado b) escribiremos 0,02 (es decir, el 2%) en D17 “COTA DEL ERROR DE ESTIMACION DESEADA y en D18 se obtiene la solución: n=1030,6 Por último, para resolver el apartado c), dado que no se tiene información sobre la proporción de clientes que utilizan la tarjeta (es decir, desconocemos el valor de la celda D10=0,1167), suponemos que ese valor es ½=0,50. 284 En las celdas D11, D12, D13, D14 y D15 aparecen errores en el cálculo de dichas expresiones debido a que entienden que el tamaño muestral en D10 es cero, pero dichas celdas no afectan al cálculo de la expresión D18 donde aparece el tamaño muestral necesario para que el error de estimación no supere el 2% (D17=0,02) 3. Este mismo hipermercado desea estimar también el valor medio de las compras realizadas con su “Tarjeta de Compras”. Basándose en los anteriores datos observa que el valor total de las compras hechas con la tarjeta fue de 4.500€ (siendo la cuasivarianza de los datos 615,15). Estímese el valor medio de las compras pagadas con la tarjeta y el error de estimación asociado. Solución: µ = 128,57 B = 8,38 Aunque en el mismo contexto que el ejercicio 2 de esta práctica, en este caso trabajamos con una variable numérica donde el tamaño de la muestra no es 300 sino 35 (clientes observados que pagaron con la tarjeta). En lugar de facilitarnos los 35 datos de la muestra nos dan el resumen de dichos datos mediante su media (la calculamos como la suma de las compras dividida entre el número de ellas, 4500/35) y cuasivarianza muestral. Como en el ejemplo anterior desprotegemos la hoja de cálculo para poder introducir directamente en las celdas color amarillo intenso los anteriores valores que la hoja de cálculo hubiese obtenido si le diéramos los datos de la muestra. La estimación de la media y el error de estimación asociado pueden leerse en las celdas C10 y C13. 285 PRÁCTICA 2 Muestreo Aleatorio Simple en poblaciones finitas. Como vamos a ver, el muestreo aleatorio simple en poblaciones finitas es similar al caso de poblaciones infinitas estudiado anteriormente y presenta análogas posibilidades y/o dificultades. Nos podemos encontrar con variables de tipo numérico (ejercicios 1, 2 y 3) y dicotómicas (ejercicios 3 y 4). Situaciones en las que conocemos explícitamente los datos de la muestra (ejercicios 1 y 3), o bien, otras donde nos dan resumidos los valores de la muestra en su media, varianza y tamaño muestrales (caso numérico, ejercicio 2) o en su proporción y tamaño muestrales (caso dicotómico, ejercicio 4). En cuanto a las diferencias entre un tipo de muestreo y otro, señalar que en el muestreo aleatorio simple en poblaciones finitas tiene sentido la estimación del total poblacional (como sabemos, a partir de la media o de la proporción) hecho que no se trata en el muestreo aleatorio simple en poblaciones infinitas. Debido a esto, las columnas donde se recogen las estimaciones, errores de estimación e intervalos de confianza, tanto en el caso numérico como dicotómico, se han desdoblado para calcular los correspondientes valores relativos a la estimación de la media (o proporción) y del total. Dado que nos enfrentamos a una población finita debemos introducir el valor finito del tamaño de la población en C8 o E8. Cuando algunos valores (tamaño poblacional, tamaño muestral,..., datos muestrales) son comunes a la estimación de la media y del total se fusionan las celdas de las dos columnas para evitar repeticiones innecesarias. Los anteriores comentarios pueden constatarse en la siguiente pantalla que muestra el aspecto de la plantilla para el muestreo aleatorio simple en poblaciones finitas. 286 1. Una muestra aleatoria simple de 6 deudas de clientes de una farmacia es seleccionada para estimar la cantidad total de deuda de las 100 cuentas abiertas. Los valores de la muestra para estas seis cuentas son los siguientes: Dinero adeudado (€) 35,50 32,00 43,00 41,00 44,00 42,50 a) Estime el total del dinero adeudado y establezca un límite para el error de estimación. b) ¿Cuántas cuentas deberían observarse para estimar el total de deuda con un error inferior a 200€? (considere los anteriores datos como una muestra previa) Solución: a) τ = 3966,6 2 V (τ ) = 381, 02 b) n = 18,96 ≈ 19 En este sencillo ejercicio sólo tenemos que borrar los datos de las celdas grises e introducir la información del enunciado. No es necesario desproteger la hoja porque no se modifica ninguna de las expresiones de las celdas amarillas. 287 Los valores pedidos en a) se pueden leer en D10 y D13. Escribiendo el máximo error de estimación que deseamos en la celda D17 se obtiene el tamaño muestral necesario en D18, (si el error de estimación se refiere a la media, éste debe introducirse en C17). 2. Una muestra aleatoria simple de 50 contadores de agua es controlada dentro de una comunidad de regantes para estimar el promedio de consumo de agua diario (en m3) durante un periodo estacional seco. La media y varianzas muestrales fueron y = 10,31 m3 y s 2 = 2, 25 m6 . Hay en total 750 regantes en la comunidad. a) Estime el consumo medio diario de toda la comunidad y establezca un límite para el error de estimación. b) Estime con un intervalo de confianza la cantidad total de litros de agua empleada diariamente. Solución: a) y = 10,31m3 B = 0, 41m3 , b) (7.425.090 litros , 8.039.910 litros). En este caso no disponemos de los 50 valores de la muestra por lo que tendremos que desprotegerla para escribir en C9, C10 y C11 el tamaño, la media y varianza muestrales, además de no olvidar el tamaño de la población en la celda C8. En C10 y C13 está la respuesta al apartado a y en D14, D15 la respuesta a b (observe que los valores están expresados en m3 y la respuesta la piden en litros por lo que se multiplicarán por 1000). 288 3. Para estimar el número de alumnos de un grupo de la asignatura Técnicas para el Análisis del Mercado que tienen acceso a Internet en su casa, se ha preguntado a los 15 alumnos de un grupo de prácticas de la asignatura. La respuesta se recoge en la siguiente tabla 1-SI 2-SI 3-NO 4-SI 5-NO 6-NO 7-SI 8-SI 9-SI 10-NO 11-NO 12-NO 13-SI 14-SI 15-NO a) Estime, mediante un intervalo de confianza, cuántos de los 150 alumnos que hay en ese grupo tienen acceso en casa a Internet. b) ¿Le parece fiable la predicción?. c) A cuantos alumnos se tendría que preguntar para que la estimación se realizara con un error inferior a 10 alumnos. Solución: a) (42,05 , 117,95), b) No, el error es muy grande (37,95) y por tanto el intervalo de confianza muy amplio, c) n=90,1≈91. Este ejercicio es un sencillo ejemplo de datos dicotómicos donde se conocen los valores de la muestra, sólo tenemos que introducirlos en la columna correspondiente, etiquetando como 1 aquella respuesta cuya proporción o total queremos estimar (en este caso SI=1, NO=0). Como el apartado a me pide que estime el total de alumnos, buscaremos en la columna F y en la filas 14 y 15 la respuesta. El valor de la cota del error de estimación del total que vemos en F13=37,95 es importante si lo comparamos con la estimación del total F10=80 (casi la mitad), por lo que se concluye la poca fiabilidad de la estimación. Escribiendo el máximo error de estimación que deseamos cometer al estimar el total en la celda F17 obtenemos en F18 el tamaño muestral necesario para conseguirlo. 289 Estime la proporción de estudiantes que está a favor del cambio y establezca un límite para el error de estimación.4. Así por ejemplo. 44% B = 3. desproteger la hoja de cálculo y escribir en E9 (15) y en E10 (=8/15). Solución: p = 19. el número de respuestas SI=8. NOTA: En ejemplos con datos dicotómicos donde se tenga la lista completa de los valores de la muestra se puede optar por este procedimiento de resolución que resulta a veces más cómodo. en el ejercicio anterior podríamos haber contado los elementos de la muestra n=15. Desprotegemos la hoja para escribir dichos datos en las celdas amarillas E9 (180) y E10 (=35/180) apareciendo en E10 y E13 la respuesta. 290 . 74% En este ejemplo de datos dicotómicos (como el anterior) no tenemos explícitamente la lista de los 180 elementos observados pero conocemos el tamaño (180) y la proporción muestral (35/180). Una muestra aleatoria simple de 180 estudiantes (de un total de 300) fue entrevistada para determinar la proporción de estudiantes que está a favor del cambio del sistema semestral al anual. Treinta y cinco de los estudiantes respondieron afirmativamente. 000 cuentas por cobrar con un límite para el error de estimación de 10.000 16 16 2 2 (se utiliza que la desviación típica en variables normales es aproximadamente la cuarta parte del rango o recorrido de los datos observados) Solución: n = 615. que como puede observarse vale 40000. En D17 introduciremos el máximo error de estimación que queremos cometer al estimar el valor total de las cuentas y en D18 se tiene la respuesta 291 . 1. 62 ≈ 616 En primer lugar. escribiremos en la celda C11 la expresión =((1400-600)^2)/16 .400). Encuentre el tamaño de muestra necesario para estimar el valor total de 1. NOTA: En la casilla C11 estimamos la varianza mediante R 2 (1400 − 600 ) σ ≅ = = 40. Según se sugiere en la nota.000€. señalar que se trata de un problema con datos numéricos (valor de las cuentas) y que estamos interesados en la estimación del total. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero se sabe que la mayoría de las cuentas caen dentro del intervalo (600.5.o bien =(800^2)/16. 292 . Para simplificar las expresiones de la parte inferior de la plantilla (determinación del tamaño muestral y asignación) se han hecho unos cálculos previos en la banda blanca intermedia que aparecen en un negro menos intenso y carecen de una interpretación directa. por lo que en cada estrato (en la parte superior de la plantilla) se han copiado. 1. 84 en el barrio B y 126 en el barrio C. La empresa publicitaria tiene tiempo y dinero suficientes como para entrevistar 30 hogares y decide seleccionar muestras aleatorias de tamaños: 15 del barrio A. exactamente. tanto para datos numéricos como dicotómicos. se decide realizar una encuesta por muestreo para estimar el número de horas por semana que se ve la televisión en las viviendas del municipio. Para un mayor número de estratos se puede confeccionar la plantilla fácilmente copiando las dos columnas de un estrato tantas veces como se quiera e incluyendo los valores de los nuevos estratos en las sumatorias y expresiones de las dos columnas de toda la población donde se recopila la información del conjunto de todos los estratos (véase las notas sobre las preprácticas). Al igual que el muestreo aleatorio simple. El muestreo aleatorio estratificado consiste en un muestreo aleatorio simple en cada uno de los estratos. Se seleccionan las muestras aleatorias simples y se realizan las entrevistas. Se está interesado en determinar la audiencia de la publicidad televisiva en una cadena local de un municipio. se 293 . el muestreo aleatorio estratificado puede hacerse sobre poblaciones finitas e infinitas. y 9 del barrio C. Hay 210 hogares en el barrio A. las mismas expresiones que aparecen en el muestreo aleatorio simple.PRÁCTICA 3 Muestreo Aleatorio Estratificado. pero como veremos en algunos ejemplos ( ejercicios 4 y 8) se puede aplicar también al caso de tamaños poblacionales infinitos. Los resultados. La determinación del tamaño muestral y su asignación (parte inferior de la plantilla) son mucho más complejas que en el muestreo aleatorio simple y no guardan relación con él. 3 y 4 estratos. con mediciones del tiempo que se ve la televisión en horas por semana. Nosotros hemos supuesto el modelo con tamaños poblacionales de los estratos finitos (que aparecen en la fila 8). Éste está formado por tres barrios con diferentes perfiles socio-culturales que afectan a la audiencia televisiva. En el fichero Excel de las prácticas de la asignatura hay tres hojas con las plantillas para los cálculos necesarios en el muestreo aleatorio estratificado de 2. 6 del barrio B. E y G). E21 y G21 el mismo valor para los tres costes y observará que las filas 22 y 23 de la tabla (asignación óptima y de Neyman) coinciden. 9€ para el barrio B y 4€ para el barrio C. Se estima que el coste de una observación del barrio A es de 1€. NOTA: Para comprobar que la asignación óptima y de Neyman coinciden cuando los costes son iguales. b) Los hogares del barrio B. (Como en el apartado anterior. tómese los datos de la tabla como una muestra previa para estimar las varianzas de los estratos).23. y st aparece en la celda I10=28. 294 . en horas por semana. escriba en las celdas C21. obteniéndose B28=28. f) Cuántos hogares deberían entrevistarse para estimar el número medio de horas a la semana que se ve la televisión en los hogares del municipio con un error inferior a 1 hora. e) ¿Qué tipo de asignación se ha utilizado? NOTA: Obsérvese que debido al tipo de asignación utilizado. y st = y . y lo podemos calcular. (Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios). d) Todos los hogares Para todos los casos fije un límite para el error de estimación. g) Supóngase que se tiene sólo 600€ para gastar en el estudio. Debido a los traslados necesarios no cuesta lo mismo obtener una observación en un barrio que en otro. por ejemplo en la celda B28. para: escribiendo la función =PROMEDIO(C28:G100) que calcula la media aritmética de todos los datos incluidos en las tres muestras (columnas C. determine el tamaño de la muestra y la asignación que minimizan el error de estimación. c) Los hogares del barrio C.muestran en la siguiente tabla: BARRIO A 36 34 26 39 38 32 38 37 29 28 41 35 29 37 41 a) Los hogares del barrio A. BARRIO B 20 25 30 14 41 39 BARRIO C 14 22 15 17 21 11 20 14 24 Estime el tiempo medio que se ve la televisión.23. 63 ≈ 34 n=126+37+34=197 . Para responder a los apartados a. E13. 40 b) y B = 28.82 d) y st = 28. E10. E y G bajo las etiquetas “Muestra 1”.17 B = 8. c y d . En el caso de no querer sobrepasar un máximo error de estimación siempre redondearemos por exceso.19 ≈ 37 n 3 =34. g) n=198.71 ≈ 80 n 2 =23. “Muestra 2” y “Muestra 3”. No hace falta desproteger la hoja “3 Estratos” salvo para los cálculos del apartado e (motivo por el que lo resolveremos al final).56 B = 2. coste total = (1× 126) + (9 × 37) + (4 × 34) = 595€ coste total = (1×127) + (9 × 38) + (4 × 35) = 609€ Cuando no queramos superar un determinado presupuesto redondearemos por defecto. 23 B = 2. 67 B = 2.56 n1 =126.39 ≈ 24 n 3 =21. 22 f) n=124. haciéndolo así : sin embargo: Estamos ante el caso más sencillo de estratos con datos numéricos donde sólo tenemos que introducir la información que tenemos en las celdas grises. 295 .Solución: a) y A = 34. G13 y la estimación para el conjunto de todos los hogares de la población en I10.78 ≈ 22 n=80+24+22=126 . C13.35 e) proporcional c) y C = 17. I13. b. escribiremos los tamaños poblacionales de los estratos en la fila 8 y los valores de las muestras en las columnas C. G10.74 ≈ 126 n 2 =37. La estimación para la media y su límite para el error de estimación en cada uno de los estratos (barrios) pueden verse en C10. NOTA: No olvide pulsar “Enter” después de escribir el último dato pues en caso contrario la hoja de cálculo no lee éste.88 n1 =79. Para contestar al apartado f. escribiremos los costes de observación en C21. E21 y G21 y el máximo error de estimación que queremos cometer al estimar la media en I20 (si pretendiéramos estimar el total de horas con un determinado error utilizaríamos la celda J20). En las filas 22. debemos utilizar siempre que se pueda la asignación óptima. Salvo que se pregunte por una asignación concreta en el enunciado del ejercicio. la hoja de cálculo nos dará errores de división por cero. se han calculado suponiendo que queremos estimar el total con un error cero (celda J20 en blanco) y carecen de sentido. 23 y 24 están los tres tipos de asignación estudiados. A los valores que hay a la derecha de éstos y que se refieren al total no hay que prestarles atención. obsérvese que en el caso de la asignación óptima deberíamos observar 453 elementos de un total de 420 que hay en toda la población. Hechas estas aclaraciones nos queda aún la decisión de cuál de las tres asignaciones debemos tomar. 296 . Cuando no conozcamos los costes de observación (bórrese estos de la fila 21) no se podrá obtener la asignación óptima. fila 22. con la asignación de Neyman habría que observar en el estrato 2 a 130 elementos. pues como su nombre indica es la mejor. sin embargo sólo hay 84 en ese estrato. Nos fijaremos en los valores que aparecen en las columnas correspondientes a la media de cada estrato y de la población porque ha sido sobre la estimación de la media donde hemos impuesto la condición de que el error no supere 1 hora. E25. La solución la tenemos en la pantalla que aparece en la página 19 de este documento (celdas C25. fila 25. (Supóngase que se realiza la entrevista por teléfono y el 297 . para decidir la conveniencia de insertar un anuncio en los intermedios del mismo. I25). Ese hecho se ha comprobado calculando y en B28 y observando que coincide con y st en I10 (véase pantalla de la página 19). también se desea saber qué proporción de hogares ven un determinado programa. la primera “COSTE DE UNA OBSERVACIÓN” se refiere a lo que cuesta una observación en cada estrato y debemos escribirlo en C21. b) Cuántos hogares deberían entrevistarse si se quisiera hacer dicha estimación con un error inferior al 5%. =E8/E9. Consecuencia de haber utilizado la asignación proporcional es que y st = y . tal y como se indica en el enunciado. La determinación y asignación de las muestras en los apartados f y g utilizan las estimaciones de las varianzas de los datos en cada estrato (varianza muestral. Para comprobarlo hay que ver que n1 n n n = 2 = 3 = N1 N 2 N 3 N o equivalentemente N1 N 2 N 3 N = = = . =G8/G9 y observaremos que coinciden. Si coinciden estos tres valores no es necesario comprobar la igualdad con =I8/I9. Para ello en cualesquiera tres celdas en blanco n1 n2 n3 n calcularemos: =C8/C9. Para ello utilizamos la asignación óptima para un coste total fijo. En el apartado e vamos a verificar que se ha utilizado la asignación proporcional en la muestra observada.En el apartado g debemos resolver la mejor forma de seleccionar una muestra dado un presupuesto o coste total fijo. 2. La respuesta a la pregunta de si ven dicho programa por los hogares de la muestra anterior se recoge a continuación: BARRIO A BARRIO B BARRIO C SI NO SI SI SI NO SI SI SI SI NO SI SI NO NO NO SI SI SI NO SI NO SI NO NO SI NO NO SI SI a) Estime con un intervalo de confianza la proporción de hogares del municipio donde se ve el programa. 6 y 9 elementos que disponemos en los respectivos estratos. la segunda etiqueta “COSTE TOTAL” hace referencia al presupuesto total para tomar la muestra y su valor debe colocarse en I21. E21 y G21. G25. La celda B21 incluye dos etiquetas. Nota: Para hacer esos cálculos en esta hoja habrá que desprotegerla. fila 11) a partir de las muestras previas de 15. En el caso anterior. en este caso 600€. 46 ≈ 62 n=103+41+62=206 Los apartados a y b son similares a los apartados d y f del ejercicio anterior salvo que aquí trabajamos con datos dicotómicos.44 ≈ 103 n 2 =40. En el enunciado de este ejercicio no se repiten los tamaños poblacionales de los estratos porque se sobreentiende que son los mismos al no cambiar de población en estudio.42 ≈ 58 n=102+31+58=191 c) n=204. Seleccionaremos en la hoja “3 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. Tras introducir los datos.27 ≈ 31 n 3 =57.29 ≈ 102 n 2 =30. 77. en S14 y S15 tenemos los extremos del intervalo de confianza pedido en el apartado a. Obsérvese que aunque se dice que los costes de observación por teléfono son los mismos.88 n1 =102.98 ≈ 41 n 3 =61.7% . éstos son desconocidos por lo que la fila 21 aparece en blanco y no se puede obtener la 298 .98 n1 =101. Solución: a) (42.3%) b) n=188. Tómese los anteriores datos como una muestra previa para estimar los parámetros necesarios) c) Respóndase a la pregunta anterior pero suponiendo que no se tiene ninguna información previa sobre la proporción de hogares donde se ve el programa.coste de las observaciones es el mismo para todos los casos al no ser necesarios los traslados. Se sugiere escribir unos costes de observación (los que se quieran) iguales para los tres estratos y comprobar que la asignación óptima nos daría los mismos valores que la asignación de Neyman (M23. Al no introducir datos muestrales (por tanto. tamaño muestral = 0) aparecen errores de cálculo en las filas 11. Cuando. que las asignaciones óptima y de Neyman coinciden si los costes de observación son iguales (se conozcan o no). 14 y 15.asignación óptima. las asignaciones de Neyman y proporcional coinciden y son la solución al apartado c. 12. “MUESTRA 2” y “MUESTRA3”. O23. pero esos valores no afectan a la determinación del tamaño muestral que sólo tiene en cuenta los tamaños de los estratos (fila 8) y la estimación de la proporción (fila 10). Pero sabemos.5 en cada uno de los estratos (hay que desproteger la hoja para poder escribir en M10. O10 y Q10 dicho valor) y borramos los datos muestrales de las columnas “MUESTRA 1”. Además se observa que al ser la proporción igual en los tres estratos y por tanto la varianza de los estratos. suponemos que el valor de la proporción es 0. 299 . no se tienen datos previos para estimar la proporción en cada estrato y a partir de ella la varianza de los datos en cada estrato. como en el apartado c. 13. Q23 y S23) que son la solución al apartado b. como se ha comprobado en la nota al apartado f del ejercicio anterior. El máximo error de estimación que se quiere cometer al estimar la media se sustituye en I20. Solución: n=11.3. varianzas aproximadas de las calificaciones y número de jefes de división en cada zona. Es por eso que se usa muestreo estratificado. las varianzas de los estratos en la fila 11 (hay que desproteger la hoja) y los tamaños de los estratos en la fila 8. para pedirles que califiquen la maquina con base en una escala numérica. 300 . La tabla siguiente proporciona los costes por entrevista. tras borrar toda la información de las celdas grises. Las divisiones están localizadas en Norteamérica.43 ≈ 2 n=7+3+2=12 En la hoja “3 Estratos”. Se va a entrevistar por teléfono a un número de jefes de división. valen los mismos comentarios hechos en el ejercicio 1. Europa y Asia.24 N1 = 112 N 2 = 68 N 3 = 39 La multinacional quiere estimar la calificación media con un error inferior a 1 punto.99 ≈ 3 n 3 =1. escribimos el valor de los costes de observación en la fila 21.26 n1 =6. La solución sería la asignación óptima (fila 22). Los costes son mayores para las entrevistas de los jefes de división localizados fuera de Norteamérica.25 = 3.24 = 2. Una multinacional desea obtener información acerca de la efectividad de una máquina comercial.84 ≈ 7 n 2 =2. Encuentre el tamaño apropiado de la muestra que conduce a este error para el estimador y su asignación. Estrato I (Norteamérica) c1 = $9 2 σ1 Estrato II (Europa) c 2 = $25 2 σ2 Estrato III (Asia) c 3 = $36 2 σ 3 = 3. apartado f. Q12 y R12) .000. Solución: p st = 10. N N  100 N3  = 20%  . Tendríamos que (por ejemplo en el estrato 1) borrar en las fórmulas de las celdas M12 y N12 las expresiones repetiríamos para los estratos 2 y 3 en las celdas O12.20). NOTA: Para resolver este problema tenemos que eliminar los coeficientes correctores para poblaciones finitas N i − ni en la correspondiente hoja de cálculo (tres estratos). 100 2 = 30% . O10 = 6 / 70 . No se conocen los tamaños poblacionales de los estratos por lo grandes que son estos (podemos considerarlos infinitos) pero sí se conoce la relación de estos N N  tamaños con el de toda la población 100 1 = 50% . Una inspectora de control de calidad debe estimar la proporción de circuitos integrados de ordenador defectuosos que proceden de tres máquinas diferentes de producción. B y C. Ella sabe que de los circuitos integrados que van a ser inspeccionados. O8 y Q8 valores muy grandes de forma que conocidos aunque sí N i − ni ≅ 1 . 70 de la B y 50 de la C.000 y Q8=20.56% Al no disponer de las observaciones muestrales sino de los tamaños de las muestras ( n1 = M 9 = 80 . O8=30. En una muestra aleatoria de 200 circuitos integrados. Estratifique la muestra en circuitos integrados provenientes de las máquinas A. desprotegeremos la hoja y escribiremos esa información en las filas 9 y 10.000. n3 = Q9 = 50 ) y proporciones muestrales en cada estrato ( M 10 = 10 / 80 . N  301 . estime la proporción de defectuosos en la población y fije un límite para el error de estimación (omita los coeficientes correctores para poblaciones finitas en todos los casos). De los circuitos integrados muestreados: son defectuosos 10 de la máquina A. el 50% proceden de la máquina A. P12.000). n2 = O9 = 70 . de la B son defectuosos 6 y de la C son 5 defectuosos. 0.50.4. Por otra parte dado que los valores N i no son Ni Ni (0. Lo anterior se puede resolver más fácilmente dando a los valores N i en las celdas M8. debemos respetar dichas proporciones N (sugerencia M8=50. el 30% de la máquina B y el 20% de la máquina C.82% B = 4.30 y 0.000. 80 provienen de la máquina A.000. lo que Ni N i − ni M 8 − M 9 = (análogamente Ni M8 equivale a hacerlos igual a 1. Q10 = 5 / 50 ). 000 y N 3 = Q8=20. lo que equivale prácticamente a quitarlo de las expresiones donde aparece. En este ejercicio: N N2 = 30% . no podemos escribir unos tamaños N i tan grandes como queramos a nuestro antojo. Así. pero estas plantillas pueden utilizarse también para el caso de muestreo aleatorio estratificado con tamaños poblacionales de los estratos infinitos (tan grandes que su tamaño es desconocido). las plantillas para el muestreo aleatorio estratificado se han construido sobre el muestreo aleatorio simple en poblaciones finitas. Por último. La clave para hacerlo está en la anterior nota.Como se indicaba en la introducción a la práctica 3. dichos tamaños han de respetar la relación entre los tamaños de los estratos. N −n y en el segundo no (o lo N N −n N −n = 1 ).000 302 . es decir. borrando i i de todas las expresiones o haciendo N Ni N i − ni = 1 . Para ello en la fila 8 (TAMAÑO POBLACIONAL) escribiremos valores muy grandes para los tamaños de los estratos ( N i ) de forma que N i − ni ≅ 1 . En este caso para el estrato 1 hemos tomado 50 millones como tamaño poblacional y análogamente para los otros estratos: N1 = M8=50. Dado que borrar y manipular sobre las expresiones escritas puede provocar fácilmente errores. si no se hace con toda cautela.000. N 100 N1 = 50% . Pero Ni con esto no acaba todo. N 2 = O8=30. habremos adaptado nuestras plantillas al caso de muestreo estratificado con Ni tamaños de los estratos infinitos. N 100 N3 = 20% .000.000 . La diferencia entre las expresiones del muestreo aleatorio simple en poblaciones finitas e infinitas está en que en el primero aparece multiplicando el coeficiente corrector para poblaciones finitas que es lo mismo. proponemos la segunda alternativa como la forma más segura de transformar las expresiones del muestreo aleatorio simple finito en el caso infinito. una forma sencilla de asignar N los tamaños a los estratos respetando dichos porcentajes consiste en añadir al porcentaje varios ceros (el mismo en todos los estratos).000. los valores 100 Ni que habitualmente vienen dados en porcentajes. decide estratificar sobre la base del tamaño de las fincas.56% y el valor que aparece en la anterior pantalla (S13=0. El Ministerio de Medio Ambiente quiere estimar el número total de hectáreas plantadas de árboles en las fincas de una comarca. 4. Las 240 fincas de la comarca son clasificadas en 4 categorías de acuerdo al tamaño.La pequeña diferencia entre la solución del problema B=4. seleccionada mediante asignación proporcional.57%) es debido a que trabajamos con N i − ni ≅1 y Ni no exactamente 1. dio como resultado el número de hectáreas plantadas de árboles que se muestra en la siguiente tabla: 303 . lo que se consigue simplemente añadiendo más ceros a dichas cifras (¡ojo. 5.0457. Ya que el número de hectáreas de árboles varía considerablemente con respecto al tamaño de la finca. Si se quiere una mejor aproximación a la solución debemos escribir mayores valores en M8. O8 y Q8. es decir. el mismo número en todas!). Una muestra aleatoria estratificada de 40 fincas. dado que no tenemos información sobre costes para poder calcular la asignación óptima) la respuesta del apartado b (si queremos obtener la solución con un decimal podemos utilizar el botón “disminuir decimales” como se indicó en el ejercicio 2 de la práctica 1).Estrato I Estrato II Estrato III Estrato IV 0-200 ha. dado que se va a estimar el total. Encuentre el tamaño muestral y su asignación para garantizar dicho límite de error si se usa la asignación de Neyman.7 ≈ 17 n 3 =16. 201-400 ha. Sin necesidad de desproteger la hoja. que debemos leer de la fila 23 sólo la información de las celdas bajo las columnas “TOTAL”. pero en este caso el número de estratos es 4. En L10 y L13 está la solución al apartado a. 401-600 ha. Escribiendo en L20 el máximo error que se quiere cometer al estimar el total de hectáreas. +600 ha.9 ≈ 7 n 2 =16. b) Este estudio se quiere hacer anualmente con un límite para el error de estimación de 5. se puede leer en la fila 23 (asignación de Neyman.4 ≈ 17 n4 = 19. 7 ≈ 20 n=7+17+17+20=61 Este ejercicio es del mismo tipo que el ejercicio 1: datos numéricos y conocemos las observaciones muestrales. Recordemos. Solución: a) τˆ = 50505.7 n1 =6.12 b) n=59. N1 = 86 n1 = 14 N 2 = 72 n 2 = 12 N 3 = 52 n3 = 9 N 4 = 30 n4 = 5 97 42 25 105 27 45 53 67 125 92 86 43 59 21 125 67 256 310 220 142 155 96 47 236 352 190 142 310 495 320 196 256 440 510 396 167 655 220 540 780 a) Estime el número total de hectáreas plantadas de árboles en las fincas de la comarca y fije el límite para el error de estimación. 304 . 60 B = 8663. escribiremos los tamaños poblacionales de los estratos en la fila 8 y las observaciones muestrales en las columnas de cada estrato (nota: no es necesario escribir en la fila 9 los tamaños de las muestras pues la hoja de cálculo los obtiene al contar las observaciones muestrales que se han escrito debajo).000 hectáreas. Salvo esa diferencia (por lo que seleccionaremos en este caso la hoja “4 Estratos”) no presenta ninguna dificultad nueva a las encontradas en el ejercicio 1. 6. en la misma muestra se pregunta sobre el referido asunto.21%) 305 . el gobierno también desea conocer la proporción de fincas que han sufrido algún incendio en los últimos diez años. N1 = 86 n1 = 14 N 2 = 72 n 2 = 12 N 3 = 52 n3 = 9 N 4 = 30 n4 = 5 NO SI NO NO SI NO NO NO SI NO NO SI NO NO SI NO NO NO NO NO NO SI NO NO NO SI NO SI NO NO SI NO NO NO NO NO NO SI NO NO Estímese con un intervalo de confianza la proporción de fincas de la comarca que han sufrido algún incendio en los últimos diez años. Para ello. +600 ha. 38. 401-600 ha.9% . Solución: (11. Para la comarca del ejercicio anterior. obteniéndose las siguientes respuestas Estrato I Estrato II Estrato III Estrato IV 0-200 ha. 201-400 ha. por tanto N2=53 . En estudios previos de este tipo de investigaciones se ha encontrado que los tiempos presentan una amplitud de variación de 5 a 20 segundos para varones y de 3 a 14 segundos para mujeres. Solución: n = 28.96 ≈ 15 n2 = 13. encuentre el tamaño muestral necesario para estimar el tiempo medio de reacción para el grupo. En el primer estrato escribiremos en la 306 . 48 n1 = 14.Este ejercicio es igual que el apartado a del ejercicio 2 pero con 4 estratos. Como en el ejercicio 5 de la práctica 2 estimaremos la varianza de los datos en cada estrato a partir del rango o recorrido de los mismos. Una psicóloga que está trabajando con un grupo de adultos con retraso mental. Los costes del muestreo son los mismos en ambos estratos. Usando la asignación óptima. El grupo de 96 personas tiene 43 varones. con un límite de error de un segundo. 7. N1=43. Ella considera que varones y mujeres probablemente presentarán una diferencia en tiempos de reacción. desea estimar su tiempo medio de reacción a un cierto estímulo.52 ≈ 14 n = 15 + 14 = 29 N=96. por lo que desea estratificar con base en los sexos. Seleccionaremos en la hoja “4 Estratos” la plantilla que hay a la derecha para datos dicotómicos e introduciremos la información en las celdas grises (no es necesario desproteger la hoja) codificando las respuestas SI como 1 y los NO como 0. El investigador decide estratificar con base en meses para el muestreo de inspección a fin de observar la variación mensual. por ejemplo aquí hemos considerado 1) y leer la solución en las filas 22 y 23. 16 16 Como en el apartado b del ejercicio 2. Un embarque particular de una fábrica consistió en las baterías producidas en dos meses diferentes. R 2 (14 − 3) E11= = = 7. o bien dejar esas celdas en blanco (C21 y E21) y tomar como solución la asignación de Neyman en la fila 23 (la asignación óptima en la fila 22 daría errores de cálculo. en este caso) 8.celda C11 R 2 ( 20 − 5 ) σ ≅ = = 14. 06 . Podemos optar por escribir el mismo coste de observación en C21 y E21 (cualquier valor. división por cero.56 . Una verificación de control de calidad estándar para baterías de automóviles consiste simplemente en registrar su peso. con el mismo número de baterías producidas en cada mes. 16 16 2 2 2 Análogamente en el estrato 2. los costes de observación en cada estrato son los mismos. Las muestras aleatorias simples de los pesos de las baterías para los dos meses dieron las siguientes mediciones (en libras): 307 . ¿Considera usted que el embarque cumple el estándar promedio? c) ¿Cree usted que la estratificación del ejercicio anterior es deseable.5 64.5 64. y fije un límite para el error de estimación.5 63. 65 . por tanto no estaría justificado estratificar basándose en la producción por meses.26 .5 64. Por tanto hemos de suponer los tamaños de los estratos infinitos e iguales.8 63. daremos a los tamaños de los estratos en C8 y E8 valores elevados pero iguales 308 . Así.5 64. Esta pequeña diferencia entre los errores del muestreo aleatorio simple y del estratificado se debe a que los estratos no están formados por datos más homogéneos que el conjunto de la población.5 63.51) c) Considerando que los 12 datos constituyen una muestra aleatoria simple se obtendría y = 63. o será suficiente con muestreo aleatorio simple? Solución: a) y st = 63. que es muy similar a lo obtenido en a) (las medias coinciden por ser la asignación proporcional).5 63.0 66. Este problema ya se ha abordado en el ejercicio 4 y siguiendo los consejos que entonces se dieron vamos a resolver este otro. b) El estándar de la fábrica para este tipo de baterías es de 69 libras. 07 S2 = 1. sólo nos dice el enunciado que la producción es la misma en cada mes.5 63. 69 no pertenece al intervalo (63. 63 b) No.30 S 2 = 1. 27 .88 B = 0. como puede verse al comparar sus 2 varianzas muestrales S12 = 1.0 a) Estime el peso medio de las baterías del embarque (población).Mes A Mes B 61.88 B = 0. Este hecho se confirma cuando en el apartado a se sugiere que se descarte o haga igual a 1 el coeficiente corrector para poblaciones finitas. La producción de baterías no es conocida exactamente debido a su alto número. Descarte el coeficiente corrector para poblaciones finitas. 64.8 63. Para el apartado c juntaremos las muestras de los dos estratos en una única muestra aleatoria simple y la analizaremos con la ayuda de la hoja “MAS infinito”.La solución al apartado a se puede leer en G10 y G13. Observamos que la estimación de la media tiene una cota de error de estimación similar a la del apartado a (analizando los datos según un muestreo estratificado). 309 . Tal y como se indica en los comentarios a la solución del apartado c más arriba. hecho que se confirma comparando las varianzas de las muestras de los dos estratos (celdas C11 y E11 de la anterior pantalla) y de la muestra fusión de ambas (celda C11 de la siguiente pantalla). Para responder al apartado b nos fijamos en los extremos del intervalo de confianza para la media (G14. esto es debido a la falta de homogeneidad de los datos dentro de cada estrato. dado que el valor 69 no está entre ambos concluimos que nuestros datos rechazan la afirmación de que el peso medio de la producción de baterías examinada sea de 69 libras. G15). 310 . 311 . Regresión y Diferencia. En esta plantilla sólo tenemos que introducir los valores que aparecen en las celdas grises. desproteger la hoja. no tenemos que modificar ninguna expresión. por tanto. Por consiguiente. en cualquier caso debemos completar el valor de los dos como se ha N   C 8 15000   = hecho en la siguiente pantalla  C 9 = 75 =  y volveremos a ver en el ejercicio 1 200  C10  de esta práctica. Se deberá tener cuidado en no confundir los papeles de las variables X e Y cuyos datos muestrales colocaremos en las columnas C y D respectivamente (a partir de C22 y D22). pero no ambos. No es necesario. dado que fácilmente se puede calcular uno a partir del otro τx    µ x = ⇔ τ x = N µ x  .PRÁCTICA 4 Estimadores de Razón. La variable X es la variable auxiliar en la que nos apoyamos para conseguir mejores estimaciones sobre la variable Y. Habitualmente sólo nos darán el valor de la media poblacional de X o del total poblacional de X. una forma sencilla de establecer claramente el papel de las variables es fijarnos en sobre qué variable debemos estimar el valor de su media y/o total (variable Y). 1. entonces escribiremos el valor de µ x o en su defecto x (como en el ejercicio 2) en la celda C9. salvo en el caso de que se quiera estimar la razón (R) con un determinado error B.79 . el tamaño poblacional (C8) y la varianza residual asociada al modelo (fila 17). los valores de la media poblacional de X ( µx ) o del total poblacional de X ( τx) no son necesarios. un estimador de regresión y un estimador de diferencia. Con esto se quiere mostrar al alumno que éste y otros valores que se calculan en estas hojas pueden en muchos casos obtenerse de diferentes formas. Los auditores frecuentemente están interesados en comparar el valor intervenido de los artículos con el valor asentado en el libro. y los valores intervenidos son obtenidos con una muestra de esos artículos.03). escribiremos éste en la celda correspondiente de la fila 18. 76. 312 . los valores en el libro son conocidos para cada artículo en la población. Obtenga el intervalo de confianza en cada caso. Solución: Estimador de razón (72. mediante un estimador de razón. Supóngase que una población contiene 180 artículos inventariados con un valor establecido en el libro de 13. para estimar esta última necesitamos una muestra previa que debe aparecer en las columnas C y D. Para obtener el tamaño muestral necesario para conseguir dicho nivel de error tenemos que conocer además de éste (fila 18). Sin embargo. Nota: El valor del coeficiente b de la recta de regresión se ha obtenido en G22 y G23 utilizando dos expresiones distintas.Si se quiere realizar alguna de las estimaciones con un error de estimación inferior a un determinado valor B. Generalmente. Los valores en el libro entonces pueden utilizarse para obtener una buena estimación del valor intervenido total o medio para la población.320€. Una muestra aleatoria simple de 10 artículos nos dio los siguientes resultados: Valor intervenido yi Valor en el libro xi 9 10 14 12 7 8 29 26 45 47 109 112 40 36 238 240 60 59 170 167 Estime el valor intervenido medio. Estimador de regresión (72. Una muestra aleatoria de 8 familias fue seleccionada de entre 100. Estimador de diferencia (72. Si no lo fuera así.86 . Conocemos C8=N=180 y C10=τ x = 13320 .97). 180 colocaremos las muestras de las variables X e Y en sus respectivas columnas y en la siguiente pantalla se lee la solución en las columnas de la estimación de la media. es claro que Y = valor intervenido y por tanto X = valor en el libro. Una encuesta de consumo fue realizada para determinar la razón de dinero gastado en alimentos sobre el ingreso por año.94) En el enunciado del ejercicio está indicado quien es cada variable. 75. filas 15 y 16.80 . escribiremos también C 9 = µ x = τx N = 13320 . 75. para las familias de una pequeña comunidad. Los datos de la muestra se presentan en la siguiente tabla: Familia Ingreso Total Gasto en alimentos 1 25100 3800 2 32200 5100 313 . utilizando la estrategia sugerida más arriba de que Y es la variable sobre la que se quiere hacer la estimación. 2. Solución: r = 0. La nota anterior sólo es aplicable para estimar la razón r. C9=PROMEDIO(C22:C100).3 29600 4200 4 35000 6200 5 34400 5800 6 26500 4100 7 28700 3900 8 28200 3600 Estime la razón poblacional. escribiremos la media muestral de X ( x=promedio(C22:C100) ) en la celda C9. 314 . pues si utilizamos x en lugar de µ x cuando queremos estimar la media de la variable Y mediante un estimador de razón. Sin embargo. es decir. B = 0. es decir.1531. y establezca un límite para el error de estimación. por cualquiera de los tres métodos. Si en el ejercicio 1 hacemos B22=PROMEDIO(D22:D100)= y y en C9=PROMEDIO(C22:C100)= x se observa que µ y = µ yL = µ yD = y (D12=F12=H12=B22) Necesitamos conocer el valor de µ x (C9) y τ x (C10) cuando se quiere estimar la media o el total. no es necesario el valor de µ x para estimar la razón R. obtendríamos que µ y = µ yL = µ yD = y . 0118 NOTA: Como no se conoce la media poblacional de X. aunque si es preciso al menos estimarla con x si queremos obtener la cota del error de estimación asociado. estimaríamos la media de la variable Y sólo mediante su media muestral y no estaríamos utilizando información auxiliar alguna. Al no conocer µx en este ejemplo. regresión o diferencia. debemos estimarla por su media muestral. En cuanto a la nota sobre no usar x en lugar de µ x cuando estimemos la media de Y. Y = gasto en alimentos. X = ingreso total. se aclara con la siguiente pantalla. 315 . Por tanto.Para identificar las variables X e Y recordemos que la razón se define como el cociente del total de Y sobre el total de X. en este ejemplo donde se quiere estimar la razón o proporción de dinero gastado en alimentos en relación al ingreso total por año. Hemos escrito en C9 la media muestral de X x =promedio(C22:C100) en lugar de la media ( ) τ 13320   poblacional de X  µ x = x =  . 316 . Se ha calculado en B22 la media muestral de Y N 180   ( y =promedio(D22:D100) ) para comprobar que si se utiliza x en lugar de µ . sencillamente por y . mediante los tres métodos. la media de Y se x estimaría. Use los datos de la tabla siguiente para estimar la proporción a favor de la nueva política.37% 317 . La gerencia de una compañía privada está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión. bajo determinadas condiciones (muy generales). Debido a esto. 1.PRÁCTICA 5 Muestreo Sistemático. se comporta como el muestreo aleatorio simple e incluso en ocasiones proporciona estimadores con menor error de estimación. y establezca un límite para el error de estimación.000 empleados. Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo en particular. El muestreo sistemático. utilizaremos la plantilla del muestreo aleatorio simple en poblaciones finitas para resolver los problemas de muestreo sistemático. tras razonar que nos encontramos bajo esas condiciones. Suponga que hay un total de 2. Empleado Respuesta muestreado 3 1 13 0 23 1 1993 200 i =1 1 ∑ y i = 132 Solución: p sy = 66% B = 6. pero no obtenemos directamente el valor de k que es sólo característico del muestreo sistemático. en la celda E18 (326. ∑ y i = 132 .2). B 22 = N E8 = = 6. Sería suficiente con tomar una muestra sistemática de 1-en-6 donde n = 2000 = 333.3 ≈ 333 o 334 . determine el tamaño de muestra requerido para estimar p. con un límite para el error de estimación del 4.13 ) y n E18 quedándonos con la parte entera (6) o hallando directamente la parte entera de dicho cociente N  E8  como se ha hecho en B 23 = ENTERO   = ENTERO  =6 n  E18  318 .8%). El tamaño muestral se obtiene dividiendo el tamaño poblacional N=2000 entre 10 (muestra sistemática de 1 en 10) o sencillamente observando el índice superior de la sumatoria ∑ y i = 132 . i =1 200 2. 6 La hoja del muestreo aleatorio simple en poblaciones finitas nos da el tamaño muestral necesario. introduciremos i =1 200 132   directamente la estimación de p en E10  p =  y el tamaño muestral en E9 (para lo que es 200   preciso desproteger primero la hoja). Con los datos del ejercicio anterior. El valor de k se puede obtener fácilmente calculando en cualquier celda en blanco el cociente entre el tamaño poblacional y el tamaño muestral (por ejemplo. para que la estimación de p no supere la cota B=0.Dado que no conocemos explícitamente los 200 valores de la muestra (y aunque se conocieran sería largo escribirlos) pero si conocemos la suma de ellos.048 (4.8%. ¿Qué tipo de muestra sistemática deberá obtenerse? Solución: n = 326. 2 ≈ 327 . 319 . (C9-C10)*C17/(C10*C9*(C11^2)). pero si no se conoce lo estimaremos mediante m = C11 N n M (tamaño medio de los conglomerados de la muestra). si conocemos M = C8 (tamaños medio de todos los conglomerados de la población) C9 1 N − n Sc2 se hará según V ( y ) = 2 . En esta plantilla utilizamos la función condicional SI para el cálculo de expresiones que tienen diferentes formas (o sencillamente no se pueden calcular) dependiendo de la información que tengamos.PRÁCTICA 6 Muestreo por Conglomerados.(C9-C10)*C17/(C10*C9*((C8/C9)^2))) 320 . Observe que las dos acciones son iguales salvo esta diferencia que hemos subrayado. acción si la condición es falsa) la hemos usado de la siguiente forma: en C13 para calcular la varianza del estimador de la media. Así. =SI(C8="". en la condición preguntamos si la celda C8 está vacía (si es igual a: abrimos y cerramos comillas sin escribir nada entre ellas) en cuyo caso no es conocido M = C8 y utilizaremos m = C11 (acción si la condición de no C9 C8 cuando C8 contenga el valor de M. acción si la condición es cierta. no esté vacía (acción cuando la condición de C8 vacía sea falsa). La función condicional SI cuya forma general es: =SI(condición. C9 conocer M es cierta) y utilizaremos el valor de M = es decir. La anterior pantalla recoge una situación donde la correlación es débil (los mayores tamaños de los conglomerados no están asociados con los mayores totales.(C9*C17)/(C17+(C9*((C18*C11/2)^2))). mayor que el obtenido en la columna E. 188218. donde M=1500. Obviamente. D15 y D16 el resto de valores asociados a dicha estimación) D12 ⇒ =SI(C8=””. Cuando esta correlación es fuerte el método de estimación del total en la columna D nos proporciona mejores estimaciones (con menor error de estimación). D14. 321 .En C19.44.C12*C8) En la anterior pantalla. columna D) o sin utilizar dicha información (columna E). aparecen los valores para la estimación del total cuando M es conocido.(C9*C17)/(C17+(C9*((C18*(C8/C9)/2)^2)))) En la parte inferior izquierda se ha calculado el coeficiente de correlación lineal entre los tamaños de los conglomerados y los totales por conglomerado para justificar la conveniencia de estimar el total considerando el tamaño de los conglomerados (TOTAL(M conocido). para la determinación del tamaño muestral. se ha hecho igual que en C13.94. ni los menores con los menores) y como puede verse el método de estimación del total en la columna D tiene un error asociado. sin embargo. en la siguiente donde C8 está en blanco (desconocemos el tamaño de la población) dichas celdas están vacías. éstas no pueden calcularse cuando M es desconocido. 184099.””. =SI(C8="". cuando no podamos estimar el total por ambos métodos. todos estos comentarios sobran. En este caso la acción cuando la condición (no conocemos M=C8) es cierta es que no se calcula nada (escribimos para dejar la celda vacía: abrir y cerrar comillas sin nada entre ellas) y si conocemos M=C8 (la condición es falsa) la acción es el cálculo de la correspondiente expresión (en D12 la estimación del total y en D13. Lógicamente. También se ha utilizado la función SI en las expresiones de la estimación del total cuando M es conocido (columna D). d) Suponiendo que los datos de la tabla representan una muestra previa. b) Con un intervalo de confianza estime el número de hogares interesados en contratar dicho sistema. Los datos de la encuesta se encuentran en la tabla: Manzana Nº hogares en la manzana Nº hogares interesados 1 8 2 2 7 2 3 9 3 4 6 3 5 5 3 a) Estime la proporción de hogares interesados en contratar el sistema de televisión digital. En una pequeña ciudad se quiere estimar la proporción de hogares interesados en contratar el sistema de televisión digital.1. 322 . Se extrae una muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estaría interesada en contratar la televisión digital. para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. cómo debe tomarse una nueva muestra para estimar la proporción poblacional del apartado a) con un límite para el error de estimación del 1%. c) Responda al apartado b) suponiendo que el número de hogares en la ciudad es 1500. Calcule el límite para el error de estimación. 718. columna C. y el número de hogares que han mostrado interés. yi .Solución: a) p = 37. así como la varianza del estimador D13=E13=2340 y el límite para el error de estimación D14=E14=96. pero no sabemos el número de elementos en la población.25 . mi = 7 ∀i ).14% B = 11.75) c) (396. 616. 323 . El máximo error que se quiere cometer al estimar la media (proporción en este caso) lo escribiremos en tanto por uno en C18=0. Conocemos el número de manzanas o conglomerados en la población. En el muestreo por conglomerados no se distingue entre variables numéricas y variables dicotómicas. bien sumando valores numéricos o los ceros y unos de las variables dicotómicas. al apartado b en E15 y E16 y al apartado d en C19.12) d) n = 154. N=200.01. Observe como coinciden las dos estimaciones ) D12=E12=520. supongamos conocido M = 200 × 7 = 1400 y estime el total por los dos métodos estudiados (τ = M y τ t = N y t . Se sustituyen los valores del número de hogares en la manzana en el tamaño o número de elementos en el conglomerado.16 .5% b) (423. en el total o suma por conglomerado de la columna D. respuesta igual a 1. 4 ≈ 155 NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo.75. y posteriormente sumado para cada manzana o conglomerado. se calcula de igual forma. Las respuestas: al apartado a se lee en C12 y C14. En este ejercicio estamos ante un ejemplo de variable dicotómica donde las respuestas interesado y no interesado se han codificado como 1 y 0. En ambos casos el total por conglomerado. M. No obstante. B27=0.083. Lo anterior puede justificarse en base a la débil relación entre los tamaños y totales de los conglomerados. 324 .98 y E14=96. Al sustituir dicho valor en C8 se calculan las expresiones para la estimación del total cuando M es conocido.En el apartado c se supone conocido M=1500. columna D.75. esta estimación es peor que la obtenida en el apartado b como muestra la cota del error de estimación en D14=160. Los 4000 hogares están agrupados en 400 edificios. cuántos edificios debe 325 Periódicos comprados cada semana por familia 1 2 1 3 3 2 1 4 1 1 1 3 2 2 4 4 1 1 2 2 1 1 1 1 3 2 1 2 1 1 1 1 3 2 1 5 3 3 la encuesta piloto el número medio de periódicos comprados cada semana por las familias de la localidad y el error de estimación . El gerente de un periódico desea estimar el número medio de ejemplares comprados cada semana por una familia de una localidad. 2. obteniéndose los siguientes resultados: Edificio 1 2 3 4 a) Estime con asociado.En la siguiente pantalla se comprueba la propiedad. usando los datos de la encuesta piloto. de coincidencia de las dos estimaciones del total cuando todos los conglomerados son de igual tamaño. b) Determine. que se recuerda en la nota. Se tiene una encuesta piloto en la cual se seleccionó una muestra de 4 edificios y se entrevistaron a todas las familias de estos edificios. 20 unidades.. pueden hacerse fácilmente editando el contenido de las celdas D23 y siguientes. y hallar la suma de las observaciones en cada uno de ellos.. habrá que contar el número de elementos en cada conglomerado. correcciones de errores.. 326 .tener la nueva muestra si se quiere estimar el número medio de periódicos comprados cada semana por familia.95 B = 0. . con un error de estimación inferior a 0. Para obtener el número de observaciones en cada edificio o conglomerado contaremos el número de familias que se han observado en cada edificio.. . 21 ≈ 16 En este ejemplo de muestreo por conglomerados nos dan explícitamente las observaciones individuales de la muestra. 40 b) n = 15. 10 en el primero. Para calcular los totales yi podemos hacerlo como se indica en la siguiente pantalla. de forma que posteriores comprobaciones. yi . Solución: a) y = 1. mi . el número de ardillas que viven en el parque. Las cuatro técnicas que se incluyen en esta práctica tienen elementos comunes como los correspondientes a la estimación del tamaño de la población y otros. obteniéndose los resultados de la tabla: 327 . 76) 3. Estime. Con este dato se puede conocer la cuantía de medios materiales y humanos (policía. 1. personal sanitario. Solución: N = 120 B = 92. Estímese el número de avutardas que viven en la región y la precisión del estimador usado. Para estimar el número de aficionados se toma una fotografía aérea de la zona ocupada por éstos. 24 .250. usando un intervalo con el 95% de confianza. Solución: (149.…. tras lo cual se traza sobre ella una cuadrícula que divide el área total en 300 cuadros de 10 metros de lado cada uno. como la estimación de la densidad. La policía de Madrid está interesada en conocer el número de aficionados que se reunieron en torno a la fuente de Neptuno para celebrar el triunfo de su equipo. 1. Se desea estimar la población de ardillas en un parque. Se han marcado en negro las celdas cuyos valores o expresiones no se utilizan en alguna de las técnicas.PRÁCTICA 7 Estimación del tamaño de la población. específicos de algunas de ellas. por último se cuenta el número de aficionados que hay en cada uno de los cuadros seleccionados. Posteriormente se numeran y se extrae una muestra aleatoria de 20 de estos cuadros. Se toma una segunda muestra hasta que se consigue encontrar 5 marcadas. protección civil.) necesaria para atender futuras concentraciones. En una segunda muestra de 20 avutardas se observaron 5 marcadas. etc.95 2. Para ello se capturan 30 avutardas que se devuelven marcadas a la población. para lo cual fue necesario capturar 70 de ellas. Se desea estimar la población de avutardas en determinada región. Para ello se capturan 50 ardillas que se devuelven al parque marcadas. 887. no circuló por el punto en cuestión ningún autobús. Se desea estimar el número total de autobuses que. ˆ Solución: M = 86.Nº del cuadro 1 2 3 4 5 6 7 8 9 10 confianza. En 18 ocasiones. Solución: a) λ = 2.16 aficionados m 2 (2.860 aficionados 4. de 10 minutos cada uno. La observación se realiza mediante 40 intervalos.832. de las cuarenta que se estableció el control. 66. Estimar el número total de autobuses que circularon entre las 6 y las 24 horas. En el primer y segundo ejercicios sólo tenemos que identificar si se trata de muestreo directo o inverso (dependiendo de si se ha fijado el tamaño de la segunda muestra o ésta se toma hasta conseguir un número de elementos marcados).8 Con estos cuatro ejemplos se ilustran las cuatro técnicas de estimación del total que estudiamos en este capítulo.1 . Número de aficionados Nº del cuadro en el cuadro 193 11 216 12 250 13 163 14 209 15 195 16 232 17 174 18 215 19 198 20 Número de aficionados en el cuadro 160 220 163 306 319 289 205 210 209 198 a) Estime la densidad de aficionados por metro cuadrado y obtenga su intervalo de b) Estime el número total de aficionados concentrados en la plaza de Neptuno y obtenga su intervalo de confianza. circulan por un determinado punto kilométrico de una carretera. 328 . Es claro que el primer ejercicio se trata de un caso de muestreo directo y el segundo de muestreo inverso. 2. entre las 6 y las 24 horas del domingo. 29 . Dar un límite de error de estimación.71) b) M = 64. repartidos a lo largo del periodo en estudio. 23) (62. 24 B = 37. sumando los elementos observados en los 20 cuadros (como indica la i =1 n flecha en la anterior pantalla). El área total se calcula multiplicando 300 cuadros por el área de cada uno (10x10). y los cuadros sin elementos o cuadros no cargados. m = ∑ mi . Hay que tener cuidado en escribir el tamaño del área total y de cada cuadro en la misma unidad de medida. y el número total de elementos observados en la muestra. cuadros cargados. 1080=(24-6)*60. En este ejemplo las 18 horas (desde las 6h hasta las 24h) en que se quieren estimar los autobuses que circulan por un lugar se han expresado en minutos. 329 . El ejercicio 3 trata de un muestreo por cuadros: conocemos y es importante el número de elementos observados en cada cuadro de la muestra. donde no es importante el número de elementos en cada cuadro puesto que éste es en general cero o uno y muy raras veces mayor a uno. al igual que los intervalos de tiempo controlados. El último ejercicio es un caso de muestreo por cuadros cargados.En el muestreo por cuadros y por cuadros cargados se puede considerar una población en una superficie (ejercicio 3) o en un espacio temporal (ejercicio 4). En este caso los cuadros en el espacio temporal son sencillamente intervalos de tiempo. Así sólo contaremos los cuadros con elementos (uno o más). sólo hay que escribir los datos del problema en las celdas grises (como siempre. (ejercicio 3. 1. Las diferencias entre los valores obtenidos a mano y con la hoja de cálculo son debidas sólo a errores de redondeo en las operaciones.1152 ln N i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtienen a pie de tabla el T = ln N + ∑ xi ln xi = 0. Solución: T = 0.7 del capítulo 8 del mismo nombre. N 330 . relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga el índice de concentración de Theil e interprete su valor. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja).PRÁCTICA 8 Indicadores estadísticos regionales En las plantillas de la hoja “Indicadores estadísticos regionales” se encuentran resueltos los ejemplos 8.1 a 8.1597 IT = ITHEIL = coeficiente e índice de Theil. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. se sugiere borrar el contenido de todas estas celdas antes de resolver un nuevo problema para evitar trabajar por error con otros datos). 3. 331 . 6865 = ∑ di = = 0. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país fue REGIONES PIB R1 80 R2 15 R3 100 R4 50 Obtenga la desigualdad colectiva e interprete su valor. Solución: 1 1 N 2. relación tema 8) En el año 2005 el PIB a precios de mercado en millones de euros en las 4 regiones de un determinado país y el número de oficinas bancarias fue REGIONES PIB OFICINAS R1 80 350 R2 15 70 R3 100 450 R4 50 250 Obtenga el índice de asociación geográfica de Florence del número de oficinas respecto al PIB e interprete su valor.2. (ejercicio 4. 6716 4 4 i =1 4 i =1 i =1 Sustituyendo los valores de PIB en la columna de la variable X se obtiene a pie de tabla la D = ∑ di f i = ∑ di N N desigualdad colectiva y en el margen derecho las desigualdades individuales. (ejercicio 5. Obsérvese que es indiferente permutar los valores de X e Y. 332 .97959 2 i =1 Sustituyendo los valores de PIB y número de oficinas en las variables X e Y se obtiene a pie Solución: F = 1 − de tabla el índice de asociación geográfica de Florence. obteniéndose el mismo resultado.1 N ∑ xi − yi = 0. En la siguiente pantalla se han cambiado los valores de X e Y en relación a como se resolvió este ejercicio al final del capítulo 8. en este ejemplo: “S2”. La observación de cómo se han resuelto a mano en dicho capítulo puede ayudar a comprender mejor cómo se ha construido esta hoja. 9. La hoja está preparada inicialmente para 10 sectores y 10 regiones pero puede fácilmente ampliarse a cualquier número de la siguiente forma: • • Se desprotege la hoja.3. Para resolver este tipo de problemas no es necesario modificar ninguna expresión (ni desproteger la hoja). copiaremos la columna D en la E).5 y 9. 9. sólo hay que escribir los datos del problema en las celdas grises de la tabla “DATOS” que aparece en la parte superior de la hoja. Entre las columnas de los sectores S1 y S10 se inserta una nueva columna (se marca la columna E y seleccionamos en el menú Insertar/Columnas).2. Así. tendremos que cambiar los datos y las etiquetas de la cabecera) 333 . • Se copia la columna de alguno de los 10 sectores iniciales en ésta (siguiendo la conocida secuencia marcar+copiar+pegar.PRÁCTICA 9 Medidas de localización espacial En las plantillas de la hoja “Medidas localización espacial” se encuentran resueltos los ejemplos 9.6 del capítulo 9 del mismo nombre. esta nueva columna ya tendrá todas las expresiones necesarias para los cálculos correspondientes (al copiar la columna se copian tanto las expresiones como los valores de la tabla “DATOS” y la cabecera. y copiaremos en la nueva fila alguna fila de las 10 regiones iniciales de esa tabla. Un procedimiento análogo nos permite ampliar la hoja para más de 10 regiones. el sector industrial está constituido fundamentalmente por los siguientes subsectores: Siderurgia. (ejercicio 4. En este caso se insertará una nueva fila (en cada una de las tablas) entre las regiones R1 y R10. dividido administrativamente en tres regiones. justificando y apoyando los comentarios en los datos del enunciado. El número de trabajadores ocupados en 1995 en los diferentes subsectores y regiones era (expresado en centenas de miles): Regiones I Siderurgia Químicas 15 30 II 10 20 III 6 12 Construcción 165 110 66 Alimentación 195 130 78 Calcule las diversas medidas de localización espacial e interprételas. Construcción. 334 . relación tema 9) En un país. Esto último también es aplicable a la práctica 8 para ampliar el número de regiones o grupos de regiones. Químicas y Alimentación. 1.• Repitiendo el mismo procedimiento se puede seguir ampliando la hoja para más de 11 sectores. 00 100.00 100.00 100.000 30.00 100.6178 0.6178 0. cambian si colocamos las regiones en los sectores y éstos en el lugar de las otras.49 0.000 90. es decir.49 0.00 100.000 65.000 14. relación tema 9) Se dispone de la siguiente información sobre número de ocupados para algunas Comunidades Autónomas clasificados según ciertas actividades: Energía Alimentos Industrial textil Andalucía 10. 2.00 100.00 Coeficientes de localización sectorial SECTOR S1 S2 S3 S4 CL j 0 0 0 0 Coeficientes de especialización regional REGION R1 R2 R3 Coeficientes de diversificación de cada región REGION R1 R2 R3 CEi 0 0 0 CDi 0.00 100. 335 . (ejercicio 3.000 a) Obtenga los coeficientes de localización de las distintas actividades.000 60.00 100.49 Colocaremos los datos en las celdas de la tabla DATOS teniendo cuidado en no confundir los sectores con las regiones pues las medidas que se obtienen no son simétricas en relación a los datos.000 Castilla La Mancha 3.00 100.Solución: Cocientes de localización y especialización Lij REGION R1 R2 R3 SECTOR S1 S2 S3 S4 100.000 18. Las distintas medidas de localización espacial pueden leerse en las tablas que hay bajo los DATOS.000 20.000 8.6178 CDi* 0.00 100.00 100.000 Cataluña 15.000 Castilla León 19. 047808 R3 0.234649 R4 0.1219 0. igual que antes. Solución: Coeficientes de localización sectorial SECTOR S1 S2 S3 CLj 0.192733 R2 0. se obtienen entre otros los coeficientes pedidos. 336 .b) Calcule los coeficientes de especialización para cada comunidad.170455 Colocando los datos del ejercicio en la tabla DATOS.2423 0.2197 Coeficientes de especialización regional REGION CEi R1 0. INTRODUCCIÓN El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a la realización de análisis estadísticos aplicados a las ciencias sociales.. Busque y seleccione el archivo que se desee abrir. seleccione en el menú principal: Archivo/Abrir/Datos. Por defecto. en la actualidad.sav. Para abrir un archivo de datos de este formato.INTRODUCCIÓN AL SPSS 1.Editor de datos”).. Introducir los datos en SPSS. Nosotros utilizaremos solo el módulo SPSS base. SPSS dará una relación de los archivos en su directorio con extensión *. Además de los archivos con este formato. el paquete estadístico con más difusión a nivel mundial.PASOS BÁSICOS EN EL ANÁLISIS 1.3.sav. Los archivos de datos con formato SPSS tienen extensión *.1. Con más de 30 años de existencia es. Es posible: o o Abrir un archivo creado anteriormente o Introducir nuevos datos (se verá más adelante en “1. 1. El SPSS implementa una gran variedad de temas estadísticos en los distintos módulos del programa. Para una mejor exposición de los mismos puede consultarse la “Guía breve de SPSS” o el “Tutorial” en el menú de ayudas (?) – muy recomendable esta última opción. En los siguientes apartados se hace una breve introducción a los conceptos básicos de este programa. SPSS puede abrir 337 . que permite especificar si se incluyen los nombres de las variables en la primera fila de la hoja de cálculo ( Leer nombres de variables de la primera fila de datos). Si los encabezados de las columnas no cumplen las normas de denominación de variables de SPSS. dBASE. 338 .… sin necesidad de convertirlos a un formato intermedio ni de introducir información sobre la definición de los datos.-Editor de datos”). Para ello elija en los menús: Archivo/Abrir/Datos y seleccione Excel(*. En Excel 5 o posterior.3. LOTUS 1-2-3. aparecerá el cuadro de diálogo Apertura de origen de datos de Excel. Desde aplicaciones como Microsoft Excel también puede leer los encabezados de las columnas como nombres de variables.xls) en la lista desplegable Tipo Tras seleccionar el fichero Excel que queremos abrir.archivos de EXCEL. también se pueden especificar la “Hoja de trabajo” que se desea importar. así como las casillas que se desean importar (Rango). se convertirán en nombres de variables válidos y los encabezados originales de las columnas se guardarán como etiquetas de variable (véase más adelante en “1. 339 . Seleccionar un procedimiento estadístico para analizar los datos con el sistema de menús.2.spo. Ejecutar el procedimiento y ver resultados. Seleccionar las variables para el análisis. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos de extensión *. 4. Las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo del que se seleccionan. Los gráficos se pueden modificar en la ventana del editor de gráficos. 3. Muestra el icono de SPSS. se pueden crear nuevos archivos o modificar los ya existentes. utilizaremos dos: • Editor de datos. Además de las distintas ventanas. Es la ventana que se abre automáticamente cuando se inicia una sesión de SPSS.ENTORNO DE TRABAJO Existen diversos tipos de ventanas en SPSS. principalmente.2. existen un conjunto de elementos. Todas las tablas. maximizar y cerrar ventana. • Visor de resultados. 340 . comunes a todas ellas que configuran la apariencia general del SPSS: • Barra de títulos..1. Con él. sigue con el nombre del fichero que estamos utilizando y el nombre de la ventana activa y termina con los botones de minimizar. Muestra el contenido del archivo de datos actual. gráficos y los resultados estadísticos se muestran en el visor. Puede editar resultados y guardarlos. Esta ventana se abre automáticamente la primera vez que se ejecuta un procedimiento. Nosotros. A diferencia de una hoja de cálculo. El significado de cada icono puede verse situando el ratón sobre el propio icono.3.- - Abrir archivo de datos “Datos de empleados. Las funciones de la vista de datos son similares a las que se encuentran en aplicaciones de hojas de cálculo. Las columnas son características de las variables. Suministra información sobre el estado en que se encuentra SPSS. Las casillas contienen valores numéricos o de cadena. las casillas del editor de datos no pueden contener fórmulas. Recoge las denominaciones de los menús de SPSS a través de los cuales se pueden ejecutar todos los posibles comandos que proporciona el paquete. • Barra de estado. Aquí: o o Las filas son variables. Analizar/ Estadísticos Descriptivos/ Descriptivos con la variable “Salario Actual” 1. existen algunas diferencias: o o o Cada fila representa un caso u observación (atención en ejercicio 1).EDITOR DE DATOS El editor de datos proporciona dos vistas: • Vista de datos. • Vista de variables. Proporciona un acceso rápido y fácil a las tareas más comunes de cada ventana de SPSS.. 341 . sin embargo. Contiene descripciones de los atributos de cada variable del archivo de datos.• Barra de menús. Las columnas son variables.sav” Realizar el procedimiento: Realizar lo mismo con la variable “Meses desde el contrato”. • Barra de herramientas. Muestra los valores de datos reales o las etiquetas de valor definidas. Ejemplo 1. sav”. Los demás caracteres pueden ser letras.Pasos básicos en el análisis”) o crear un nuevo archivo. inglés. francés. • • • 342 .1. puntos o los símbolos @. Para definir una variable se pueden seguir dos procedimientos: • • En vista de datos. La longitud del nombre no debe exceder los 64 bytes. alemán. Una vez que nos encontramos en la ventana “Editor de datos” podemos abrir un archivo de datos creado con anterioridad (como vimos en “1.Abrir “vista de datos” y “vista de variables” en el archivo de datos: “Datos de Empleados.Ejemplo 2. español. Los nombres de variable no pueden terminar en punto. dígitos. _ o $.. En el caso en que queramos crear un archivo de datos nuevo. 64 bytes suelen equivaler a 64 caracteres en idiomas de un solo byte (por ejemplo. Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las variables creadas automáticamente por algunos procedimientos). el primer paso es el de definir las variables que formarán el archivo.. Normalmente. haciendo doble clic con el botón izquierdo del ratón cuando el puntero del mismo se encuentra situado en la palabra var del extremo superior de la columna o Pulsando en la pestaña de vista de variables y escribiendo las especificaciones de la variable cuyos datos vamos a introducir según las indicaciones que siguen: Para la especificación del nombre de las variables se debe tener en cuenta: • El nombre debe comenzar por una letra. #. Se puede utilizar Tipo de variable para cambiar el tipo de datos. esta distinción entre mayúsculas y minúsculas se conserva en lo que se refiere a la presentación. ’ y *). TO. • • • No se pueden utilizar espacios en blanco ni caracteres especiales (por ejemplo. El Editor de datos acepta valores numéricos en formato estándar o en notación científica. AND. simplemente puede seleccionar un formato de una lista desplegable de ejemplos. Los tipos de datos disponibles son los siguientes: • Numérico. El contenido del cuadro de diálogo Tipo de variable depende del tipo de datos seleccionado. GE. LT. Por defecto se asume que todas las variables nuevas son numéricas. Los nombres de variable se pueden definir combinando de cualquier manera caracteres en mayúsculas y en minúsculas. OR. Los tipos más usuales son numérico y cadena. los puntos y los cambios de minúsculas a mayúsculas. o bien en notación científica. Las palabras reservadas son: ALL. Los valores se muestran en formato numérico estándar. chino. SPSS intenta dividir las líneas aprovechando los subrayados. EQ. BY. Los valores no pueden contener comas a la derecha del indicador decimal. El Editor de datos acepta valores numéricos para este tipo de variables con o sin comas. • Coma. Una vez que se haya determinado el nombre de la variable. hebreo. Una variable numérica cuyos valores se muestran con comas que delimitan cada tres posiciones y con el punto como delimitador decimal. Para algunos tipos de datos. NE. GT. Cada nombre de variable debe ser único. WITH. Si se pulsa el botón tipo y luego los puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. tailandés) y a 32 caracteres en los idiomas de dos bytes (por ejemplo. árabe. hay cuadros de texto para la anchura y el número de decimales. para otros tipos de datos. NOT. • • Cuando es necesario dividir los nombres largos de variable en varias líneas en los resultados. Las palabras reservadas no se pueden utilizar como nombres de variable. Especifica el tipo de datos que contiene la variable. ?. japonés. no se permiten duplicados. !. hay que definir sus especificaciones: • Tipo. 343 . griego.italiano. Tipo de variable especifica los tipos de datos de cada variable. LE. Una variable cuyos valores son números. ruso. coreano). puntos. • Moneda personalizada. 1.23+2). Seleccione un formato de la lista.• Punto. seleccione Opciones y. o bien sólo por el signo (por ejemplo. Una variable numérica que se muestra con un signo dólar inicial ($). • Dólar. 344 . • Fecha. Una variable numérica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. El exponente puede aparecer precedido por una E o una D con un signo opcional. Los caracteres definidos en la moneda personalizada no se pueden emplear en la introducción de datos pero sí se mostrarán en el Editor de datos.23E+2 y 1. El Editor de datos acepta valores numéricos para este tipo de variables con o sin puntos. Una variable numérica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. o bien en notación científica. El rango de siglo para los valores de año de dos dígitos está determinado por la configuración de las opciones (en el menú Edición. comas o espacios. 123. Una variable numérica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaña Moneda del cuadro de diálogo Edición/Opciones. comas que delimitan cada tres posiciones y un punto como delimitador decimal. 1. 1. Una variable numérica cuyos valores se muestran con puntos que delimitan cada tres posiciones y con la coma como delimitador decimal. pulse en la pestaña Datos). guiones. a continuación.23E2. Los valores no pueden contener puntos a la derecha del indicador decimal. Se pueden introducir valores de datos con o sin el signo dólar inicial. • Notación científica. Puede introducir las fechas utilizando como delimitadores: barras. El Editor de datos acepta para estas variables valores numéricos con o sin el exponente.23D2. • ordinal. • Nivel de medida. Las mayúsculas y las minúsculas se consideran diferentes. el código postal o la confesión religiosa. Son ejemplos de variables de escala: la edad en años y los ingresos en dólares. Este tipo también se conoce como variable alfanumérica. 345 . Por norma general. en una variable de cadena cuyos valores sean bajo. el departamento de la compañía en el que trabaja un empleado. se asume que el orden alfabético de los valores de cadena indica el orden correcto de las categorías. medio. • escala. Los datos nominales y ordinales pueden ser de cadena (alfanuméricos) o numéricos. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfacción o confianza y las puntuaciones de evaluación de la preferencia.• Cadena. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. por lo que son adecuadas las comparaciones de distancia entre valores. Por ejemplo. • nominal. Ordinal o Nominal. se interpreta el orden de las categorías como alto. Por ejemplo los niveles de satisfacción con un servicio. Una variable cuyos valores no son numéricos y. Número de dígitos de los valores de esa variable. por lo tanto. • Anchura. Los valores pueden contener cualquier carácter siempre que no se exceda la longitud definida. Una variable puede ser tratada como de escala cuando sus valores representan categorías ordenadas con una métrica con significado. Por ejemplo. no se utilizan en los cálculos. se puede indicar que es más fiable utilizar códigos numéricos para representar datos ordinales. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca. Son ejemplos de variables nominales: la región. que vayan desde muy insatisfecho hasta muy satisfecho. bajo. Nota: Para variables de cadena ordinales. alto. medio (orden que no es el correcto). Puede especificar el nivel de medida como Escala (datos numéricos de una escala de intervalo o de razón). Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud (128 caracteres en los idiomas de doble byte).• Columnas. • Etiqueta. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. No es necesario volver a definir las etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el usuario cada vez que se abre un archivo de datos. un rango de valores perdidos o un rango más un valor de tipo discreto. Valores perdidos define los valores de los datos definidos como perdidos por el usuario. Los anchos de columna también se pueden cambiar en la Vista de datos pulsando y arrastrando los bordes de las columnas. • Decimales. Las etiquetas de valor no están disponibles para las variables de cadena larga (variables de cadena de más de 8 caracteres). es posible que quiera distinguir los datos perdidos porque un encuestado se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado. • Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto. • Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el archivo de datos. Los formatos de columna afectan sólo a la presentación de valores en el Editor de datos. • Perdidos. Se puede especificar un número de caracteres para el ancho de la columna. Nº de decimales de los datos. Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayoría de los cálculos. 346 . Anchura de las columnas. códigos 1 y 2 para hombre y mujer). Las etiquetas de valor pueden ocupar hasta 120 bytes. Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable. Por ejemplo. Si el ancho real y definido de un valor es más ancho que la columna. aparecerán asteriscos (*) en la ventana Vista de datos. • Valores. Al cambiar el ancho de columna no se cambia el ancho definido de una variable. Este proceso es especialmente útil si el archivo de datos utiliza códigos numéricos para representar categorías que no son numéricas (por ejemplo. pulsando ENTER o moviéndonos con el cursor. Si queremos mover una variable que está entre otras dos. Seleccionar en la vista de datos. Alineación de los datos (Izquierda. • Insertar una nueva variable entre las variables existentes. derecha o centro) Una vez definidas las variables. Se considera que son válidos todos los valores de cadena. en la vista de datos.• • Sólo pueden especificarse rangos para las variables numéricas. a no ser que se definan explícitamente como perdidos. También podemos modificar datos ya creados: • Insertar un nuevo caso entre los casos existentes. cualquier casilla debajo de la posición donde se desea insertar el nuevo caso y Elija en la barra de menús: Datos/Insertar Caso o El correspondiente botón de la barra de herramientas o Con el botón derecho del ratón elija Insertar caso. No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de más de ocho caracteres). escriba un espacio en blanco en uno de los campos debajo de la selección Valores perdidos discretos. podemos insertar un nueva variable en el lugar donde la queramos copiar. 347 . para la introducción de los datos (en la pestaña vista de datos) habrá que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos valores. incluidos los valores vacíos o nulos. luego cortar de donde estaba y por último pegar en la nueva variable insertada. • • Alineación. una casilla de la variable a la derecha de la posición donde se desea insertar la nueva variable y Elegir los menús: Datos/Insertar variable o El correspondiente botón de la barra de herramientas o Con el botón derecho del ratón elija Insertar variable • Mover variables. Para definir como perdidos los valores nulos o vacíos de una variable de cadena. Seleccionar en la vista de datos. Para guardar un archivo de datos creado tendremos que seleccionar en la barra de menús Archivo/Guardar como. En el caso de que se trate de cambios en un archivo que ya ha sido guardado con anterioridad. Nos aparecerá un cuadro de diálogo en el cual debemos indicar el nombre del archivo y el lugar donde queremos guardarlo. 348 . solo tendremos que seleccionar Archivo/Guardar o con el correspondiente botón de la barra de herramientas y el archivo se guardará con el mismo nombre y ubicación que tenía con anterioridad. Seleccionar previamente en la vista de datos las filas.• Borrar algún caso o variable. • Ir a un caso en el editor de datos. Elegir en la barra de menús: Edición/Ir al caso e introducir el número de fila o con el correspondiente botón de la barra de herramientas. las columnas o el área a borrar y pulsar SUPR o Edición/Borrar o con el botón derecho del ratón elegir Eliminar. definiendo las variables de forma adecuada. b. 1 5 1 1 2 1 1 2 1 2 2 1 1 1 32 32 42 55 37 61 48 43 50 80 61 49 30 21 37 34 2. Crear un archivo de datos con el nombre Representantes. en el que debes incluir los datos de la tabla anterior. La siguiente tabla nos muestra los datos de los representantes de 16 empresas: SEXO REGION DE PROCEDENCIA Andalucía (1) Cataluña (2) Madrid (3) País Valenciano (4) Galicia (5) Cataluña (2) País Vasco (6) Andalucía (1) Madrid (3) Andalucía (1) País Vasco (6) Madrid (3) Galicia (5) Cataluña (2) Andalucía (1) Galicia (5) MESES COMO REPRESENTANTE 60 72 48 36 60 24 36 48 84 84 48 36 24 12 16 10 INGRESOS MENSUALES en € 1950 1235 2251 3581 1500 2500 5890 3510 2456 2474 3000 2958 1354 1100 3581 2456 Hombre Mujer Mujer Hombre Mujer Mujer Hombre Hombre Hombre Mujer Hombre Mujer Mujer Hombre Hombre Hombre Se pide: a. La siguiente tabla nos muestra la edad de 16 clientes que compraron un determinado producto en una semana determinada.sav b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores Hombres 1 Mujeres 1 Sitúala entre las variables anteriores. hombre. Crea un archivo con la definición anterior de las variables y los datos y guárdalo con el nombre Edad. mujer). 2. Los datos son los siguientes: Hombres Mujeres Se pide: a. La variable edad es cuantitativa y mostramos sus valores. 349 . la variable sexo es cualitativa y utilizamos una variable numérica (escala nominal: 1. Inserta una nueva variable que será el estado civil de los representantes con los siguientes valores.EJERCICIOS 1. sav SALARIOS 0-700 700-1000 1000-1500 1500-3000 más de 3000 EMPLEADOS 40 120 250 90 50 Nota: Introducir los valores de los salarios con códigos numéricos (por ejemplo. Crear un archivo con los siguientes datos y llamarlo salarios.soltero soltero casado soltero divorciado casado casado casado soltero soltero viudo casado casado casado soltero soltero c. Inserta un nuevo caso entre los existentes con estos valores: SEXO REGION DE PROCEDENCIA Cataluña MESES COMO INGRESOS ESTADO CIVIL REPRESENTANTE MENSUALES en € 48 1500 divorciado Hombre d. 1 a 5) y en Vista de variables en la columna Valores etiquetarlos como “0-700”. Seleccionaremos en la barra de menús Datos/Ponderar casos… marcando en la ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderación (variable que contiene los valores de las frecuencias) de la lista de variables del fichero. 3. 350 .… Cuando se introducen las frecuencias de las observaciones de una variable hay que indicárselo al SPSS. Otra opción es seleccionar el correspondiente icono de la barra de herramientas que representa a una balanza. Obtenga el número medio de meses como representante y los valores máximo. mínimo y mediano de los ingresos. La hipótesis nula de bondad de ajuste se pone a prueba utilizando un estadístico que compara las frecuencias observadas (las obtenidas en la muestra) con las frecuencias esperadas (teóricas según la hipótesis nula). Los valores no incluidos en esos límites se excluyen del análisis. La lista de variables del archivo de datos ofrece un listado de todas las variables. Cada valor distinto de la variable se considera una categoría para el análisis.CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE El contraste Chi-cuadrado para una muestra permite averiguar si la distribución empírica de una variable categórica (o numérica) se ajusta o no a una determinada distribución teórica. En el caso de que haya frecuencias esperadas menores que 5 se procederá a agrupar modalidades semejantes. para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada (véase ejemplo 3).. Si se selecciona más de una variable. CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE 3. RECUADRO RANGO ESPERADO. Usar rango especificado. aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5.CONTRASTE CHI-CUADRADO DE BONDAD DE AJUSTE 2. Para obtener la prueba Chi-Cuadrado hay que seleccionar Analizar/Pruebas no paramétricas/Chi-cuadrado. En esta ventana es posible decidir qué rango de valores deben tenerse en cuenta en el análisis: Obtener de los datos. 351 . CONTRASTE DE LAS RACHAS 1.PRÁCTICA 10 Contrastes no paramétricos para una muestra (SPSS) 1. Para contrastar la hipótesis de bondad de ajuste referida a una variable hay que trasladar esa variable a la lista Contrastar variables. el SPSS da por valido el test siempre y cuando el número de frecuencias esperadas menores de 5 no superen el 20% del total de frecuencias esperadas. La condición para que el test sea válido es que las frecuencias esperadas en todas las categorías sean mayores que 5. Solo se tienen en cuenta los valores comprendidos entre los límites especificados en los cuadros de texto Inferior y Superior. el SPSS ofrece tantos contrastes como variables.. Las frecuencias esperadas se obtienen dividiendo el número total de casos válidos entre el número de categorías de la variable. la media. pues la prueba de chi-cuadrado se utiliza generalmente con variables categóricas (no numéricas). Los valores que se introducen pueden ser porcentajes. Permite obtener algunos estadísticos descriptivos y decidir qué tratamiento se desea dar a los valores perdidos. Valores perdidos. Ejemplo 1 (Ejercicio 1. probabilidades. En base a una muestra aleatoria de cuatro semanas 352 . Ofrece los centiles 25. 50 y 75. Es la opción por defecto. el orden es el de los valores numéricos.RECUADRO VALORES ESPERADOS. frecuencias relativas o frecuencias absolutas. Las opciones de este recuadro sirven para hacer explícitas las frecuencias esperadas con las que se desean comparar las observadas: Todas las categorías iguales. Hay que señalar que estos estadísticos no siempre tendrán sentido. Estadísticos. Si se ha introducido como un variable de cadena (alfanumérica) el orden es el alfabético. Valores. el valor mínimo y el valor máximo. Ofrece el número de casos válidos. Las opciones de este recuadro permiten obtener algunos estadísticos descriptivos: o Descriptivos. o Cuartiles. El orden en el que se introducen los valores es muy importante. BOTÓN OPCIONES. Si se ha introducido como una variable numérica con etiquetas. Esta opción permite definir frecuencias esperadas concretas. Estas opciones permiten decidir qué tratamientos se desea dar a los valores perdidos en el caso de que se haya seleccionado más de una variable: o Excluir casos según prueba. relación Tema 10) El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentra distribuido de forma equitativa durante los cinco días de trabajo de la semana. la desviación típica. Se excluyen de cada contraste los casos con valor perdido en la variable que se está contrastando. o Excluir caso según lista. pues la secuencia introducida se hace corresponder con las categorías de la variable cuando éstas se encuentran ordenadas de forma ascendente. Se excluyen de todos los contrastes solicitados los casos con algún valor perdido en cualquiera de las variables seleccionadas. Para contrastar la hipótesis de bondad de ajuste con variables cuantitativas es preferible utilizar el contraste de Kolmogorov-Smirnov. sav (datos sin agrupar. no se encuentra distribuido de forma equitativa durante los días de trabajo de la semana?. ( α = 0. (FICHEROS DE DATOS: Ejercicio1_T10..sav (datos agrupados. con frecuencias)) NOTA: Cuando se utilicen ficheros con frecuencias se deberá indicar en que columna se encuentran éstas. después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias.completas de trabajo. sin frecuencias). se observaron los siguientes números de empleados que asistieron al consultorio: Lunes Martes Miércoles Jueves Viernes 49 35 32 39 45 ¿Existe alguna razón para creer que el número de empleados que asisten al consultorio médico... A continuación seleccionaremos Analizar/Pruebas no paramétricas/Chi-cuadrado 353 .05 ). Ejercicio1F_T10. seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos. Pulsaremos en Aceptar.0 354 .0 Residual 9.0 40.0 40.Seleccionaremos DiasSemana como la variable sobre la que se va a realizar el contraste (recordemos que la variable VisitasMedico contiene las frecuencias absolutas) y en Valores esperados marcaremos Todas las categorías iguales (aparece marcada por defecto).0 -1.0 40.0 5. obteniéndose en el visor de resultados lo que sigue: DiasSemana Lunes Martes Miércoles Jueves Viernes Total N observado 49 35 32 39 45 200 N esperado 40.0 -8.0 40.0 -5. Ejemplo 2 Una compañía de gas afirma.298 a 0 casillas (. Al final del invierno actual.Estadísticos de contraste DiasSemana Chicuadrado(a) gl Sig. 30 a cobrar en dos meses y 34 a cobrar en un periodo superior a los dos meses. resultando 287 de estas ya cobradas. que la experiencia de años anteriores se ha vuelto a repetir este invierno? (FICHERO DE DATOS: Ejemplo2F_T10.298) es mayor que α = 0. 6 y 4 (según el orden de los valores numéricos que se han utilizado para indicar cada categoría) 355 . basándose en experiencias anteriores. ¿Podemos concluir.05 . 49 cobradas a un mes. Dado que el p-valor (0. 4. con frecuencias)) Seguiremos un procedimiento análogo al del ejemplo 1 pero marcaremos en Valores esperados la opción Valores e introduciremos los porcentajes del modelo que indica el enunciado en el orden 80.0. un 6% se cobrará a dos meses y un 4% se cobrará a más de dos meses. se mantiene la hipótesis nula de que el número de visitas al consultorio médico se distribuye de forma equitativa de lunes a viernes.0%) tienen frecuencias esperadas menores que 5. la compañía selecciona una muestra aleatoria de 400 facturas.sav (datos agrupados. que al final del invierno el 80% de las facturas ya han sido cobradas. asintót. La frecuencia de casilla esperada mínima es 40. un 10% se cobraran con pago aplazado a un mes.900 4 . a raíz de los resultados. 10. 1. 7 ? (utilice el contraste χ 2 ) (FICHERO DE DATOS: Ejercico8_T11. 5. 4. 4. Ejemplo 3 (Ejercicio 8. 7 obtenemos para las anteriores modalidades: 356 . 3. 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2. 1 persona. 3. 4. La frecuencia de casilla esperada mínima es 16.0 9.0 6. Según lo anterior consideraremos inicialmente las modalidades: 0 personas. 5. 2.0 a 0 casillas (. 3. 1.El visor de resultados nos ofrece: facturas ya cobradas se cobran a un mes se cobran en dos meses se cobran a más de dos meses Total Estadísticos de contraste facturas Chicuadrado(a) gl Sig.000 N observado 287 49 30 34 400 N esperado 320. Consultando en la tabla de probabilidades de la distribución de Poisson con λ = 2. 2. 0. 3. Por tanto. 2.05. 3. Aunque en la muestra sólo aparecen valores entre cero y cinco.0 Residual -33. 3.0 18. vamos a introducir las probabilidades del modelo de la distribución de Poisson. 2. asintót. la experiencia de años anteriores no se ha vuelto a repetir este invierno.. 2 personas. 5 o más personas. 2.0 24..sav (datos sin agrupar.0%) tienen frecuencias esperadas menores que 5. 0. sin frecuencias)) Este ejemplo se resuelve como el ejemplo anterior (salvo que en este caso tenemos un fichero de datos sin frecuencias) pero en lugar de introducir porcentajes en Valores esperados. se rechaza la hipótesis nula de que los datos observados se ajustan a los datos esperados. 4. 1..000) es menor que 0. . 27.0. en la distribución de Poisson se puede presentar cualquier valor entero mayor o igual a cero.0 16. 4. Como el p-valor (0.178 3 .0 40. relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3. 3. 5. .1370) En el visor de resultados aparecerá: PersonasDia .8 4. Como hay frecuencias esperadas menores que 5 vamos a agrupar las dos primeras y las dos últimas modalidades para que todas las frecuencias esperadas sean mayores que 5.7 PersonasDia Chicuadrado(a) gl Sig.x p(x) 0 0.655 5 . se puede obtener sumando p(5)+p(6)+p(7)+.8630=0.00 5..7 Estadísticos de contraste Residual . hasta el último valor que aparezca en la columna de λ = 2..0 1.. La probabilidad.0.9 6. 7 con probabilidad distinta de cero.1488 .00 1. 1-[p(0)+p(1)+p(2)+p(3)+p(4)]=1. (Introduciremos las probabilidas sin el cero de las unidades.1370.2205 4 0. La frecuencia de casilla esperada mínima es 1.1815 2 0..6 6.0672 .00 Total N observado 2 4 5 8 5 3 27 N esperado 1.2 -.895 a 4 casillas (66. restando a 1 las probabilidades asociadas a x<5.. o bien.8. ...0 4.0 -.00 3.0672 1 0. asintót.0 3.00 2. 357 .. p(x ≥ 5).9 -1.2450 3 0.7%) tienen frecuencias esperadas menores que 5.00 4. pues sólo acepta valores con 5 dígitos incluida la coma: . . 1.6 2. En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 0->1 1->1 2->2 3->3 4->4 5->4 (posteriormente. Se repetirá el contraste sobre la nueva variable PersonasDiaB. se etiquetarán los valores 1 como 1 o menos y 4 como 4 o más).NOTA: La opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de bondad de ajuste como de independencia y homogeneidad. Para agrupar esas modalidades seleccionamos Transformar/Recodificar en distinta variable. si se quiere. considerando las siguientes modalidades y probalidades asociadas 358 . Seleccionamos como variable numérica PersonasDia y como variable de resultado escribimos PersonasDiaB. 2487=0.6 2.3 Estadísticos de contraste PersonasDiaB Chicuadrado(a) gl Sig.757>>0.00 4 o más Total a 0 casillas (.2450 0.2205 0.0 7.0 .184 3 .0672+0. asintót.2858=0. en el visor de resultados observaremos: PersonasDiaB N observado 6 5 8 8 27 N esperado 6.7 6.x 1 o menos 2 3 4 o más p(x) 0. 1. Según el nivel de significación asociado al estadístico chi-cuadrado (0.1488+0.05) se aceptaría la hipótesis nula de que el número de personas que requieren la mencionada información se distribuye según una ley de Poisson de parámetro λ = 2.0.00 3. Donde ninguna frecuencia esperada es menor que 5 y los grados de libertad se ha reducido de 5 a 3 después de agrupar modalidades.1370 Tras aceptar las selecciones de la anterior pantalla.7 -1. 7 . 359 .757 1 o menos 2. La frecuencia de casilla esperada mínima es 6.7 Residual -.6 6.1815 0.0%) tienen frecuencias esperadas menores que 5. obteniéndose la significación asintótica bilateral a partir de la fórmula de Smirnov: Si 0 ≤ Z ≤ 0. Los parámetros en las diferentes distribuciones se estiman a partir de los datos.2..1 Si 3. 27 ⇒ Si 0. el contraste K-S para una muestra se usa sólo para evaluar el ajuste de variables cuantitativas. BOTÓN OPCIONES.506628 (Q + Q 9 + Q 25 ) Z ( ) p = 2 ( Q − Q 4 + Q 9 − Q16 ) p=0 (Q = e ) (Q = e ) −1. Si se selecciona más de una variable.) se calculan las diferencias Di = Fn ( xi ) − F0 ( xi ) y Di* = Fn ( xi ) − F0 ( xi +1 ) El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y del tamaño muestral n. 360 . Conduce a un subcuadro de diálogo idéntico al del contraste de chi- cuadrado.. Di* . CONTRASTE DE KOLMOGOROV-SMIRNOV DE BONDAD DE AJUSTE Al igual que el contraste chi-cuadrado para una muestra. Z = n max i Di . 27 ≤ Z ≤ 1 ⇒ Si 1 ≤ Z ≤ 3. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. Para contrastar la hipótesis nula de bondad de ajuste. y la teórica F0 . Las opciones de este recuadro permiten elegir la distribución teórica a la cual se desea ajustar la distribución de la variable seleccionada: Normal.. la prueba de Kolmogorov-Smirnov es una prueba de bondad de ajuste: sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada distribución teórica de probabilidad. RECUADRO DISTRIBUCIÓN DEL CONTRASTE.. el SPSS ofrece un contraste por cada variable seleccionada. A diferencia del contraste Chi-cuadrado que fue diseñada para evaluar más bien el ajuste de variables categóricas. la prueba K-S se basa en la comparación de dos funciones de distribución: la empírica. Fn . Uniforme.) se calculan las diferencias: Di = Fn ( xi ) − F0 ( xi ) Para las distribuciones continuas (Normal. Para las distribuciones discretas (Poisson.233701Z −2 −2 Z 2 Para obtener la prueba de bondad de ajuste de K-S para una muestra se selecciona Analizar/Pruebas no paramétricas/K-S de 1 muestra.. Poisson y Exponencial (puede seleccionarse más de una).. Para contrastar la hipótesis de bondad de ajuste referida a una variable se traslada a la lista Contrastar variables. Uniforme.1 ≤ Z ⇒ ⇒ p =1 p = 1− 2. sav (datos sin agrupar. 2. sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/K-S de 1 muestra. 3. 5. 1. 4.Ejemplo 4 (Ejercicio 8. 2. 3. pulsando Aceptar en el visor de resultados aparecerá: 361 . 1 ¿Se puede aceptar que el nº de personas que requieren la mencionada información se distribuye según una ley de Poisson? (utilice el contraste de Kolmogorov-Smirnov) (FICHERO DE DATOS: Ejercico8_T11. 4. 1. 4. 4. 0. 5. 3. 3. 3. 3. relación Tema 11) Una muestra sobre el nº de personas que diariamente requieren información de un producto financiero ofrece el siguiente resultado: 3. 2. 2. 2. 0. 4. 1. En Distribuciones de contraste seleccionamos Poisson y en Contrastar variable incluiremos PersonasDia. 5. 3. 14.7). Ejemplo 5 (Ejercicio 7. relación Tema 11) Con un nivel de significación del 5%.5).7037 . 362 . asintót.b) Diferencias más extremas Media Absoluta Positiva Negativa Z de Kolmogorov-Smirnov Sig.085 . debemos seleccionar Pegar en la ventana de opciones del contraste de Kolmogorov-Smirnov para una muestra. PersonasDia 27 2. 14. 10 14. (bilateral) a La distribución de contraste es la Normal. 15. (FICHERO DE DATOS: Ejercicio7_T11.955).sav (datos sin agrupar. asintót.989 Como el p-valor (0. contraste la hipótesis de que los siguientes valores muestrales 12.085 .181 . (bilateral) a La distribución de contraste es la de Poisson.443 . 13.95505 . como en este ejemplo. Prueba de Kolmogorov-Smirnov para una muestra N Media Parámetros normales(a. 18.4 y 1.b) Diferencias más extremas Desviación típica Absoluta Positiva Negativa Z de Kolmogorov-Smirnov Sig. b Se han calculado a partir de los datos.05 se acepta la hipótesis de que el número de personas que requieren información se distribuye como una Poisson (de parámetro 2.057 -. sin frecuencias)) El SPSS toma por defecto como valores de la media y de la desviación típica para la hipótesis nula los de la muestra (14. 17. 12.Prueba de Kolmogorov-Smirnov para una muestra N Parámetro de Poisson(a.4000 1. 14.573 . Nos aparecerán los comandos de SPSS que siguen: NPAR TESTS /K-S(NORMAL)= DATOS /MISSING ANALYSIS. 15.989) es mayor que 0.119 .25 (desviación típica 1.181 -. proceden de una distribución normal de media 14 y varianza 2.898 Si queremos que la media y desviación típica tomen en la hipótesis nula unos valores concretos. b Se han calculado a partir de los datos. 819) es mayor que 0. b Especificado por el usuario 10 14 1.05 se acepta la hipótesis de que la muestra procede de una distribución Normal de media 14 y varianza 2. 363 .b) Diferencias más extremas Desviación típica Absoluta Positiva Negativa Z de Kolmogorov-Smirnov Sig. En esta misma ventana donde se ha hecho la modificación seleccionamos Ejecutar/Todo y obtendremos el resultado del contraste.1.819 Como el p-valor (0.109 -. asintót.200 .200 .25.632 . (bilateral) a La distribución de contraste es la Normal.5 .14.5)= DATOS /MISSING ANALYSIS.A continuación del comando NORMAL escribiremos una coma seguida del valor de la media seguida de otra coma y del valor de la desviación típica. Una vez modificado quedará como: NPAR TESTS /K-S(NORMAL. Prueba de Kolmogorov-Smirnov para una muestra N Media Parámetros normales(a. Si la media o desviación típica tuvieran decimales se usará el punto decimal (nunca la coma). el SPSS utiliza una tipificación del número de rachas cuya distribución es una N(0. la media o cualquier valor. moda. Si se selecciona más de una variable. la moda. Pueden usarse como criterio de dicotomización la mediana. Para convertir las variables de cadena en variables numéricas (para poder aplicar este contraste) utilice el procedimiento Recodificación automática. Para obtener el número de rachas de un conjunto de observaciones es necesario que éstas estén clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). el SPSS ofrece un contraste por cada variable seleccionada. debe utilizarse algún criterio para hacer que lo estén. mediana.) para hacer que lo estén.1). La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. disponible en el menú Transformar. Si la variable es. En ese caso.5 (o cualquier número comprendido entre 0 y 1). dicotómica. es decir.3. Para obtener la prueba de las rachas se selecciona Analizar/Pruebas no paramétricas/Rachas. Si no lo están. se deberá utilizar algún criterio (media. 364 . Para obtener el número de rachas es necesario que las observaciones estén claramente clasificadas en dos grupos. Igual que en los contrastes anteriores. Para contrastar la hipótesis de aleatoriedad o independencia referida a una variable se traslada esa variable a la lista Contrastar variables. El SPSS ofrece el nivel crítico bilateral. por ejemplo. los valores más pequeños que el punto de corte pasan a formar parte del primer grupo y los valores iguales o mayores que el punto de corte pasan a formar parte del segundo grupo. Esta prueba permite detectar si el número de rachas observado en una determinada muestra de tamaño n es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la hipótesis de aleatoriedad en las observaciones. Si se desea contrastar la hipótesis de independencia referida a una variable categórica o de cadena puede utilizarse en punto de corte la opción Personalizado. de modo que los casos con código 0 pasen a formar parte del primer grupo y los casos con valor 1 pasen a formar parte del segundo grupo. RECUADRO PUNTO DE CORTE. BOTÓN OPCIONES. para estudiar si las observaciones de una determinada muestra son independientes entre sí. CONTRASTE DE LAS RACHAS La prueba de las rachas sirve para evaluar si una determinada secuencia de observaciones es aleatoria. Si no lo están. con códigos 0 y 1. etc. puede utilizarse como punto de corte el valor 0. Una vez clasificadas las observaciones en dos grupos. En el enunciado no se indica que se tome como punto de corte un valor en especial.102 . 17. (Ejercicio 14. Hemos tomado la mediana que es el valor marcado por defecto. 365 .270 Como el p-valor (0. 21.10 se acepta la hipótesis nula de aleatoriedad de la muestra.270) es mayor que 0. 18.sav (datos sin agrupar. 20. 21. 19.00 4 7 11 4 -1. (bilateral) a Mediana ejemplo_rachas 19.10 ). 19.Ejemplo 6. (FICHERO DE DATOS: Ejercico14_T11. Prueba de rachas Valor de prueba(a) Casos < Valor de prueba Casos >= Valor de prueba Casos en total Número de rachas Z Sig. 19. 22 ( α = 0. sin frecuencias)) Seleccionamos Analizar/Pruebas no paramétricas/Rachas. asintót. relación Tema 11) Se desea verificar la aleatoriedad de la siguiente serie de valores 18. 18. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES. Para utilizar este procedimiento seleccionamos en el menú Analizar la opción Estadísticos Descriptivos/ Tablas de contingencias. por tanto. Activando esta opción el visor de resultados muestra un gráfico de barras agrupadas con las categorías de la variable fila en el eje de abscisas y las categorías de la variable columna anidadas dentro de las categorías de la variable fila. Esto tendría sentido si únicamente interesara obtener un gráfico de barras o alguno de los estadísticos o medidas de asociación disponibles en el procedimiento Tablas de contingencias. los datos suelen organizarse en tablas de doble entrada en las que cada entrada representa un criterio de clasificación o variable categórica. Para obtener una tabla de contingencia se traslada una variable a la lista filas y otra a la lista columna. PRUEBA DE KOLMOGOROV-SMIRNOV. Como resultado de esta clasificación. PRUEBA U DE MANN-WHITNEY 1.. A estas tablas de frecuencias se les llama tablas de contingencias. CHI-CUADRADO.TABLAS DE CONTINGENCIA Cuando se trabaja con dos variables categóricas.. 2. INDEPENDENCIA Y HOMOGENEIDAD. Cada barra del diagrama. Las opciones disponibles son: Mostrar los gráficos de barras agrupadas. representa una casilla y su altura viene dada por la frecuencia de la correspondiente casilla. 366 .PRÁCTICA 11 Contrastes no paramétricos: Tablas de contingencia y contrastes para dos muestras independientes (SPSS) 1. además incluye estadísticos y medidas de asociación que proporcionan la información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que conforman la tabla. Esta opción puede activarse si no se desea obtener ninguna tabla de contingencias. las frecuencias aparecen organizadas en casillas que contienen información sobre la relación existente entre ambos criterios.TABLAS DE CONTINGENCIA. El procedimiento de tablas de contingencias permite obtener no solo las tablas. La lista de variables del archivo de datos muestra todas las variables numéricas y de cadena corta del archivo de datos. Suprimir tablas. aunque lo más correcto es que todas las frecuencias esperadas sean mayores que 5. Si esa probabilidad es pequeña (menor que 0. Para que el estadístico Chi-cuadrado se comporte bien conviene que las frecuencias esperadas no sean demasiado pequeñas. Para determinar si dos variables se encuentran relacionadas debe utilizarse una medida de asociación. varios tipos de porcentajes y residuos brutos y tipificados. éstas no deben superar el 20% del total de frecuencias esperadas. el estadístico debe interpretarse con cautela o mejor proceder a agrupar filas y/o columnas de la tabla. 367 . Parte de esta información es esencial para poder interpretar apropiadamente las pautas de asociación presentes en una tabla después de que se rechace la hipótesis de independencia. CHI-CUADRADO La opción Chi-cuadrado proporciona un estadístico que permite contrastar la hipótesis de que los dos criterios de clasificación utilizados (las dos variables categóricas) son independientes.05). si existen frecuencias esperadas menores de 5. la nota a pie de tabla también informa acerca del porcentaje que éstas representan sobre el total de casillas de la tabla. Para ello seleccionaremos en la barra de menús Transformar/Recodificar en distinta variable y repetiremos el análisis con la nueva variable generada. la probabilidad asociada al estadístico Chi-cuadrado (el p-valor) será alta (mayor 0. se considera que los datos son incompatibles con la hipótesis de independencia y se concluirá que las variables estudiadas está relacionadas. frecuencias esperadas. Incluso aunque la tabla recoja las frecuencias porcentuales en lugar de las absolutas. la simple observación de las frecuencias no puede conducir a una conclusión definitiva. BOTÓN CASILLAS Las casillas o celdas de una tabla de contingencias pueden contener información muy variada. En el caso de que ese porcentaje supere el 20%. Si los datos son compatibles con la hipótesis de independencia. si existe alguna casilla con frecuencia esperada menor que 5. Para ello compara las frecuencias observadas con las frecuencias esperadas si las dos variables fueran independientes. El SPSS muestra en una nota a pie de tabla un mensaje indicando el valor de la frecuencia esperada más pequeña. preferiblemente acompañada de su correspondiente prueba de significación.05). Una de las opciones disponibles es Chi-cuadrado. en concreto: frecuencias observadas.BOTÓN ESTADÍSTICOS El grado de relación existente entre dos variables categóricas no puede ser establecido simplemente observando las frecuencias de una tabla de contingencias. Suele asumirse que. 1). Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su columna. sirven como indicadores del grado en que cada casilla contribuye al valor del estadístico chi-cuadrado. Es posible seleccionar una o más de las siguientes opciones: No tipificados. Su utilidad radica en que. Esperadas.95.Recuadro Frecuencia: Es posible seleccionar uno o los dos tipos de frecuencias absolutas: Observadas. Porcentaje que la frecuencia observada de una casilla representa respecto al número total de casos de la tabla. Tipificados. Es posible seleccionar uno o más de las siguientes frecuencias porcentuales: Fila. Total. Su valor esperado es 0 pero su desviación típica es menor que 1. Los residuos son las diferencias existentes entre las frecuencias observadas y esperadas de una casilla. Son especialmente útiles para averiguar en qué grado se desvían de la hipótesis de independencia las frecuencias de cada casilla. consecuentemente. Sin embargo.96 delatan 368 . Los residuos tipificados son iguales a (n ij − Eij ) Eij 2 = (n ij − Eij ) Eij Tipificados corregidos. Número de casos resultantes de la clasificación. mientras que los residuos menores de -1. Porcentaje que la frecuencia observada de una casilla representa respecto al total marginal de su fila. son fácilmente interpretables: utilizando un nivel de confianza 0. Número de casos que debería haber en cada casilla si las variables utilizadas fueran independientes. Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. lo cual hace que no puedan interpretarse como puntuaciones Z.96 delatan casillas con más casos de los que debería haber en esa casilla si las variables estudiadas fueran independientes. De hecho. Diferencia entre la frecuencia observada y la esperada. Columna. Recuadro Residuos. Recuadro Porcentajes. puede afirmarse que los residuos mayores de 1. puesto que se distribuye como N(0. Residuo no tipificado dividido por la raíz cuadrada de su correspondiente frecuencia esperada. son útiles para interpretar las pautas de asociación presentes en la tabla. sumando los cuadrados de los residuos tipificados se obtiene el valor del estadístico chicuadrado. Muestra las categorías de la variable fila ordenadas de menor a mayor. Es la opción por defecto..sav (datos agrupados. Descendente.. seleccionando en primer lugar el icono que representa una balanza o bien en los menús Datos/Ponderar casos. relación tema 10) Se clasifican a los 150 empleados de una empresa según su salario y su antigüedad. Recuadro Orden de filas. Ejemplo 1 (ejercicio 10. con frecuencias)) Recordemos que cuando se utilizan ficheros con frecuencias se deberá indicar en que columna se encuentran éstas. ¿Hay independencia entre los sueldos y la antigüedad? ( (α = 0. Los resultados aparecen en la siguiente tabla. Seleccionamos Analizar/Estadísticos Descriptivos/Tablas de contingencia 369 . BOTÓN FORMATO Controla algunos detalles relacionados con el aspecto de las tablas de contingencias generadas.. Ejercicio10F_T10. Permite controlar el orden en el que aparecen las categorías de la variable fila: Ascendente.casillas con menos casos de los que cabría esperar bajo la condición de independencia. después en la ventana Ponderar casos marcaremos la opción Ponderar casos mediante y en la casilla Variable de ponderación incluiremos el nombre de la columna (variable) que contiene las frecuencias. sin frecuencias). 05) Salario\Antigüedad 0-500 500-1000 1000-2000 2000-3000 >3000 n• j <5 años 17 16 4 9 6 52 5-10 5 8 11 8 3 35 10-20 10 9 5 8 4 36 >20 años 6 7 2 6 6 27 ni• 38 40 22 31 19 150 (FICHEROS DE DATOS: Ejercicio10_T10. Muestra las categorías de la variable fila ordenadas de mayor a menor.sav (datos sin agrupar. En situaciones reales. Por ello vamos a pedir que estos datos los represente en una tabla de contigencia (no marcaremos la opción Suprimir tablas) con los Salarios por filas y la Antigüedad por columnas. inicialmente no se dispone de los datos agrupados y ordenados en una tabla como en el enunciado del ejemplo 1 sino que los datos se han ido anotando en un formato de dos columnas como aparece en estas pantallas. 370 . Tras Aceptar las opciones seleccionadas en el visor de resultados aparecen: • La tabla de contingencia. las esperadas y los residuos tipificados corregidos 371 . Frecuencias esperadas y Residuos tipificados corregidos.En Casillas seleccionaremos los valores que apareceran en cada celda de la tabla de contingencia. En Estadísticos seleccionaremos el estadístico Chi-cuadrado de Pearson para estudiar la independencia entre Salario y Antigüedad. donde se reflejan las frecuencias observadas. en este ejemplo marcaremos Frecuencias observadas (aparece como recuento en la tabla). 4 -. asintótica (bilateral) .888 150 gl 12 12 1 Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos a 4 casillas (20.5 16 13.3 52 52.2 6 3.6 -1.0 40 40.3 -. La frecuencia mínima esperada es 3.0 31 31.Tabla de contingencia Salario * Antiguedad Antiguedad menos de 5 años 17 13.0 150 150.3 5 5.2 8 7.2 .0 22 22.7 -.8 4 7.0 Total Salario 0-500 Recuento Frecuencia esperada Residuos corregidos 38 38.8 9 10.3 36 36.3 4 4.1 .1 3.4 .6 -.932(a) 14.2 1.2 -.6 27 27. • Gráfico de barras Años_Antiguedad < 5 años 5-10 años 10-20 años Más de 20 años 20 15 Recuento 10 5 0 0-500 500-1000 1000-2000 2000-3000 Más 3000 Salario 372 .6 -.0 -1.194 .8 -.7 8 9.9 .8 35 35.0 más de 20 años 6 6.0 10-20 años 10 9.0 500-1000 Recuento Frecuencia esperada Residuos corregidos 1000-2000 Recuento Frecuencia esperada Residuos corregidos 2000-3000 Recuento Frecuencia esperada Residuos corregidos Más de 3000 Recuento Frecuencia esperada Residuos corregidos Total Recuento Frecuencia esperada • La prueba Chi-cuadrado de independencia Sig.781 1.4 1.6 .2 8 7.4 9 9.9 -1.7 6 6.254 .4 7 7.0 5-10 años 5 8.4 3 4.1 2 4.0%) tienen una frecuencia esperada inferior a 5.6 11 5.0 19 19.3 -.2 6 5.169 Pruebas de chi-cuadrado Valor 15.42.6 -. pues si no lo hacemos se aplicará también a ese par de variables la recodificación que queremos hacer en la pareja Antigüedad->AntiguedadB).Según el p-valor (0. Seleccionamos como variable numérica Antiguedad y como variable de resultado escribimos AntiguedadB. si se quiere. se etiquetaran los valores 1 y 2 como en Antiguedad y el nuevo valor 3 que agrupa a los anteriores valores 3 y 4 lo etiquetaremos como más de 10 años). En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->4 5->4 (posteriormente. Seleccionamos como variable numérica Salario y como variable de resultado escribimos SalarioB.2 que no está comprendido entre -1. numérica->Var.194) se aceptaría la hipótesis de independencia. si se quiere. (Nota: En la ventana Var. Repetimos el contraste con AntiguedadB y SalarioB (incluidas originalmente en los ficheros Ejercicio10_T10.96. Repetiremos el mismo proceso con la variable Antigüedad.96 y 1.sav) obteniendo: 373 . Sin embargo. 2 y 3 como en Salario y el nuevo valor 4 que agrupa a los anteriores valores 4 y 5 lo etiquetaremos como Más de 2000). Como hay frecuencias esperadas menores de 5 vamos a agrupar las 2 últimas filas y las dos últimas columnas de la tabla de contingencia para que todas las frecuencias esperadas sean mayores que 5. se etiquetaran los valores 1. es decir. de resultado hay que eliminar primero Salario->SalarioB. se escapa de la hipótesis de independencia al 5% de significación. Para agrupar esas filas y columnas seleccionamos Transformar/Recodificar en distinta variable. el residuo corregido para un salario (1000-2000) y una antigüedad (5-10) es 3. Recordemos que la opción de agrupar valores semejantes para que las frecuencias esperadas sean mayores que 5 se aplica tanto a contrastes de la chi-cuadrado de independencia y homogeneidad para dos muestras como a los contrastes chi-cuadrado de bondad de ajuste para una muestra (como vimos en el ejemplo 3 de la práctica 10). En Valores antiguos y nuevos escribiremos la siguiente recodificación Antiguo->Nuevo 1->1 2->2 3->3 4->3 (posteriormente.sav y Ejercicio10F_T10. 0 Total 38 38.8 4 7.13. las esperadas y los residuos corregidos.060 . Según el p-valor (0.Tabla de contingencia SueldoB * AntiguedadB AntiguedadB menos de 5 años 17 13.9 .0 Sig.5 16 13.3 -.1 3.05).6 11 5. relación Tema 10) A 500 licenciados de una universidad A y 500 de una universidad B se les puso un examen y sus calificaciones fueron registradas como baja.8 52 52. sin frecuencias). es la siguiente: 374 Universidad A Universidad B 105 140 140 135 255 225 la distribución de calificaciones en las 2 universidades es la .6 -1.069 1.8 15 17.0 mas de 10 años 16 16. Ejercicio11F_T10.2 1.3 35 35.sav (datos sin agrupar.041 .0 SueldoB 0-500 Recuento Frecuencia esperada Residuos corregidos 500-1000 Recuento Frecuencia esperada Residuos corregidos 1000-2000 Recuento Frecuencia esperada Residuos corregidos más de 2000 Recuento Frecuencia esperada Residuos corregidos Total Pruebas de chi-cuadrado Recuento Frecuencia esperada Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 13.215 5-10 años 5 8.0 1.0 150 150.0%) tienen una frecuencia esperada inferior a 5.7 -. obteniéndose: BAJA MEDIA ALTA Contrastar la hipótesis de que misma (con α = 0. La frecuencia mínima esperada es 5.2 -1.0 40 40.108(a) 12.7 8 9.0 .3 7 9.9 -1. Ejemplo 2 (Ejercicio 11.1 63 63.8 -. asintótica (bilateral) .537 150 gl 6 6 1 a 0 casillas (.3 -.0 50 50. media o alta. 01 ) (FICHEROS DE DATOS: Ejercicio11_T10.0 24 21.2 11 11.0 16 16.0 22 22. contrariamente a la conclusión obtenida antes de agrupar las frecuencias esperadas menores que 5.sav (datos agrupados. con frecuencias)) La tabla de contingencia. donde se reflejan las frecuencias observadas.041) se rechazaría la hipótesis de independencia a un nivel de significación del 5% (0. 05 (0.031) nos lleva a rechazar la hipótesis de homogeneidad con un nivel de significación del 5% pero a aceptarla con un nivel de significación del 1% como aparece en el enunciado del ejercicio.6 135 137. asintótica (bilateral) . El p-valor menor de 0.031 . En la prueba chi-cuadrado se obtiene: Pruebas de chi-cuadrado Valor 6.6 frente a -2.984 1000 gl 2 2 Sig. La frecuencia mínima esperada es 122.9 500 500.966(a) 6. Existe una desproporción significativa a favor de la “Universidad B” (residuo corregido 2.030 Chi-cuadrado de Pearson Razón de verosimilitudes N de casos válidos a 0 casillas (.96).4 225 240.96.6 140 137.50.5 2.0 Total 245 245.0 480 480.5 . Gráfico de barras Universidad A B 300 250 200 Recuento 150 100 50 0 Baja Media Alta Nota 375 . 1.4 255 240.5 -2.6) lo que significa que hay una proporción de alumnos de la universidad A menor de la esperada con notas bajas.0%) tienen una frecuencia esperada inferior a 5.0 275 275.0 B 140 122.9 500 500.Tabla de contingencia Nota * Universidad Universidad A Nota Baja Recuento Frecuencia esperada Residuos corregidos Media Recuento Frecuencia esperada Residuos corregidos Alta Recuento Frecuencia esperada Residuos corregidos Total Recuento Frecuencia esperada 105 122.0 -1.0 1.0 Se puede observar como los residuos corregidos de las casillas “Nota baja” se salen del intervalo (-1.5 -.0 1000 1000. PRUEBA DE KOLMOGOROV-SMIRNOV Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la misma población. El procedimiento incluye cuatro pruebas: la prueba de Kolmogorov-Smirnov para dos muestras. Para ello compara las funciones de distribución empíricas de ambas muestras. Seleccionar la variable que define los grupos (muestras) que interesa comparar y trasladarla al cuadro Variable de agrupación. Si se selecciona más de una variable. En el recuadro Tipo de prueba. Pulsar el botón Definir grupos para acceder al subcuadro de diálogo que permite indicar cuáles son los dos códigos de la variable de agrupación que corresponden a los grupos que interesa comparar. La lista de variables del archivo de datos ofrece un listado de todas las variables con formato numérico. la prueba de reacciones extremas de Moses y la prueba de las rachas de Wald-Wolfowitz. El estadístico del contraste Z se obtiene a partir de la diferencia más grande en valor absoluto y de los tamaños muestrales n y m. el SPSS ofrece un contraste por cada variable seleccionada. 376 . El botón opciones conduce a un cuadro de diálogo que permite obtener algunos estadísticos descriptivos y controlar el tratamiento de los valores perdidos. marcar la opción u opciones correspondientes a las pruebas que se desea obtener. Para obtener cualquiera de las pruebas no paramétricas incluidas en el procedimiento (puede seleccionarse más de una simultáneamente): Seleccionar la variable en la que interesa comparar los grupos y trasladarla a la lista Contrastar variables. PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES Este procedimiento contiene varias pruebas no paramétricas. Conviene tener en cuenta que no todas ellas permiten contrastar la misma hipótesis.2. Fn ( x) y Fm ( x) . Se calculan las diferencias Di = Fn ( xi ) − Fm ( xi ) . la prueba U de Mann-Whitney. Para obtener cualquiera de estas pruebas: Se selecciona la opción Pruebas no paramétricas/Dos muestras independientes del menú Analizar. todas ellas diseñadas para analizar datos provenientes de diseños con una variable independiente categórica (con dos niveles que definen los grupos o muestras) y una variable dependiente cuantitativa al menos ordinal (en la cual interesa comparar los dos grupos o muestras). Muestra 1 2 4 2 3 5 Muestra 2 2 4 5 3 5 (FICHERO DE DATOS: Ejercicio9_T11. 377 . 27 ⇒ Si 0. aparecerán todos los datos de ambas muestras en la misma columna (Puntuación) y en la columna Muestras con los códigos 1 y 2 distinguiremos a qué muestra pertenece cada puntuación.Z= nm max i ( Di ) .… Ejemplo 3 (Ejercicio 9. obteniéndose la significación asintótica bilateral a partir de la fórmula n+m p =1 p = 1− de Smirnov: Si 0 ≤ Z ≤ 0.1 ≤ Z ⇒ ⇒ p = 2 ( Q − Q 4 + Q 9 − Q16 ) p=0 2. 27 ≤ Z ≤ 1 ⇒ Si 1 ≤ Z ≤ 3. variabilidad.1 Si 3. relación Tema 11) Con nivel de significación de 5%. simetría. contraste la hipótesis de que los siguientes valores muestrales proceden de una misma población.sav) 6 4 7 7 8 6 9 5 3 3 Al tratarse de muestras independientes.506628 (Q + Q 9 + Q 25 ) Z (Q = e ) (Q = e ) −1. Seleccionaremos Analizar/Pruebas no paramétricas/Dos muestras independientes del menú Analizar.233701Z −2 −2 Z 2 Esta prueba es sensible a cualquier tipo de diferencia entre las dos distribuciones: tendencia central. 988) es mayor que 0.100 -. 378 . algo sensible frente a las diferencias de asimetría e insensible frente a las diferencias de varianzas.En la ventana que aparecerá. seleccionaremos Puntuaciones para Contrastar variables y Muestras para Variable de agrupación. En el visor de resultados se obtiene: Estadísticos de contraste(a) Diferencias más extremas Absoluta Positiva Negativa Z de Kolmogorov-Smirnov Sig. o cuando no es apropiado utilizar la prueba T porque el nivel de medida de los datos es ordinal. En Definir grupos indicaremos que la primera muestra tiene asignado el valor 1 y la segunda el valor 2. En tipo de prueba marcaremos Z de Kolmogorov-Smirnov. PRUEBA U DE MANN-WHITNEY Esta prueba es una excelente alternativa a la prueba T sobre diferencia de medias cuando no se cumplen los supuestos en los que se basa la prueba (normalidad). Es fiable en la comparación de dos promedios poblacionales cuando ambas distribuciones tienen la misma forma.200 . asintót.447 . (bilateral) a Variable de agrupación: Muestra Valores .200 .988 Dado que la significación asintótica (0.05 se acepta la hipótesis de que ambas muestras proceden de la misma población. Este test es sensible a las diferencias de medianas. 1). concluimos que ambas muestras proceden de la misma población.796(a) a No corregidos para los empates. que se distribuye aproximadamente como una N(0. Con muestras grandes. asintót. el SPSS ofrece una tipificación del estadístico U denominada Z.Con muestras pequeñas el SPSS ofrece el nivel crítico bilateral exacto del estadístico U. Ejemplo 4 (Ejercicio 9.05.268 . El nivel crítico bilateral se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales a Z. b Variable de agrupación: Muestra Al ser las muestras pequeñas observamos la significación exacta (0. relación Tema 11) Con los mismos datos del ejemplo anterior y utilizando el contraste de Mann-Whitney. Se repite el mismo procedimiento que en el ejemplo anterior pero seleccionando U de Mann- Whitney en Tipo de prueba Según el visor de resultados: Estadísticos de contraste(b) U de Mann-Whitney W de Wilcoxon Z Sig. Ésta es mayor que 0. 379 .500 -. exacta [2*(Sig. el cual se obtiene multiplicando por dos la probabilidad de obtener valores menores o iguales que U. unilateral)] Valores 46.500 101. (bilateral) Sig.796).789 . 380 .Nota: Según Mann y Whitney pueden considerarse suficientemente grandes m y n a partir de m≥8 y n ≥ 8 . m=10 y la significación exacta y asintótica son muy próximas. Hay autores que consideran m y n grandes cuando m + n ≥ 60 . En nuestro ejemplo n=10. FORMULARIOS Y TABLAS ESTADÍSTICAS 381 . 382 . D= n= pq pq = B2 D 4 . n i =1 yi = 0. 1 S2 = CUASIVARIANZA MUESTRAL 1 n ∑ yi − y n − 1 i =1 ( ) 2 1 n S = ∑ yi − y n − 1 i =1 2 ( ) 2 = n pq n −1  n   ∑ yi  n ∑ yi2 −  i =1 n  S 2 = i =1 n −1 2 q = 1− p VARIANZA DEL ESTIMADOR V ( y) = σ2 n V ( y) = S2 n V ( p) = pq n V ( p) = pq n −1 LIMITE DEL ERROR DE ESTIMACIÓN = B 2 V ( y) = 2 S n 2 V ( p) = 2 pq n −1 INTERVALO DE CONFIANZA S S   . p+2  n −1 n −1    2 V ( p) = 2 pq =B n 2 V ( y) = 2 TAMAÑO MUESTRAL σ2 n =B B2 4 n= σ2 B2 4 = σ2 D . D= B2 4 383 .MUESTREO ALEATORIO SIMPLE EN POBLACIONES INFINITAS (O CON REEMPLAZAMIENTO) MEDIA PROPORCION ESTIMADOR 1 n y = ∑ yi n i =1 1 n p = ∑ yi . y+2  y−2  n n   pq pq   p−2  . 1 τ =Ny= N n ∑y i =1 n i τ =Np V ( y) = VARIANZA DEL ESTIMADOR S2 N − n n N V ( p) = pq N − n n −1 N V (τ ) = V ( N y ) = N 2 V ( y ) = N ( N − n) S2 pq V (τ ) = V ( N p) = N 2 V ( p) = N ( N − n) n n −1 LIMITE DEL ERROR DE ESTIMACIÓN = B 2 V ( y) 2 V (τ ) = N 2 V ( y ) 2 V ( p) 2 V (τ ) = N 2 V ( p ) (y − 2 INTERVALO DE CONFIANZA V ( y) . y + 2 V ( y) ) (p − 2 (τ − 2 = (N ( p − 2 n= V ( p) . N ( y + 2 V ( y ) )) Nσ 2 n= ( N − 1) D + σ 2 V (τ ) . τ + 2 V (τ ) = V ( p) .MUESTREO ALEATORIO SIMPLE EN POBLACIONES FINITAS SIN REEMPLAZAMIENTO MEDIA TOTAL PROPORCION TOTAL ESTIMADOR 1 n y = ∑ yi n i =1 1 n p = ∑ yi . p + 2 V ( p) ) )) (τ − 2 V (τ ) . n i =1 yi = 0. τ + 2 V (τ ) ) = = ( N ( y − 2 V ( y ) ) . N p + 2 V ( p) ) ) ( Npq ( N − 1) D + pq B2 4 ( proporcion) (total ) TAMAÑO MUESTRAL B2 (media ) D= 4 B2 D= (total ) 4N 2 D= B2 D= 4N 2 384 . MUESTREO ALEATORIO ESTRATIFICADO MEDIA TOTAL PROPORCION TOTAL y st = ESTIMADOR 1 N ∑ Ni y i i =1 L L p st = 1 N ∑N i =1 L L i pi τ st = N y st = ∑ N i y i i =1 τ st = N p st = ∑ N i p i i =1 V ( y st ) = 1 N2 1 N2 L ∑ Ni2 V ( yi ) = i =1 L V ( p st ) = 1 N2 L 1 N2 ∑N i =1 L 2 i V ( pi ) = VARIANZA DEL ESTIMADOR = ∑ Ni2 i =1 Si2 N i − ni ni N i = ∑N i =1 2 i p i q i N i − ni ni − 1 N i V (τ st ) = N 2 V ( y st ) = ∑ N i2 i =1 L Si2 N i − ni ni N i V (τ st ) = N 2 V ( p st ) = ∑ N i2 i =1 L p i q i N i − ni ni − 1 N i TAMAÑO MUESTRAL FORMULACIÓN GENERAL MEDIA TOTAL PROPORCION TOTAL n= ∑ i =1 L N i2σ i2 ωi N 2 D + ∑ N iσ i2 i =1 L n= ∑ i =1 L N i2 pi qi ωi N 2 D + ∑ N i pi qi i =1 L 385 . MUESTREO ALEATORIO ESTRATIFICADO TAMAÑO MUESTRAL MEDIA TOTAL PROPORCION TOTAL (error fijo B ) n = ∑N σ i =1 i L i ci L ∑ i =1 i =1 L Ni σ i ci N 2 D + ∑ N iσ i2 C∑ i =1 L i L n= ∑ Ni i =1 L pi qi ci L ∑N i =1 i =1 L i pi qi ci N 2 D + ∑ N i pi qi C ∑ Ni i =1 L ASIGNACIÓN ÓPTIMA (coste fijo C ) n = N iσ i ci i ∑Nσ i =1 n= pi qi ci pi qi ci p jq j cj ci ∑N i =1 L i N jσ j ωj = cj Nσ ∑ ic i i =1 i L Nj ωj = ∑N i =1 L i pi qi ci n= ASIGNACIÓN DE NEYMAN (∑ N σ ) L i =1 i i L i =1 2 N 2 D + ∑ N iσ i2 N jσ j n= (∑ N L i =1 i pi qi L ) 2 N 2 D + ∑ N i pi qi i =1 ωj = ∑Nσ i =1 i L L ωj = i N j p jq j ∑N i =1 L L i pi qi ASIGNACIÓN PROPORCIONAL n= ∑ Ni σ i2 i =1 ND + 1 N ∑ Niσ i2 i =1 L n= ∑N pq i =1 i i i ND + 1 N ∑N pq i =1 i L i i ωj = D= Nj N D= B2 4 ωj = Nj N D B2 (media ) 4 B2 (total ) D= 4N 2 ( proporcion) D= B2 4N 2 (total ) 386 . ESTIMACIÓN DE RAZÓN RAZÓN MEDIA TOTAL ESTIMADOR y = r = in1 = ∑ xi x i =1 ∑y n i µ y = rµx τ y = rτ x 1 n 2 ∑ ( yi − rxi ) n − 1 i =1 VARIANZA RESIDUAL S r2 = 2 V ( µ y ) = µ x V (r ) = VARIANZA DEL ESTIMADOR V (r ) = 1 N − n Sr2 µ x2 N n N − n Sr2 N n N − n Sr2 N n 2 V (τ y ) = τ x V (r ) = N 2 n= Nσ r2 ND + σ r2 σ r = Sr2 de una muestra previa 2 DETERMINACIÓN DEL TAMAÑO MUESTRAL D= B2 4 2 B2 µx 4 ( para estimar R) D= ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) 387 . COVARIANZA 1 n Y COEF.ESTIMACIÓN DE REGRESIÓN MEDIA TOTAL 1 n 2 sx = ∑ xi − x n i =1 S x2 = 1 n ∑ xi − x n − 1 i =1 ( ) 2 ( ) 2 2 (n − 1) S x2 = nsx VARIANZA. DE S xy = ∑ xi − x n − 1 i =1 CORRELACIÓN MUESTRALES ( )( y − y ) i 2 rxy = sxy = 2 S xy 2 S x2 S y 1 n ∑ xi − x n i =1 = 2 sxy 2 2 sx s y ( )( y − y ) = 1 ∑ x y − x y n n i i =1 i i µ yL = y + b( µ x − x) ESTIMADOR b= S xy S x2 = sxy 2 sx = ∑ ( x − x )( y − y ) n i =1 i i ∑ ( x − x) n i =1 i 2 τ yL = N µ yL VARIANZA RESIDUAL ERROR TÍPICO DE ESTIMACIÓN 1 n S = ∑ yi − y + b( xi − x) n − 2 i =1 2 L ( ( )) 2 2 n  2 sxy =  sy − 2 n−2 sx   n 2 2 s 1 − rxy ) =  n−2 y (  2 SL = SL V ( µ yL ) = VARIANZA DEL ESTIMADOR 2 N − n SL N n V (τ yL ) = N 2 V ( µ yL ) n= DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 Nσ L 2 ND + σ L 2 σ L = S L de una muestra previa 2 D= B2 4 ( para estimar µ y ) D= B2 4N 2 ( para estimar τ y ) 388 . ESTIMACIÓN DE DIFERENCIA MEDIA TOTAL µ yD = y + ( µ x − x) = µ x + d ESTIMADOR d = y−x τ yD = N µ yD VARIANZA RESIDUAL 2 SD = 1 n ∑ yi − ( xi + d ) n − 1 i =1 ( ) 2 = 1 n ∑ di − d n − 1 i =1 ( ) 2 di = yi − xi V ( µ yD ) = VARIANZA DEL ESTIMADOR 2 N − n SD N n V (τ yD ) = N 2 V ( µ yD ) DETERMINACIÓN DEL TAMAÑO MUESTRAL 2 Nσ D n= 2 ND + σ D 2 σ D = SD 2 de una muestra previa B2 D= 4 ( para estimar µ y ) B2 D= 4N 2 ( para estimar τ y ) 389 . MUESTREO POR CONGLOMERADOS MEDIA o PROPORCIÓN TOTAL (M conocido) TOTAL N = conglomerados en la población mi = elementos en el conglomerado i NOTACIÓN n = conglomerados en la muestra yi = suma de las observaciones del conglomerado i m = ∑ mi = elementos en la muestra i =1 n M = ∑ mi = elementos en la población i =1 N M= 1 N ∑m i =1 N i = tamaño medio de los conglomerados de la población m= n 1 n ∑ mi = tamaño medio de los conglomerados de la muestra n i =1 µ=y= ESTIMADOR ∑y i =1 n i =1 i ∑m yt = 1 n ∑ yi n i =1 i τ =My τ t = N yt Sc2 = VARIANZA DEL ESTIMADOR 1 n ∑ yi − ymi n − 1 i =1 ( ) 2 St2 = 1 n ∑ yi − y t n − 1 i =1 ( ) 2 1 N − n Sc2 V ( y) = 2 N n M S2 V (τ ) = M V ( y ) = N ( N − n) c n 2 N − n St2 V ( yt ) = N n V (τ t ) = N 2 V ( y t ) = N ( N − n) St2 n n= TAMAÑO MUESTRAL Nσ c2 ND + σ c2 σ c = Sc2 2 2 de una muestra previa n= Nσ t2 ND + σ t2 σ t = St2 2 de una muestra previa B2 M D= 4 B2 D= 4N 2 (media) (total ) B2 D= 4N 2 (total ) 390 . ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO DIRECTO NOTACIÓN t = elementos marcados n = total de elementos en la muestra de recaptura s = elementos marcados en la muestra de recaptura N= t p = nt s MUESTREO INVERSO ESTIMADOR N= t p = nt s E N =N+ PROPIEDADES DEL ESTIMADOR ( ) N (N − t) nt E N =N t 2 n( n − s ) V N = 2 s ( s + 1) ( ) t 2 n( n − s ) V N = s3 ( ) ( ) 391 . ESTIMACIÓN DEL TAMAÑO DE LA POBLACIÓN MUESTREO POR CUADROS DENSIDAD TOTAL NOTACIÓN A = área total a = área de cada cuadro n = número de cuadros en la muestra m = número medio de elementos por cuadro en la muestra m a M = λA ESTIMADOR λ= VARIANZA DEL ESTIMADOR V λ = () λ an A2 λ V M =AV λ = an 2 ( ) ( ) CUADROS CARGADOS DENSIDAD TOTAL NOTACIÓN A = área total a = área de cada cuadro n = número de cuadros en la muestra y = número total de cuadros no cargados ESTIMADOR λ = − ln   a n 1  y M = Aλ = − A  y ln   a n VARIANZA DEL ESTIMADOR V λ = () 1 n− y a 2 ny V M = A2 V λ = ( ) ( ) A2 n − y a 2 ny 392 . INDICADORES ESTADÍSTICOS REGIONALES Medidas de desigualdad-concentración regional: x j = valores porcentuales (proporciones) de la variable respecto del total= Xj ∑X j =1 N j Coeficiente de Theil T = ln N + ∑ x j ln x j j =1 N k  xg Propiedad de agregación: T = ln N + ∑ xg ln  N g =1  g  k  + ∑ xg Tg  g =1  ∑ Ng = N g =1 k xg = j∈Gg ∑ xj N Tg = ln N g + ln N + ∑ x j ln x j j =1 j∈Gg ∑ x ln  j x g  xg  xj     Índice de Theil: IT = ITHEIL T = = ln N ln N = 1+ ∑x j =1 N j ln x j ln N Desigualdad individual: di = N x − Xi x = −1 Xi Xi Desigualdad colectiva: D = ∑ di f i i =1 Propiedad de agregación: D = Dg = 1 N ∑ dg Ng + g =1 k x N ∑D g =1 k Ng xg g j∈Gg ∑ xg − X j Xj fj dg = x − xg xg Medidas de dispersión regional: Varianza: V ( X ) = 1 N ∑( X j =1 N j − x) 2 Varianza normalizada: VN ( X ) = V (X ) x2 Coeficiente de asociación geográfica de Florence : F = 1 − 1 N ∑ xj − yj 2 j =1 393 . MEDIDAS DE LOCALIZACIÓN ESPACIAL Yij Yi j → participación de la región i en el sector j Yi i → participación de la región i en la población Y Yij Yi i Yij Yi i → participación del sector j en la región i → participación del sector j en la región i Cociente de localización regional del sector j en la región i (cociente de especialización de la región i en el sector j) : Lij = Yij / Yi i Yi j / Y 100 = Yij / Yi j Yi i / Y 100 Coeficiente de localización sectorial (del sector j-ésimo): CL j = 1 N Yij Yi i ∑ − 2 i =1 Yi j Y Coeficiente de especialización regional (de la región i-ésima): CEi = 1 L Yij Yi j ∑ − 2 j =1 Yi i Y Coeficiente de diversificación (de la región i-ésima):  L   ∑ Yij  Y2 j =1 CDi =  L  = Li i L ∑ Yij2 L∑ Yij2 j =1 j =1 2 Coeficiente de diversificación normalizado: CDi* = L  1  CDi −  L −1  L 394 . H1 : X e Y no son independientes. ni• = ∑ nij = nº de elementos en la categoría j =1 c de la población B j .Contrastes χ 2 de Pearson ni=nº de observaciones en la clase i. rechazamos H o si H 1: X → G ( x). Ai de X.1−α χ 2 > χ (2r −1)( c−1). nij = nº de elementos en la categoría Ai de X nij = nº de elementos en la categoría Ai de X. n = nº de elementos en la muestra. 2 ni• n• j n χ2 = ∑ ∑ i =1 j =1 r c (n ij − Eij ) Eij Eij = ni• n• j n χ2 = ∑ ∑ i =1 j =1 r c (n ij − Eij ) Eij 2 H0 : X e Y son independientes. Eij = H 0 : X → F(x) n = nº de elementos en la muestra. Ei=npi=nº esperado de observaciones en la clase i bajo H0. y B j de Y. 1−α 395 . Bj . 1−α χ 2 > χ (2r −1)( c−1). n• j = ∑ nij = nº de elementos en la categoría i =1 r n• j = ∑ nij = nº de elementos en la población i =1 r B j de Y. G ( x) ≠ F ( x) rechazamos H 0 si H0: Las c poblaciones son homogéneas (se distribuyen igual) H1: Las c poblaciones no se distribuyen igual rechazamos H o si χ 2 > χ k2−1. ni• = ∑ nij = nº de elementos en la categoría j =1 c χ2 = ∑ i =1 k ( ni − Ei ) Ei 2 Ai de X. Se rechaza H 0 si Dexp > Dα .Contrastes de Kolmogorov-Smirnov (muestras independientes).19) 396 . F0 ( x) = P [ X ≤ x ] n º observaciones ≤ x Fn ( x ) = n muestra 1 Fn ( x ) = muestra 2 Dexp = max F0 ( x ) − Fn ( x ) H 0 : X → F(x) nº observaciones ≤ x n º observaciones ≤ x Fm ( x ) = n m Dexp = max Fn ( x) − Fm ( x) Contraste bilateral:  H 0 : Fn ( x) = Fm ( x)     H1 : Fn ( x) ≠ Fm ( x)  H 1: X → G ( x).14) ó  H 0 : Fn ( x) = Fm ( x)    (2)  H1 : Fn ( x) > Fm ( x)  distinguiendo si n = m o n ≠ m y si el test es unilateral o bilateral. G ( x) ≠ F ( x) Contrastes unilaterales:  H 0 : Fn ( x) = Fm ( x)    (1)  H1 : Fn ( x) < Fm ( x)  rechazamos H 0 si Dexp > Dα (tabla A. (Tablas A.18 y A. Fn ( x) ≠ Fm ( x) H1 = Fn ( x) < Fm ( x) ( La muestra de tamaño n toma valores mayores que la muestra de tamaño m). Se rechaza H 0 si U 0 ≤ Uα n ≤ 20 y m ≤ 40 (tablas 3.20) n + m > 60 Se rechaza H 0 si U 0 ≤ U α Se rechaza H 0 si U 0 ≤ Uα (Uα valor crítico para el test bilateral ) (Uα valor crítico para el test unilateral ) (Uα valor crítico para el test unilateral ) U0 − µ ( z → N (0. H1 = Fn ( x) > Fm ( x) ( La muestra de tamaño n toma valores menores que la muestra de tamaño m).Contraste de Mann-Whitney (muestras independientes). Fn ( x) = Fm ( x) H1 = Las muestras proceden de poblaciones distintas. U 2 ) H 0 = Las dos muestras proceden de la misma población.1) ) σ = z0 µ= nm 2 σ2 = nm(n + m + 1) 12 p = P [ z ≤ z0 ] Se rechaza H 0 si p ≤ α 2 Se rechaza H 0 si p ≤ α Se rechaza H 0 si p ≤ α 397 . U1 = nm + muestras de tamaños n y m n≤m n(n + 1) − R1 2 U 2 = nm + m(m + 1) − R2 2 U 0 = min (U1 .17 a 3. muestra NO es aleatorio (casual ) ( pocas rachas ) (muchas rachas) n1 y n2 ≤ 20 (tabla 4.Test de las rachas (aleatoriedad. de poblaciones distintas. H 0 = El orden de los valores de la muestra es aleatorio (casual ) H 0 = Las dos muestras proceden de la misma población H A1 = Las dos muestras proceden H A = El orden de los valores de la H A1 = Efecto de aglomeración H A 2 = Los valores se suceden de forma regular. muestras independientes).40) ( pocas rachas ) Se mantiene H 0 si ru < R < ro (límites inferiores y superiores del Se mantiene H 0 si ru < R (límites inferiores del α %) Se mantiene H 0 si R < ro Se mantiene H 0 si ru < R (límites superiores del α %) (límites inferiores del α %) α 2 %) =z ( N (0.1) ) n1 o n2 > 20 R−µ σ µ= 2n1n2 +1 n1 + n2 σ2 = ( n1 + n2 ) ( n1 + n2 − 1) 2 2n1n2 (2n1n2 − n1 − n2 ) Se mantiene H 0 si − zα < z < zα 2 2 Se mantiene H 0 si − zα < z Se mantiene H 0 si z < zα Se mantiene H 0 si − zα < z 398 . F1 ( x) > F2 ( x) ( La muestra 1 toma valores menores que la muestra 2). EI ≤ d + } 101 ≤ n ≤ 1000 (tabla 4. F1 ( x) < F2 ( x) ( La muestra 1 toma valores mayores que la muestra 2). d − } ≤ ED Se acepta H 0 si {d + ≤ ED .4) Se acepta H 0 si EI ≤ {d + .Test de los signos (muestras dependientes). EI ≤ d + } 30 ≤ n ( N (0. n ≤ 100 (tabla 4. por tanto. − zα ≤ z− } Se acepta H 0 si { z− ≤ zα . d − } ≤ ED Se acepta H 0 si {d+ ≤ ED .1) ) z+ = d+ − µ σ z− = d− − µ σ z+ = d+ − µ σ z− = d− − µ σ µ= n 2 σ2 = n 4 Se acepta H 0 si { z+ ≤ zα . F1 ( x) = F2 ( x) Se rechaza H 0 cuando hay demasiadas diferencias de un signo y. H 0 : La mediana de las diferencias es cero ≈ Las dos muestras proceden de la misma distribución. EI ≤ d − } Se acepta H 0 si {d− ≤ ED . − zα ≤ z+ } Se acepta H 0 si − zα ≤ { z+ . F1 ( x) ≠ F2 ( x) H1 : Las dos muestras proceden de distribuciones distintas. H1 : Las dos muestras proceden de distribuciones distintas. muy pocas del signo contrario di = xi1 − xi 2 d + = diferencias de signo positivo d − = diferencias de signo negativo H1 : Las dos muestras proceden de distribuciones distintas.5) Se acepta H 0 si EI ≤ {d + . EI ≤ d − } Se acepta H 0 si {d − ≤ ED . z− } ≤ zα 2 2 399 . n ≤ 65 ( tabla 4.2 ) Se rechaza H 0 si R ≤ Rα ( Rα valor crítico para el test ) n > 25 ( N (0. di = xi1 − xi 2 ⇒ ordenar di de menor a mayor ⇒ R+ y R− ⇒ verificar R+ + R− = n(n + 1) ⇒ R = min( R+ . H0 : f(+d)= f(-d) F(+d)+ F(-d)= 1 H1 : Las dos muestras proceden de distribuciones distintas. R− ) 2 H 0 : La distribución de las diferencias es simétrica alrededor de su mediana 0 ≈ Las dos muestras proceden de la misma distribución.1) ) R−µ σ =z µ= n(n + 1) 4 σ2 = n ( n + 1)( 2n + 1) 24 Se rechaza H 0 si z ≤ − zα 2 (test bilateral ) Se rechaza H 0 si z ≤ − zα (test unilateral ) 400 .Test de Wilcoxon de los signos-rangos (muestras dependientes).

Description

Comments