1. UNIVERSIDAD NACIONALMAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMERICA FACULTAD DE CIENCIAS MATEMÁTICAS Mg. María Estela Ponce Aruneri ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA SEMESTRE ACADÉMÍCO 2009-Ii CURSO: ANÁLISIS MULTIVARIANTE 2. UNIDAD 3: INFERENCIA ESTADÍSTICA MULTIVARIANTE 3. INFERENCIA ESTADÍSTICA MULTIVARIANTE Fundamentos de la estimación por el método de Máximo Verosimilitud 1ºMétodo creado por Fisher, encuentra el estimadorque maximiza el logaritmo de la función de verosimilitud. 2º Se tiene una m.a. de tamaño “n” de una variable p-dimensionalconfunción de densidad: 4. 3º La función de verosimilitud: 4º El EMV se obtiene calculando el valor máximo dela función de verosimilitud, sí la función es diferenciable y su máximo no ocurre en un extremo de su dominio. 5. 4ºEl máximo del logaritmo de la función de verosimilitud : Se le denomina función soporte. 5º Este método proporciona estimadores con las siguientes propiedades: Asintóticamente centrados: b) Con distribución asintóticamente normal: c) Eficiente (asintóticamente de varianza mínima) 6. d) Si existe un estadístico suficiente para el parámetro, elEVM es suficiente. siendohuna función no negativa que no depende deyruna función que sólo depende del parámetro y de la muestra a través del estimador. e) Los EMV son invariantes para cualquier función del parámetro, cuyo estimador es MV. Sies EMV de , entonceses EMV deg ( ) . 7. ESTIMACIÓN DE LOS PARÁMETROS DE UNA DISTRIBUCIÓN NORMAL P-VARIADA Sea :una m.a.s. extraída de una Población Normal p-variada donde:Objetivo:Encontrar los EMV deµ , 1ºConstruir la función de densidad conjunta 8. 2º La función soporte, eliminando la constante: 3º Resolviendo el segundo término de la expresión anterior: Pero : Reemplazando esta última expresión en la anterior se tiene: 9. Puesto que: Aplicando las propiedades de traza para el primer término de la expresión anterior: Reemplazando esta expresión en la función soporte: 10. 4º Obtención del EMV del vector de medias poblacional: Como la inversa dees definida positiva, entonces: 5º Obtención del EMV de la matriz de covarianzas poblacional: 11. Reemplazando el EMV del vector de mediasy sumando un término que nos permita obtener el máximo de la función con respecto a, se tiene que la función soporte se reduce a: Sean ilos autovalores de - 1 S: 12. Esta función tendrá un máximo cuando i =1; es decir la función soporte será máxima cuando todos los autovalores de -1 Sson iguales a la unidad y se obendrá cuando el EMV deesS : Definición 1:Sies una muestra aleatoria, extraída de una poblaciónnormal p-variada con vector de medias poblacionalµy matriz de covarianzas ,entonces Son estadísticas suficientes. 13. Definición 2:Sies una muestra aleatoria detamaño “n”, extraída de una poblaciónnormal p-variada con vector de medias poblacionalµy matriz de covarianzas ,entonces: Definición 3: Consecuencia de la ley de los grandes números es que: converge enprobabilidad aµ 14. Teorema del límite central Seaobservaciones independientes de alguna población con vector de mediasµy matriz de covarianza finita , entonces Cuando n yn > p 15. RESUMIENDO Síobservaciones independientes de alguna población con vector de mediasµy matriz de covarianza finita y no singular , entonces 16. Región de Confianza y Pruebas de Hipótesis para el vector de medias de una población Regiones de Confianza para el vector de medias 1ºUna región de confianza del 100(1- )% para el vector de medias de una población que tiene distribución normal p-variada está dado por: Donde: 17. Son las observaciones muestrales . Observación: Sí p4 no es posible graficar la región de confianza para el vector de medias, pero sí es posible calcular los ejes del elipsoide confidencial y sus respectivas longitudes . 18. Si el centro es el vector de medias muestral, entonces los ejes del elipsoide confidencial están dados por: Ejemplo : De 195 provincias del Perú en el año 2005, se obtuvo la siguiente información : 19. 91: HUAYCABAMBA95: PACHITEA121: SANCHEZ CARRIÓN 20. Obtener una región de confianza del 95% para el vector de medias de la población de pacientes que sufrieron infarto al miocardio y que tiene distribución normal bivariada . Los autovalores y autovectores deSson: Reemplazando los valores enla región de confianza se tiene: 21. Sí:¿se encontrará dentro de la región deconfianza? Reemplazando los valores del vector de medias se tiene: 0,0372 > 0,031848 22. Para graficar el elipsoide, se tiene que la longitud media de los ejes está dado por: 23. 2ºUna región de confianza del 100(1- )% para el vector de medias de una población que tiene distribuciónp-variada y matriz de covarianza definida positiva, y sin-p se tiene que: Ejemplo :Suponga que no se conoce la distribución de la población de los datos del ejercicio anterior y calcule la región de confianza para el95% de confianza. 24. ¿Se encontrará en la región de confianza? Reemplazando los valores del vector de medias se tiene: 0.3147 > 0,030718 25. Para graficar el elipsoide: 26. Pruebas de Hipótesis para el vector de medias de una población Método de la razón de Verosimilitud Proporciona pruebas estadísticas, que tienen ciertas propiedades óptimas para tamaños muestrales grandes. Dado: Y queremos probar las siguientes hipótesis: 27. Definición 1 .-Si la distribución de una muestra aleatoriaX= (X 1 , X 2 , …..,X n ) depende de un vector de parámetrosy si: Entonces la razón de verosimilitud, para contrastarH o contraH 1 se define como: Dondef ( H i ) es el mayor valor que toma la función de verosimilitud en la región i i=0,1. Si el tamañode la muestra es grande se tiene que cuando la hipótesis nula es cierta: 28. Definición 2 : La prueba de razón de verosimilitud de tamaño para probar la hipótesis nula contra la hipótesis alternativa, tiene como región de rechazo: ¿Cuál es le valor de gl( )=? gl( )=dim ( )-dim ( o )= p-(p-r)= r, 29. Prueba de hipótesis 1) Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria detamaño “n”, extraída de una poblaciónnormal p-variada con vector de medias poblacionalµy matriz de covarianzas conocida,entonces: De la sección anterior se tiene que la función soporte para obtener los EMV, viene dada por: 30. Reemplazando los EMV en la función soporte se tiene que el soporte para H 1es: BajoH o, se tiene que la expresión (*) se convierte en: Sumando una cantidad constante , se tiene que: 31. EntoncesS oes el EMV debajo la hipótesis nula, reemplazando este estimador en (**) se tiene el soporte paraH o : Luego: 32. Utilizaremos el siguiente lema: SiAes una matriz no singular ybes un vector: 33. Cuando el tamaño de muestra es suficientemente grande o la matriz de covarianzas poblacional es conocida. 34. 2)Sí X= (X 1 , X 2 , …..,X n ) es una muestra aleatoria detamaño “n”, extraída de una poblaciónnormal p-variada con vector de medias poblacionalµy matriz de covarianzas desconocida,y si queremos probar: Rechazaremos la hipótesis nula cuando A un nivel de significancia “ ” , rechazamos la hipótesis nula sí: 35. Ejemplos: 1) La siguiente información se obtuvo del estudio del IDH en 195 provincias del Perú, en el 2005. Se consideraron las siguientes variables: X 1 : % DE ALFABETISMO X 2 : % DE ESCOLARIDAD X 3 : % LOGRO EDUCATIVO X 4 : INGRESO FAMILIAR PERCAPITAMENSUAL: NUEVOS SOLES 36. 37. Supongamos que tienen distribución normal p-variada con vector de mediasµy matriz de covarianzas: 38. Pruebe la siguiente hipótesis: 39. Rechazamos la hipótesis nula al 5%, luego: 40. Ejemplo 2:De 100 grandes compañías de los EEUU, se obtuvo la siguiente información:Probar la hipótesis: X 1 : gastos intangiblesen millones X 2 : gastos de publicidad en miilones X 3 : gastos en investigación y desarrollo en millones 41. 42. No Rechazamos la hipótesis nula al 5%, luego: 43. Región de Confianza y Pruebas de Hipótesis parala diferencia de vectores de medias poblacionales Distancia de Mahalanobis para dos poblaciones con vector de mediasµ 1 , µ 2y matriz de covarianza , entonces Si se tiene dos muestras aleatorias de tamaño n 1y n 2, donde n= n 1 + n 2entonces la distancia de mahalanobis muestral se define como: 44. Teorema :SiX 1yX 2son matrices de datos independientes, y si las n ifilas dex ison i.i.d con N p ( µ i , i ), i=1,2, cuandoµ 1 =µ 2 y 1= 2,se tiene que: Prueba: 45. Por teorema: De (*) y (**): 46. Región de Confianza parala diferencia de vectores dedos medias poblacionales Six ies una muestra aleatoria de tamaño n i , extraída de una población con N p ( µ i , i ), i=1,2, ambasmuestras pequeñas e independientes y 1= 2= desconocido, y si: 47. 48. Ejemplo: En una muestra de dos grupos de individuos: No son Jefes de familia y los que son Jefe de familia. Las variables consideradas son: X 1 : número de semanas de desempleo X 2 : edad del trabajador en años Obtenga la región para el 99% de confianza . Grafique los contornos del elipsoide si: 49. 50. Para graficar el elipsoide se tiene : Los autovalores y autovectores deson: 51. La longitud mediade los ejes: Tarea :¿Cuál será la región de confianza para la diferencia de vectores de medias de dos poblaciones si 1 2