05-CL(48-60).doc

April 24, 2018 | Author: Anonymous | Category: Documents
Report this link


Description

U 52 60 U.T.N. - F.R.R - Año 2005 ESTADISTICA DESCRIPTIVA RELACIONES ENTRE VARIABLES Unidad 6 -TEORIA DE LA CORRELACION LINEAL Profesor Titular: Eº Mario J. Garber 1 - CONCEPTO: La Teoría de la Correlación Lineal reúne el conjunto de procedimientos matemáticos que permiten calcular un coeficiente de correlación lineal ( r ) que mide · en forma directa, el grado de relación lineal entre dos variables Xi e Yi. · en forma indirecta, si un ajustamiento lineal es o no es bueno en el caso de un diagrama de dispersión determinado. Por consiguiente, el coeficiente de correlación lineal, que puede calcularse cuando se desea resolver un problema de ajustamiento lineal, suministra al investigador un valor objetivo mediante el cual él puede decidir si resulta conveniente o apropiado realizar el ajuste lineal o, en caso contrario, buscar una solución diferente, tal vez no lineal. 2 - TIPOS DE CORRELACION LINEAL: En los gráficos que se muestran más adelante se presentan los diferentes tipos de correlación lineal. El caso 1 presenta un conjunto de puntos con una relación lineal directa entre las dos variables bajo estudio, es decir que a un crecimiento de cualquiera de las dos variables, le corresponde un crecimiento de la otra. En cambio, el caso 2 muestra al conjunto de puntos con una relación lineal inversa, lo que significa que al crecimiento de una variable le corresponde el decrecimiento de la otra, y viceversa. Los puntos del caso 3 muestran una situación en la que la correlación lineal es inexistente, pero podría existir una correlación de cualquier otro tipo (se observa que la disposición de los puntos tiene una apariencia más bien circular). En ese caso, el valor del coeficiente de correlación lineal debería indicar que lo que no existe es una relación lineal entre las variables, pero eso no significa, se reitera, que no pueda ser posible la existencia de una relación circular entre ellas. Aquí se puede observar el importante detalle que las rectas de ajustamiento y se cruzan formando un ángulo de 90 grados. GRAFICO Nº 1- TIPOS DE CORRELACION LINEAL Existe un caso extremo poco frecuente desde el punto de vista empírico denominado de correlación lineal perfecta (directa o inversa), en el cual todos lo puntos del diagrama de dispersión se encuentran perfectamente alineados y, por consiguiente, coinciden con las dos rectas de ajustamiento y . Se presenta en sus dos versiones en los siguientes gráficos: GRAFICOS Nº 2 - CORRELACION LINEAL PERFECTA Correlación lineal perfecta Correlación lineal perfecta directa inversa 3 - CALCULO DEL r - FORMULA DE LOS MOMENTOS: El coeficiente de correlación r puede calcularse mediante la fórmula de los momentos propuesta por el matemático Pearson y cuya expresión simbólica es la siguiente: . La fórmula algebraica tiene la siguiente expresión: , a partir de la cual, recordando que la covariancia y los desvíos estándar tienen sus correspondientes fórmulas de trabajo, puede construirse la “fórmula de trabajo” del coeficiente de correlación que es utilizada empíricamente para calcular el coeficiente de correlación en la mayoría de los casos. Finalmente, mediante la simplificación de los términos del numerador y denominador de la fórmula algebraica, se obtiene una nueva expresión para el r denominada fórmula abreviada, que será utilizada fundamentalmente en demostraciones teóricas por su sencillez y brevedad: (recordando que y que ). Para calcular r mediante la aplicación de la fórmula de trabajo, se utiliza una tabla de datos empíricos con tantas columnas como sean necesarias para obtener los resultados que requiere la fórmula, según el siguiente formato: Xi Yi XiYi Xi2 Yi2 X1 Y1 X1Y1 X12 Y12 X2 Y2 X2Y2 X22 Y22 … … … … … Xn Yn XnYn Xn2 Yn2 Xi Yi XiYi Xi2 Yi2 Con los cinco resultados del cuadro anterior, se calcula el coeficiente de correlación. Obsérvese que las primeras cuatro sumas coinciden con las requeridas para calcular los parámetros en el ajustamiento lineal, de modo que en caso de disponerse de ellas sólo se deberá agregar la . Ejemplo: Calcular el coeficiente de correlación lineal en el problema del capítulo correspondiente al ajustamiento lineal (ver fascículo anterior). El cuadro obtenido en aquél cálculo es totalmente aprovechable y sólo debe agregársele una columna para calcular Yi2. Xi Yi Xi2 Xi Yi Yi2 El cálculo de las medias aritméticas de 1 3 1 3 9 las variables Xi e Yi dan, cada una de 2 5 4 10 25 ellas, un resultado igual a 3. 3 1 9 3 1 4 2 16 8 4 5 4 25 20 16 15 15 55 44 55 En posteriores pasos se verá qué significa que el coeficiente de correlación tenga ese valor y que adopte el signo negativo. 4 - CALCULO DEL r A PARTIR DEL PRODUCTO DE LAS PENDIENTES: El método abreviado de cálculo que fuera desarrollado en el tema ajustamiento lineal, permite encontrar la pendiente b1´ de la recta de ajustamiento mediante la fórmula . Como se sabe que , efectuando un pasaje de términos, resultará , y reemplazando Yi en la fórmula de b1´, finalmente quedará (debido a que ). Con idéntico criterio, como , tendremos que , de modo que en la fórmula de b2´, al reemplazar Xi y operar algebraicamente, se obtendrá una nueva versión para calcular ese parámetro, resultando . Multiplicando las pendientes de ambas rectas de ajustamiento así expresadas, obtendremos: , de suerte que, finalmente, Esta expresión, más que permitir el cálculo del r, permite extraer dos conclusiones: a) las pendientes de las rectas de ajustamiento y tienen el mismo signo (lo cual las hace crecientes o decrecientes simultáneamente) o ambas son nulas. De lo contrario el r no podría ser calculado. b) el signo del coeficiente de correlación es, por convención, similar al de las pendientes. Si la relación es directa, el signo del r será positivo; si la relación es inversa, el signo del r será negativo. 5 - CALCULO DEL r A PARTIR DE LAS VARIACIONES: 5.a) Definición de las variaciones, las variancias y los errores estándar: Definiremos las siguientes variaciones, fácilmente observables en el gráfico que se presenta más abajo, y que muestra la situación referida a un solo punto Yj con el propósito de simplificar la observación: · Variación total: es la sumatoria de los desvíos al cuadrado entre los puntos empíricos y la media aritmética Si dividimos VT por n obtendremos, obtendremos la variancia de Yi: y la raíz cuadrada de esa variancia permite calcular permite calcular el Desvío Estándar de y (Sy). · Variación explicada: es la sumatoria de los desvíos al cuadrado entre los puntos teóricos y la media aritmética · Variación no explicada: es la sumatoria de los desvíos al cuadrado entre los puntos empíricos y los teóricos (dados por la recta de ajustamiento) . . Dividiéndola por n, se obtiene . GRAFICO Nº 3 - DETALLE DE LAS VARIACIONES Recordando que en un punto anterior se definió a la recta de ajustamiento como una media dinámica, al observar la expresión precedente se ve claramente que ella tiene el aspecto de una variancia, y efectivamente lo es, porque mide cómo se alejan los puntos del diagrama de dispersión respecto de la “media dinámica”, que es la recta de ajustamiento . Por eso se la simboliza con Sy.x2, y se la denomina variancia del estimador de Y en X o simplemente variancia del estimador. La raíz cuadrada de la variancia del estimador permite obtener el error estándar del estimador (Sy.x). El gráfico siguiente permite observar cómo se presentan los errores estándar Sy y Sy.x . GRAFICO Nº 4 - ERRORES ESTANDAR El nombre que reciben las variaciones se debe a la siguiente circunstancia: · la variación explicada se denomina así porque en su cálculo intervienen los puntos teóricos cuya disposición en el diagrama de dispersión se encuentra explicada por el modelo lineal calculado de acuerdo con la Teoría del ajustamiento. · la variación no explicada se denomina así porque en su cálculo intervienen los puntos empíricos , cuya presencia en el diagrama de dispersión no se encuentra explicada por ningún modelo ya que responden a datos originados en observaciones experimentales y, por ende, sujetos al azar. · la variación total se denomina así porque resulta ser la suma de las dos anteriores. Ahora bien, observando detenidamente las expresiones correspondientes a cada una de las variaciones, se puede verificar que: a) las tres son positivas, ya que son calculadas como sumas de desvíos al cuadrado. No pueden adoptar valores negativos. b) la y pueden ser nulas. Eso ocurre cuando los puntos teóricos coinciden con la media aritmética de Yi, en el primer caso, y cuando los puntos empíricos coinciden con los teóricos , en el segundo caso. Por consiguiente 5.b) Relaciones entre las variaciones: Se ha mencionado precedentemente que la variación total es la suma de las variaciones explicada y no explicada, es decir que . A continuación se demostrará esta relación: Sea . Elevando al cuadrado ambos miembros, quedará: . Se aplica sumatoria en ambos miembros: La última de las sumatorias precedentes se anula: Esto es así debido a las propiedades de las ecuaciones normales de Gauss, ya que y (Unidad 6-Teoría del Ajustamiento). 5.c) Cálculo de las variaciones: Las variaciones pueden ser calculadas en forma particular e independiente. Analizaremos cada una de ellas caso por caso: 5.c.1. -Cálculo de la variación no explicada: EMBED Equation.2 Las dos últimas sumatorias se anulan por la propiedad de las ecuaciones normales de Gauss, de modo que, en definitiva, resulta 5.c.2. -Cálculo de la variación explicada: A partir de la existencia de la relación entre las variaciones, se efectúa la siguiente operación: , y simplificando , y reordenando los términos 5.d) Deducción de la fórmula del r a partir de las variaciones: En función de todas las definiciones y relaciones indicadas anteriormente, recordando además que ; que y que la recta de ajustamiento se puede escribir como , en esta última ecuación se efectúa un pasaje de términos que permite escribir o, lo que es lo mismo, . Elevando al cuadrado en ambos miembros de la igualdad y sumando para todo i, se tiene . Ahora partamos de la fórmula del r2 escrita por el método abreviado de cálculo . Multiplicando y dividiendo por , tenemos EMBED Equation.2 . Reemplazando adecuadamente el numerador y el denominador de esta última expresión por los términos hallados en este mismo punto más arriba, se obtiene . Por consiguiente , fórmula ésta que, prácticamente, es utilizada poco y nada para calcular el coeficiente de correlación, pero que permite extraer las siguientes conclusiones: · De acuerdo con la demostración que dice que y con el hecho que las variaciones explicada y no explicada pueden ser, o nulas o positivas, tenemos que · · · Si ahora consideramos que . Observando las fórmulas de las variaciones explicada y total, se verifica que VE=VT si , es decir, si los puntos empíricos coinciden con , esto es, están perfectamente alineados. El gráfico que se presenta más abajo ilustra cuándo ocurre esto: cuando las dos rectas coinciden entre sí y con los puntos empíricos. En ese caso, la correlación es perfecta con pendiente positiva. · Idéntica situación se presenta cuando . Sólo que en este caso la correlación es perfecta pero con pendiente negativa. Véase, en el gráfico indicado, esta circunstancia. · Si Esto ocurre cuando , es decir cuando los puntos teóricos de la recta coinciden con la media de Yi, y, en ese caso, la correlación lineal es nula y las rectas de ajustamiento se cruzan a 90º. Eso también se ilustra en el gráfico. GRAFICO Nº 5 - CASOS PARA DIFERENTES VALORES DE r Caso en que r =+1 Caso en que r =-1 Caso en que r = 0 5.e) Conclusión: De todo lo deducido precedentemente, se concluye que y que 6 - COEFICIENTE DE DETERMINACION: Se denomina de esa manera al coeficiente de correlación lineal al cuadrado (r2), e indica cuál es la proporción de la Variación total que se encuentra explicada por el modelo aplicado en un determinado ajustamiento lineal. De otra manera, el coeficiente de determinación, que se calcula dividiendo VE sobre VT y que puede multiplicarse por cien, es un excelente indicador objetivo para determinar (de allí su nombre) qué porcentaje de la variación total está explicada por el modelo lineal. A modo exclusivamente orientativo, se agrega a continuación un cuadro en el que se presentan diferentes valores del coeficiente de correlación con su correspondiente valor del coeficiente de determinación, y una calificación respecto de la calidad del ajustamiento lineal en cada caso: r r2 Porcentaje explicado Calidad del Ajuste lineal 0,90 / 1,00 0,81 a 1,00 81% a 100 % Muy bueno 0,80/ 0,90 0,64 a 0,81 64% a 81 % Bueno 0,70/ 0,80 0,49 a 0,64 49 % a 64 % Regular 0,60/ 0,70 0,36 a 0,49 36 % a 49 % Malo Menos de Menos de 0,36 Menos del 36 % Muy Malo 7 - CORRELACION Y DEPENDENCIA ESTADISTICA - CONCLUSIONES: Deben tomarse en cuenta las siguientes conclusiones: a) La existencia de dependencia estadística entre dos variables implica que entre ellas existe algún grado de correlación, pero la inversa no es cierta: la existencia de correlación entre dos variables no implica que exista dependencia estadística entre ellas. Eso quiere decir que la relación entre dos variables puede existir y ser alta, pero esa relación no significa que dependan estadísticamente la una de la otra. Por ejemplo: entre las variables “número de fallecidos en una ciudad” y “cantidad de pájaros en la misma ciudad” puede haber un grado de relación inversa muy estrecha (a menor número de pájaros mayor número de fallecidos), pero sin embargo entre ellas no existe ninguna dependencia, ni funcional ni estadística. Lo que sí existe en este caso es una tercera variable no visible, la temperatura, o, en otras palabras, los meses del año para los cuales se toma la información, (el investigador debe profundizar en su búsqueda para descubrir la posible existencia de esas variables ocultas cuando realiza una investigación de cualquier naturaleza), ya que se puede comprobar fácilmente que en los meses de baja temperatura, tradicionalmente los de invierno, aumenta el número de fallecidos y disminuye el número de pájaros debido a las migraciones. En realidad, entonces, las variables “número de fallecidos” y “cantidad de pájaros” son estadísticamente independientes. b) La obtención de un resultado nulo para el coeficiente de correlación lineal r, indica que las variables bajo estudio no tienen correlación lineal o, lo que es lo mismo, indica que las variables bajo estudio son linealmente independientes. Sin embargo entre las variables sí puede existir alguna correlación de tipo no lineal (circular, elíptica, parabólica, etc.). El coeficiente de correlación r sólo mide el grado de relación lineal entre dos variables, pero permite abrir juicio sobre la existencia de otro tipo de relación no lineal. c) En el tema Medidas de dispersión se demostró cuál es el resultado de calcular la variancia de una suma o de una diferencia de variables (5ª propiedad), a través de la cual se verificó que o bien que . Recordando que , se puede efectuar el siguiente proceso de análisis: · Si las variables son linealmente independientes, luego . · Un resultado se presenta únicamente cuando (ver la fórmula). · Si , eso quiere decir que o que . · Por consiguiente cuando dos variables Xi e Yi son linealmente independientes, la variancia de su suma o de su diferencia es siempre igual a la suma de sus respectivas variancias. Ejemplo: Con los datos que se indican a continuación a) construir el diagrama de dispersión b) calcular el coeficiente de correlación lineal c) calcular la variancia de Yi d) obtener el error estándar de Yi e) calcular la variación total f) calcular la variación no explicada g) calcular la variación explicada h) calcular el coeficiente de determinación i) indicar la calidad del ajustamiento hallado Soluciones: a) Nota: la recta de ajustamiento que corresponde a este diagrama de dispersión es . Xi Yi Xi Yi Xi2 Yi2 2 15 30 4 225 5 10 50 25 100 8 8 64 64 64 10 5 50 100 25 15 2 30 225 4 40 40 224 418 418 b) = c) d) e) f) g) h) (haciendo el cuadrado del coeficiente de correlación) (haciendo el cociente entre VE y VT) i) el ajustamiento lineal aplicado resulta muy bueno porque explica el 95,96 % de la variación total. CUADRO SINOPTICO SOBRE TEORIA DE LA CORRELACION Colaboración de la Profesora María de los Arcos Martínez PREGUNTAS TEORICAS SOBRE TEORIA DE LA CORRELACION: 1) Suponga que en un problema de ajustamiento lineal se obtienen los siguientes datos: . En ese caso, ¿cómo es el coeficiente de correlación lineal? a) positivo b) negativo c) nulo 2) La recta de ajustamiento y la recta de ajustamiento . En ese caso: a) la correlación es perfecta b) la correlación no es perfecta c) el problema es insoluble 3) Si el coeficiente de correlación r =0,50, entonces a) b) c) BIBLIOGRAFIA CONSULTADA: · Berenson – Levine “Estadística básica en Administración” Editorial Prentice Hall - 6ª Edición · Kazmier L. – Díaz Matta A. “Estadística Aplicada a Administración y Economía” Editorial McGraw Hill - 2ª Edición · Levin – Rubin “Estadística para Administradores” Editorial Prentice Hall – 6ª Edición · Montiel – Ríos – Barón “Elementos Básicos de Estadística Económica y Empresarial” Editorial Prentice Hall - Año 1996 · Mendenhall – Reinmuth “Estadística para Administración y Economía” Grupo Editorial Iberoamérica - Año 1993 · Johnston “Métodos de Econometría” Editorial Vinces-Vives - 3ª Edición - Año 1975 · Gujarati “Econometría” Editorial McGraw Hill - 2ª Edición - Año 1993 · Spiegel M. - “Teoría y Problemas de Estadística” - Editorial Shaum �EMBED OrgPlusWOPX.4��� ------------------------------------ Probabilidades y Estadística – Año 2005 _949389321.unknown _949858394.unknown _951979317.unknown _1028700860.unknown _1028700861.unknown _1036828631.unknown _996674099.unknown _1019369743.bin _1023690351.unknown _996674100.unknown _996674098.unknown _996672758.unknown _996672759.unknown _951979318.unknown _949910534.unknown _951929803.unknown _951979315.unknown _951979316.unknown _951929912.unknown _951979314.unknown _951929903.unknown _949910785.unknown _949913015.unknown _951929553.unknown _951929763.unknown _949995279.unknown _949995407.unknown _949910950.unknown _949910861.unknown _949910706.unknown _949910759.unknown _949910682.unknown _949858597.unknown _949859021.unknown _949910398.unknown _949910466.unknown _949859024.unknown _949858881.unknown _949858993.unknown _949858746.unknown _949858802.unknown _949858589.unknown _949858594.unknown _949858565.unknown _949502831.unknown _949504141.unknown _949564914.unknown _949566560.unknown _949566631.unknown _949565413.unknown _949565484.unknown _949565750.unknown _949565212.unknown _949561576.unknown _949564552.unknown _949561565.unknown _949504666.unknown _949504917.unknown _949504527.unknown _949503778.unknown _949504076.unknown _949504112.unknown _949503926.unknown _949503274.unknown _949503533.unknown _949502928.unknown _949389588.unknown _949502827.unknown _949502829.unknown _949502830.unknown _949502828.unknown _949389590.unknown _949475459.unknown _949482627.unknown _949482751.unknown _949397195.unknown _949389589.unknown _949389586.unknown _949389587.unknown _949389585.unknown _949300844.unknown _949306635.unknown _949332052.unknown _949389319.unknown _949389320.unknown _949387896.unknown _949389318.unknown _949387965.unknown _949332473.unknown _949331354.unknown _949331537.unknown _949306893.unknown _949330828.unknown _949308719.unknown _949306755.unknown _949305898.unknown _949306421.unknown _949306500.unknown _949306459.unknown _949306329.unknown _949305607.unknown _949305738.unknown _949305591.unknown _949305286.unknown _949301133.unknown _948986082.unknown _948986630.unknown _949300698.unknown _949300786.unknown _949300622.unknown _949300422.unknown _948986084.unknown _948986083.unknown _948986073.unknown _948986077.unknown _948986081.unknown _948986079.unknown _948986075.unknown _948986076.unknown _948986074.unknown _948986062.unknown _948986064.unknown _948986072.unknown _948986063.unknown _948986060.unknown _948986061.unknown _948986058.unknown _948986059.unknown _948985614.unknown


Comments

Copyright © 2025 UPDOCS Inc.