Modelos Logit y Probit

June 13, 2018 | Author: Hector Palacios | Category: Logistic Regression, Normal Distribution, Probability Distribution, Statistical Theory, Physics & Mathematics
Report this link


Description

MODELOS DE VARIABLE DEPENDIENTE CATEGÓRICA O LIMITADA: Se consideran modelos de regresión en los que la variable dependiente puede estar CENSURADA o TRUNCADA, puede tratarse de una variable de CONTEO, o ser una variable de tipo cualitativo: BINARIA, ORDINAL, NOMINAL. Variables binarias: Tienen dos categorías. Normalmente indican que ha ocurrido un suceso, que alguna característica está presente o que se elige una opción. Ejemplos: trabajador en paro; compra de un producto; participación en las elecciones;… Variables ordinales: Tienen categorías que pueden ordenarse de menor a mayor. Ejemplos: en las encuestas se pregunta sobre el nivel de acuerdo con respecto a alguna afirmación, permitiendo responder en una escala ordinal, por ejemplo: “completamente de acuerdo”, “de acuerdo”, “en desacuerdo”, “completamente en desacuerdo”; valoraciones sobre el nivel de satisfacción al consumir un bien o servicio (“muy satisfecho”,…, “muy insatisfecho”); frecuencia de una determinada acción (“nunca”, …, “muy frecuentemente”); nivel de educación alcanzado;… Variables nominales: Cuando hay múltiples respuestas, que no pueden ordenarse. Ejemplos: tipo de empleo, status matrimonial, elección política, preferencia de marcas,… Variables censuradas: Se dan cuando los valores de una variable se desconocen para algún rango de la variable. Ejemplos: En información de renta personal o familiar, cuando se definen intervalos del tipo “más de …” o “menos de…”; en modelos de demanda, cuando no se realiza ninguna compra del bien;… Variables de conteo: Indican el número de veces que ha ocurrido algún suceso. Ejemplos: Número de visitas al médico en un año; número de publicaciones de un científico; número de visitas a un lugar de ocio; número de hijos de una familia; años de educación;… El nivel de medida de una variable no siempre es único. Los años de estudios pueden ser una variable de conteo, pero el nivel de estudios puede plantearse como una variable ordinal o nominal. Si se considera un corte en el nivel de estudios (con o sin estudios universitarios) podría tratarse como dicotómica. 1 MODELOS CON VARIABLE DEPENDIENTE CUALITATIVA Tipos de modelos de elección discreta Elección entre dos alternativas Modelos de elección binaria (binomiales) Elección entre más de dos alternativas Modelos de elecciones múltiples (multinomiales) Alternativas no ordenadas Alternativas ordenadas 2 MODELO DE ELECCIÓN BINARIA • Modelo de probabilidad lineal. • Modelo logit. • Modelo probit. Modelo de probabilidad lineal El modelo de probabilidad lineal es el modelo de regresión aplicado a una variable dependiente binaria. La notación que utilizaremos será la misma que la habitualmente empleada en el modelo de regresión lineal. Para N i ,..., 1 · : i Ki K i i u x x y + + + · β β ... 1 1 i i i u y + · β ' x Donde: y 1 1 ] ] ] ] ] · ] ] ] ] ] · K Ki i i x x β β β   x Y i u es un término de perturbación de media cero. En el modelo lineal de probabilidad, la variable endógena toma únicamente dos valores: 1 · i y , cuando ocurre un determinado suceso. 0 · i y , si el suceso no ocurre. El valor esperado de esta variable, [ ] β ' i x · i i x y E , puede interpretarse como la probabilidad de que ocurra el suceso: [ ] [ ] [ ] [ ] i i i x x x x 1 0 0 1 1 · · · ⋅ + · ⋅ · i i i i i y P y P y P y E El valor esperado de y dado x es la probabilidad de que y i = 1. Por tanto, el modelo de probabilidad lineal se puede escribir como: [ ] β i i i Y P p x x i ′ · · · 1 Problemas del modelo lineal de probabilidad Los problemas de la estimación de un modelo de regresión cuando la variable endógena es binaria son una consecuencia de que la “nube de puntos” a la que 3 se debe ajustar la recta de regresión es en este caso dos líneas paralelas sobre los dos únicos valores de la endógena. X .00 .20 .40 .60 .80 1.00 1.20 -.20 -3 -2 -1 0 1 2 3 4 5 -4 Y 1 Los problemas específicos que se encuentran son los siguientes: • Heterocedasticidad del término de perturbación. Por tanto, los estimadores MCO son menos eficientes. Como i i i u y + ′ · β x sólo puede tomar valores 1 y 0, el término de perturbación ha de ser igual a β i x′ − 1 o a β i x′ − . Las probabilidades de que i u tome uno de estos valores serán, respectivamente: [ ] β i i i Y P p x x i ′ · · · 1 y [ ] β i i i Y P p x x i ′ − · · · − 1 0 1 . Y, por tanto: ( ) ( ) β β ' 1 ' var i i x x − · i u • Las probabilidades predichas son inconsistentes, ya que no puede garantizarse que estén acotadas entre 0 y 1. • Interpretación de los coeficientes β j . En el modelo se supone que el efecto de las variables sobre la probabilidad es constante y lineal en todo el recorrido de las variables. • No normalidad de la perturbación. Al tomar únicamente dos valores, la hipótesis de normalidad del término de perturbación no es aceptable. Este problema no afecta la insesgadez de los estimadores puntuales, aunque el proceso de inferencia basado en una distribución normal de los estimadores sólo será válida si la muestra es lo suficientemente grande. • El Coeficiente de determinación no es apropiado. 4 Alternativas al modelo lineal de probabilidad Interesa un modelo que reproduzca adecuadamente el comportamiento de una función de probabilidad. [ ] i x 1 · i Y P deberá especificarse para que no supere los límites de 0 y 1, y con efectos no lineales de las variables explicativas: 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 4 X Y Las distribuciones más empleadas han sido la normal estándar y la logística. Si una variable ε es normal, con [ ] 0 · ε E y [ ] 1 var · ε , su función de densidad es: ( ) 2 2 2 1 ε π ε φ − · e Y su función de distribución acumulada: ( ) dt e t ∫ ∞ − − · Φ ε π ε 2 2 2 1 Si ε sigue una distribución logística, con media 0 y varianza 3 2 π , su función de densidad es: ( ) [ ] 2 1 ε ε ε λ e e + · Y su función de distribución acumulada: ( ) ε ε ε e e + · Λ 1 5 Las formas de las correspondientes funciones de distribución se muestran en las siguientes figuras. Funciones de densidad normal y logística. .0 .1 .2 .3 .4 .5 -3 -2 -1 0 1 2 3 X NORMAL LOGISTIC Funciones de distribución acumuladas normal y logística 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 X NORMAL LOGISTIC Cuando como función de probabilidad se emplea la distribución normal, se obtiene el denominado modelo probit, mientras que el empleo de la distribución logística proporciona el modelo logit. 6 Modelos logit y probit Distribución ⇒ Modelo NORMAL ESTÁNDAR ⇒ PROBIT LOGÍSTICA ⇒ LOGIT NORMAL ESTÁNDAR: [ ] ( ) ( ) ∫ ∫ ∞ − ∞ − − Φ · · · · β β β π φ ' ' 2 ' 2 1 1 2 x x x x dt e dt t y P t LOGÍSTICA: [ ] ( ) β β β β ' 1 1 1 1 ' ' ' x x x x x Λ · + · + · · − e e e y P En el modelo probit se supone que la varianza es unitaria y en el modelo logit que la varianza es igual a 29 . 3 3 2 ≈ π . Las varianzas de las dos distribuciones no pueden estimarse, como consecuencia de que la variable latente es inobservable. Para estimar los modelos es necesario imponer algún supuesto arbitrario sobre las varianzas de la distribución. Los valores seleccionados proporcionan fórmulas sencillas y no pueden contrastarse con la información muestral. Otras justificaciones de los modelos logit y probit . Los enfoques de de variable latente y de utilidad aleatoria. (1) Enfoque de variable latente. Se considera una variable latente * i y , que no puede observarse directamente y que depende linealmente de un conjunto de variables explicativas i i i u y + ′ · β x * Donde i u es una perturbación aleatoria con media cero. El valor esperado de la variable latente será [ ] β ' * i i i y E x x · Un determinado suceso o elección se da si λ > * i y . Se define una variable dicotómica i y , con valores 0 y 1: ¹ ¹ ¹ ' ¹ ≤ > · λ λ y si y si y * i * i i 0 1 7 El valor de λ puede ser cualquiera, aunque en las aplicaciones 0 es un valor frecuente. El modelo de probabilidad quedaría definido de la siguiente forma, ( ) ) ( ' ) ( ) ' ( ) ( ) 1 ( * * β λ β β λ λ β λ i i i i i i i i i F u P u P u P y P y P x x x x ′ · − ≤ · ′ − > · > + · > · · siendo F la función de distribución del término de perturbación. X -2 0 2 4 6 8 -4 -3 -2 -1 0 1 2 3 4 5 -4 Y X .00 .20 .40 .60 .80 1.00 1.20 -.20 -3 -2 -1 0 1 2 3 4 5 -4 Y 1 i i i u x Y + + · 2 1 * β β ¹ ¹ ¹ ' ¹ ≤ > · 0 Y si 0 0 Y si 1 * i * i i Y Probabilidad de observar los valores de un modelo de respuesta binaria Probabilidad de y=1 en el modelo de respuesta binaria 8 0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 X P [ y = 1 ] Si se supone que la perturbación sigue una distribución normal ( ) 2 , 0 σ N ~ u i , se tendría: ) ( ' ) ( ) 1 ( * * * β σ λ β σ σ β λ σ β λ i i i i i i i i F u P y P y P y P x x x x ′ · , ` . | − ′ ≤ · , ` . | − ≥ ′ − · ≥ · · Donde σ λ β β − · 0 * 0 para el término independiente, σ β β k k · * , para el resto. Para identificar los parámetros * β es necesario imponer una restricción sobre la varianza de i u . Bajo el supuesto de que la varianza es unitaria, i u sigue una distribución normal estándar y ( ) . F es, por tanto, la función de distribución acumulada de la normal estándar. Si se supone que i u sigue una distribución logística con media 0 y varianza 29 . 3 3 2 ≈ π se tiene: ( ) ) ( ) ( ) 1 ( * * β λ β λ i i i i i u P y P y P x x ′ Λ · − ′ ≤ · ≥ · · (2) Enfoque de utilidad aleatoria. El modelo se deriva de una elección entre alternativas, que proporciona máxima utilidad. ji U indica la utilidad que el individuo i-ésimo obtendría de dos alternativas 1 , 0 · j . Se supone que la utilidad ji U tiene dos componentes, uno sistemático, ij V , y otro aleatorio, ji ε , ij ij ij V U ε + · , para 1 , 0 · j : 9 1 1 1 0 0 0 i i i i i i V U V U ε ε + · + · Las partes deterministas pueden especificarse de una manera sencilla como: 0 0 ' β i i V x · y 1 1 ' β i i V x · . El individuo seleccionará la opción 1 · j si i i U U 0 1 ≥ y seleccionará la opción 0 · j si i i U U 0 1 ≤ . Definiendo una variable observable i y ¹ ' ¹ > > · 1 0 0 1 0 1 i i i i i U si U U si U y La probabilidad de que el individuo seleccione la alternativa 1 · j será: ) ( ) ( ) ( ) ( ) 1 ( 0 1 0 1 1 0 0 0 1 1 0 1 i i i i i i i i i i i i i V V F V V P V V P U U P Y P − · − < − · + > + · > · · ε ε ε ε Donde ( ) ⋅ F es la función de distribución acumulada de 1 0 i i ε ε − y: ( ) ( ) ( ) ( ) β β β β β ' ' ' ' ) ( ) 1 ( 0 1 0 1 0 1 i i i i i i i F F F V V F Y P x x x x · − · − · − · · El modelo finalmente especificado depende de la distribución que se suponga para los términos aleatorios. Si 0 i ε y 1 i ε son normales, 1 0 i i ε ε − también se distribuye normalmente. Si se supone media cero, la normalización de la varianza de 1 0 i i ε ε − a uno, proporciona el modelo probit si ( ) ⋅ F es la función de distribución acumulada de la normal estándar. El modelo logit se obtiene si se supone que 0 i ε y 1 i ε son independientes y siguen una distribución de valor extremo tipo I 1 . En ese caso, 1 0 i i ε ε − sigue una distribución logística, siendo ( ) ⋅ F la correspondiente función de distribución acumulada. Interpretación de parámetros El modelo de probabilidad es un modelo de regresión no lineal: ( ) ( ) [ ] ( ) β β β ' ' 1 0 ' 1 ] | [ i i x x x F F F x y E i i · − ⋅ + ⋅ · No importa cuál sea la distribución que se utilice en ( ) ⋅ F , los parámetros β del modelo no son los efectos marginales: 1 Una variable aleatoria ε con distribución de valor extremo tipo I tiene como función de densidad: ( ) ( ) ( ) ( ) ε ε ε − − − · exp exp exp f , ∞ < < ∞ − ε Y como función de distribución acumulada: ( ) ( ) ( ) ε ε − − · exp exp F . 10 [ ] ( ) ( ) k ki i ki i i x y P x y E β ≠ ∂ · ∂ · ∂ ∂ ' 1 i x x En general, [ ] ( ) ( ) ( ) k k i ki i i f F x y E β β β β β ' ' ' i i x x x x · ∂ ∂ · ∂ ∂ Siendo ( ) ⋅ f la función de densidad asociada a ( ) ⋅ F . Si se emplea la función de densidad normal estándar: [ ] ( ) k ki i i x y E β β φ ' i x x · ∂ ∂ Y si se emplea la función de densidad logística: EMBED Equation.3 [ ] ( ) ( ) ( ) ( ) [ ] · Λ − Λ · + · · ∂ ∂ k i i k k i ki i i i e e x y E β β β β β β λ β β ' 1 ' 1 ' 2 ' ' x x x x x x i ( ) ( ) [ ] k i i i i y P y P β x x 1 1 1 · − · · • El efecto marginal en ambos modelos depende de los valores que toman las variables explicativas. Pueden, por tanto, calcularse los efectos marginales para cada observación de la muestra, obteniendo los efectos medios como promedio de los efectos individuales. Alternativamente, los efectos marginales pueden evaluarse para el valor medio de las variables explicativas. • El signo de los coeficientes indica la dirección del efecto marginal: Signo de k β = Signo del efecto marginal de k x • Cuando la variable explicativa es una variable dicotómica (variables ficticias), es más adecuado calcular el cambio discreto en la probabilidad. Indicando i d la variable ficticia (con valores 0, 1) y δ es el correspondiente parámetro: [ ] ( ) ( ) ( ) ( ) * * * * * * * * * ' ' 0 ' 1 ' β δ β δ β δ β i i i i i i i i F F F F d d y E x x x x x − + · ⋅ + − ⋅ + · ∆ ∆ En general, las dos medidas no son iguales: 11 [ ] [ ] ki i i ki i i x y E x y E ∆ ∆ ≠ x x δ δ Odds y Odds-ratio En el modelo logit los resultados se suelen interpretar en términos de los odds- ratio. Los odds se definen como el cociente entre las probabilidad de las dos alternativas: ) 1 ( 1 ) 1 ( ) 0 ( ) 1 ( x x x x · − · · · · · Ω i i i i Y P Y P Y P Y P En el modelo logit, este cociente de probabilidades sería: β ' ) 0 ( ) 1 ( i e Y P Y P i i x x x · · · · Ω Y en logaritmos: ( ) β ' ) 0 ( ) 1 ( ln ln i i i Y P Y P x x x · , ` . | · · · Ω El logaritmo del odds se conoce como logit. El cociente de odds (o odds-ratio) mide cómo se modifica el odds cuando una de las variables explicativas cambia su valor (de 0 ki x a 1 ki x ). Supongamos un modelo logit con tres variables explicativas, el odds será: ( ) i i i i x x x i i i i i i i i i i i e e e e e x x x Y P x x x Y P x x x 3 3 2 2 1 1 0 ' 3 2 1 3 2 1 3 2 1 ) , , 0 ( ) , , 1 ( , , β β β β β · · · · · Ω x Si incrementamos el valor de la variable i x 2 en una unidad, el nuevo odds será: ( ) ( ) i i i i x x x i i i i i i i i i i i e e e e e x x x Y P x x x Y P x x x 3 3 2 2 1 1 0 1 ' 3 2 1 3 2 1 3 2 1 ) , 1 , 0 ( ) , 1 , 1 ( , 1 , β β β β β + · · + · + · · + Ω x El odds-ratio se define como el cociente de los dos odds: ( ) ( ) ( ) 2 3 3 2 2 1 1 0 3 3 2 2 1 1 0 1 3 2 1 3 2 1 , , , 1 , β β β β β β β β β e e e e e e e e e x x x x x x i i i i i i x x x x x x i i i i i i · · Ω + Ω + O más detalladamente: 12 ( ) ( ) ( ) ( ) 2 3 2 1 3 2 1 3 2 1 3 2 1 , , 0 , , 1 , 1 , 0 , 1 , 1 β e x x x Y P x x x Y P x x x Y P x x x Y P i i i i i i i i i i i i i i i i · · · + · + · Por tanto, el exponencial de un coeficiente puede interpretarse como el efecto que tiene sobre el odds el incremento de una unidad en la variable. Advierta que el odds-ratio es un coeficiente multiplicativo que puede tomar valores desde 0 en adelante: j β -3 -2 -1,5 -1 -0,1 -0,01 0 0,01 0,1 1 1,5 2 3 j e β 0,05 0,14 0,22 0,37 0,90 0,99 1 1,01 1,11 2,72 4,48 7,39 20,09 Además, cuando se interpretan los odds-ratio debe tenerse en cuenta que un cambio constante en el odds no se corresponde con un cambio constante en la probabilidad. Long (1997) muestra el siguiente ejemplo: Original Cambio Factor de cambio Cambio en probabilidad Odds Probabilidad Odds Probabilidad Odds Probabilidad 0,001 0,001 0,002 0,002 2 1,998 0,001 0,010 0,010 0,02 0,020 2 1,980 0,010 0,1 0,091 0,2 0,167 2 1,833 0,076 0,5 0,333 1 0,500 2 1,500 0,167 1 0,500 2 0,667 2 1,333 0,167 2 0,667 4 0,800 2 1,200 0,133 10 0,909 20 0,952 2 1,048 0,043 100 0,990 200 0,995 2 1,005 0,005 1000 0,999 2000 1,000 2 1,000 0,000 Los datos del ejemplo muestran que mientras que los odds se modifican por un factor de 2, las probabilidades (calculadas como ( ) 1 1 1 − +odds no se modifican en una cantidad constante. Cuando los odds son muy pequeños, odds y probabilidades se modifican en la misma cantidad; cuando los odds son muy grandes, las probabilidades prácticamente no se modifican. La conclusión que se deriva de este resultado es que cuando se interpretan los resultados de la estimación de un modelo logit, además de los odds resulta interesante calcular también las predicciones de la probabilidad y los efectos marginales. Estimación de los modelos logit y probit Los modelos logit y probit se estiman usualmente empleando el método de máxima verosimilitud. Para cada observación en la muestra, la variable i y sigue una distribución de Bernoulli, su función de probabilidad es: 13 ( ) ( ) ( ) ( ) . 1 , 0 1 1 1 1 · · − · · − i y i i y i i i i y y P y P y f i i x x x De manera que cuando 1 · i y , la función de probabilidad es: ( ) ( ) ( ) ( ) ( ) i i i i i i i y P y P y P f x x x x 1 1 1 1 1 0 1 · · · − · · Y cuando 0 · i y : ( ) ( ) ( ) ( ) ( ) i i i i i i i y P y P y P f x x x x 0 1 1 1 0 1 0 · · · − · · Dada la anterior función de densidad, la función de verosimilitud para toda la muestra viene dada por: ( ) ( ) [ ] ∏ · − · − · · n i y i i y i i i i y P y P L 1 1 1 1 1 x x Y el logaritmo de la función de verosimilitud: ( ) ( ) ( ) [ ] ∑ ∑ · · · − − + · · n i n i i i i i i i y P y y P y L 1 1 1 1 1 1 ln x x O ( ) ( ) ( ) [ ] ∑ ∑ · · − − + · n i n i i i i i F y F y L 1 1 ' 1 1 ' ln β β x x Las condiciones de primer orden del problema de maximización requieren que las primeras derivadas respecto a β . Dada la no linealidad de los modelos, los estimadores máximo verosímiles se obtienen empleando métodos numéricos (Newton-Raphson, Berndt-Hall-Hall-Hausman,…). Contrastes de hipótesis Significación individual. Los estimadores máximo verosímiles de β se distribuyen asintóticamente según una distribución normal. Por tanto, para tamaños muestrales relativamente grandes se tiene: ( ) ( ) j j j N β β β ˆ var , ˆ ∼ Y, por tanto, puede contrastarse la hipótesis nula sobre la significación de una variable, 0 ˆ : 0 · j H β , mediante el contraste: j j z β σ β ˆ ˆ · , que si la hipótesis es cierta se distribuye asintóticamente como una ( ) 1 , 0 N . Contrastes de Wald y Razón de Verosimilitud El contraste de Wald puede emplearse para contrastar restricciones lineales en los parámetros, del tipo: 14 0 r R 0 r R ≠ − · − β β : : 0 A H H La hipótesis puede contrastarse con el estadístico de Wald: 2 1 ) ˆ ( ) ) ˆ ( ( ) ˆ ( q Var W χ β β β ∼ − ′ ′ − · − r R R R r R Si las restricciones son ciertas, el estadístico se distribuye asintóticamente como una distribución chi-cuadrado con grados de libertad igual al número de restricciones. El contraste de cociente de verosimilitudes también puede emplearse para contrastar restricciones del modelo. El estadístico se define como: ( ) 2 ln ln 2 ) ln (ln 2 ln 2 q R NR NR R NR R L L L L L L RV χ ∼ − · − − · , ` . | − · Donde R L y NR L indican los valores de la función de verosimilitud de los modelos restringido y no restringido, respectivamente. Bajo la hipótesis nula el estadístico RV se distribuye como una 2 q χ Pseudo-R 2 El coeficiente de determinación o R 2 empleado en el modelo de regresión como medida de bondad del ajuste no parece adecuado cuando la variable dependiente es binaria, mientras que la variable ajustada es continua en el intervalo 0,1. Se han propuesto diversas medidas de bondad del ajuste alternativas, denominadas Pseudo-R 2 . Entre ellas destacan: Pseudo-R2 de McFadden. También conocido como “índice de cociente de verosimiludes”. Se define como: R NR MF L L R ln ln 1 2 − · Donde NR L indica la función de verosimilitud del modelo estimado y R L la de un modelo restringido con coeficientes 0 · j β . Si en el modelo R NR L L · , todos los coeficientes j β estimados serían cero, y el 0 2 · MF R . El estadístico se acerca al valor 1 cuando la función de verosimilitud del modelo estimado (no restringido) se acerca a su valor máximo (igual a uno) y, por tanto, con un valor del logaritmo igual a cero. Pseudo-R 2 de Cox-Snell. Cox y Snell propusieron una medida que tenía en cuenta el tamaño de la muestra: ( ) ( ) ( ) , ` . | − − − · NR R CS L L N R ln ln 2 exp 1 2 15 Predicción individual de las probabilidades Una vez estimado el modelo es posible estimar la probabilidad de un valor 1 ˆ · i Y para cada observación, dados los valores de las variables independientes: ( ) i i i P Y P  ≡ · x 1 ˆ . La manera más directa de interpretar los resultados de la estimación del modelo es analizar las predicciones de probabilidad para diferentes valores de las variables independientes. Porcentaje de Predicciones Correctas Una forma sencilla de valorar el ajuste de un modelo de elección binaria consiste en comparar las predicciones del modelo con las respuestas observadas en la muestra. Para cada observación se predice la probabilidad y se asigna la respuesta de ese elemento a valores 1 ˆ · i Y o 0 ˆ · i Y , según la probabilidad supere o no un determinado umbral. Normalmente, el criterio de asignación emplea como punto de corte una probabilidad igual a 0,5: ( ) ( ) ¹ ¹ ¹ ' ¹ · ⇒ < · · ⇒ ≥ · 0 ˆ 5 , 0 1 ˆ 1 ˆ 5 , 0 1 ˆ i i i i i i Y Y P Y Y P x x Debe tenerse en cuenta que la elección de un valor igual a 0,5 es arbitraria y que puede modificarse en función del número de 1 y 0 que haya en la muestra. Una vez obtenidos los valores de i Y ˆ se genera un cuadro clasificatorio según el siguiente esquema: Valor observado de i Y 0 · i Y 1 · i Y Predicción de i Y ˆ 0 ˆ · i Y n 11 n 12 1 ˆ · i Y n 21 n 22 Los valores n 11 y n 22 se corresponden con predicciones correctas para 0 · i Y e 1 · i Y , respectivamente. Mientras que los valores n 12 y n 21 señalan las predicciones incorrectas. Esta información permite calcular las tasas de acierto (o error), tanto globalmente, como para cada una de las categorías, así como el porcentaje de falsos 1 ó 0. Contraste de Hosmer-Lemeshow La idea del contraste de Hosmer-Lemeshow (HL) es comparar las predicciones de las probabilidades con los datos observados. Para calcular el estadístico se sigue la siguiente secuencia: 16 1. Se calculan las predicciones de las probabilidades a partir de la estimación del modelo: ( ) i i i P Y P  ≡ · x 1 ˆ . 2. Se ordenan los datos en función de las probabilidades estimadas, de menor a mayor. 3. Se dividen las observaciones en G grupos (normalmente 10) de igual tamaño (en cada uno de los grupos habrá aproximadamente el mismo número de observaciones). El primer grupo tendrá las 1 n observaciones con los valores de probabilidad estimada menores. 4. Dentro de cada grupo se calcula la media de la predicción de probabilidad g P  y el porcentaje de observaciones con valor 1 · i Y , g y . 5. El estadístico HL se basa en los residuos de Pearson, definidos como la diferencia entre la frecuencia observada y frecuencia en la predicción, estandarizada por la desviación estándar de la predicción. El estadístico suma esa diferencia estandarizada para todos los grupos: ( ) ( ) ∑ · − − · G g g g g g g g g P P n P n y n HL 1 2 1    El estadístico HL de distribuye aproximadamente como una 2 χ con 2 − g de libertad, si el modelo es correcto. Medidas de información Para valorar el ajuste de modelos alternativos se emplean diversas medidas, conocidas como medidas de información. Usualmente se emplean el denominado Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC). El AIC se define como: K L AIC 2 ln 2 + − · Donde L es la verosimilitud del modelo estimado y K es el número de parámetros en el modelo. El valor de L será mayor cuanto mejor sea el ajuste, mientras que tendrá un valor más cercano a 0 cuando el ajuste sea malo. Por ello, cuanto menor sea el valor de AIC mejor será el ajuste del modelo. El estadístico AIC penaliza el número de parámetros incluidos en el modelo, para compensar hecho de que incluir un mayor número de parámetros mejorará siempre el ajuste. La medida BIC se define como: ) ln( ln 2 N K L BIC + − · Cuando se comparan modelos, es preferible aquel que presenta un valor negativo mayor. 17 Ejemplo Los datos de Mroz (1987) han sido empleados en diversos textos para ejemplificar los modelos binarios. Mroz estudia la participación de la mujer en el mercado de trabajo, empleando el panel estadounidense Panel Study of Income Dynamics (PSID) correspondiente al año 1976. El fichero de datos BINLFP2.WF1 contiene una muestra de mujeres casadas en edad de trabajar, extraída del panel. Las variables incluidas en el fichero son las siguientes: lfp: participa en el mercado de trabajo en el año anterior: 1=sí, 0=no. k5: número de hijos menores de 5 años. k618: número de hijos entre 6 y 18 años. age: edad de la mujer. wc: estudios universitarios: 1=sí, 0=no. hc: estudios universitarios del marido: 1=sí, 0=no. lwg: logaritmo de los salarios de la mujer. inc: renta familiar (excluyendo el salario de la mujer). El modelo que se desea ajustar es el siguiente: ( ) ( ) inc lwg hc wc age k k F lfp P inc lwg hc wc age k k β β β β β β β β + + + + + + + · · 618 5 1 618 5 0 La estimación con EViews de un modelo binario se realiza entrando en la opción de ecuación y seleccionando como método BINARY-Binary Choice (Logit, Probit, Extreme Value). 18 El método permite seleccionar entre las opciones probit, logit y de valor extremo. Los resultados de la estimación de los modelos logit y probit se muestran en los cuadros 1 y 2: Cuadro 1. Estimación logit. Dependent Variable: LFP Method: ML - Binary Logit (Quadratic hill climbing) Sample: 1 753 Included observations: 753 Convergence achieved after 4 iterations Covariance matrix computed using second derivatives Coefficient Std. Error z-Statistic Prob. C 3.182140 0.644375 4.938336 0.0000 K5 -1.462913 0.197001 -7.425933 0.0000 K618 -0.064571 0.068001 -0.949557 0.3423 AGE -0.062871 0.012783 -4.918260 0.0000 WC 0.807274 0.229980 3.510193 0.0004 HC 0.111734 0.206040 0.542291 0.5876 LWG 0.604693 0.150818 4.009434 0.0001 INC -0.034446 0.008208 -4.196498 0.0000 McFadden R-squared 0.120885 Mean dependent var 0.568393 S.D. dependent var 0.495630 S.E. of regression 0.457755 Akaike info criterion 1.223461 Sum squared resid 156.1069 Schwarz criterion 1.272588 Log likelihood -452.6330 Hannan-Quinn criter. 1.242387 Restr. log likelihood -514.8732 LR statistic 124.4805 Avg. log likelihood -0.601106 Prob(LR statistic) 0.000000 Obs with Dep=0 325 Total obs 753 Obs with Dep=1 428 19 Cuadro 2. Estimación probit. Dependent Variable: LFP Method: ML - Binary Probit (Quadratic hill climbing) Sample: 1 753 Included observations: 753 Convergence achieved after 3 iterations Covariance matrix computed using second derivatives Coefficient Std. Error z-Statistic Prob. C 1.918422 0.380654 5.039810 0.0000 K5 -0.874711 0.113558 -7.702746 0.0000 K618 -0.038594 0.040489 -0.953202 0.3405 AGE -0.037823 0.007609 -4.970668 0.0000 WC 0.488314 0.135487 3.604133 0.0003 HC 0.057170 0.124005 0.461032 0.6448 LWG 0.365629 0.087779 4.165324 0.0000 INC -0.020525 0.004777 -4.296758 0.0000 McFadden R-squared 0.120764 Mean dependent var 0.568393 S.D. dependent var 0.495630 S.E. of regression 0.457953 Akaike info criterion 1.223625 Sum squared resid 156.2421 Schwarz criterion 1.272752 Log likelihood -452.6950 Hannan-Quinn criter. 1.242551 Restr. log likelihood -514.8732 LR statistic 124.3565 Avg. log likelihood -0.601189 Prob(LR statistic) 0.000000 Obs with Dep=0 325 Total obs 753 Obs with Dep=1 428 Predicciones EViews permite calcular dos tipos de predicciones: la predicción de la probabilidad, ( ) i i i P Y P  ≡ · x 1 ˆ , o los valores del índice β ' i x . Para ello se debe seleccionar en la barra de herramientas en la que aparece la estimación la opción Forecast y en el cuadro de opciones que se abre, seleccionar una de las opciones (Probability o Index). La serie con los valores predichos se guarda con el nombre que se haya indicado en la opción Forecast name. 20 Las predicciones de las series pueden emplearse de diferentes maneras. Por ejemplo, para calcular los Efectos marginales o las elasticidades. En el caso del modelo logit, el cálculo del efecto marginal de la renta familiar sobre la probabilidad de participar en el mercado de trabajo supondría calcular: [ ] ( ) ( ) [ ] INC i i i i i i i INC i i Y P Y P x Y E β ˆ 1 ˆ 1 1 ˆ , x x x · − · · ∂ ∂ 21 Esto puede hacerse generando una nueva serie mediante la siguiente instrucción: series efminc=lfpf*(1-lfpf)*(-0.034446) Donde lfpf es el nombre en el que se han guardado las predicciones de probabilidad y -0.034446 el coeficiente INC β ˆ del modelo logit. Una vez generada la serie de efectos marginales, puede calcularse el valor medio en la muestra, o estudiar su distribución, obteniendo sus valores mínimo, máximo,… Para obtener un análisis descriptivo básico puede seleccionar la variable, hacer doble clic en ella, seleccionar View y a continuación la secuencia Descriptive Statistics & Tests, Histogram and Stats según se muestra en el siguiente cuadro. Los resultados que se obtienen se muestran a continuación. 22 0 20 40 60 80 100 120 140 160 -0.0075 -0.0050 -0.0025 Series: EFMINC Sample 1 753 Observations 753 Mean -0.007150 Median -0.007757 Maximum -0.000475 Minimum -0.008611 Std. Dev. 0.001648 Skewness 1.360164 Kurtosis 4.267348 Jarque-Bera 282.5745 Probability 0.000000 Cuando se analizan los efectos marginales (o las elasticidades) un ejercicio que resulta interesante es el cálculo del efecto marginal para distintos valores o características de alguna variable. Por ejemplo, puede interesar calcular el efecto marginal medio según el número de hijos menores de 5 años (la variable k5). Para ello basta con seleccionar en la secuencia Descriptive Statistics & Tests, Stats by clasiffication y escribir la variable de interés en Series/Group for classify. Para la variable k5, los resultados se muestran a continuación. 23 Descriptive Statistics for EFMINC Categorized by values of K5 Date: 01/19/08 Time: 23:04 Sample: 1 753 Included observations: 753 K5 Mean Std. Dev. Obs. 0 -0.007210 0.001587 606 1 -0.007318 0.001485 118 2 -0.005660 0.001923 26 3 -0.001280 0.000807 3 All -0.007150 0.001648 753 Alternativamente, el cálculo de los efectos marginales se podría haber realizado empleando la fórmula general (válida para cualquier distribución): [ ] ( ) ( ) ( ) k k i ki i i f F x y E β β β β β ' ' ' i i x x x x · ∂ ∂ · ∂ ∂ Para ello, se debería haber guardado la predicción correspondiente a β ' i x (Index en la opción Forecast de EViews) y emplear las siguientes instrucciones: series efminc1=@dlogistic(index)* LOGIT INC, ˆ β series efminc2=@dprobit(index)* PROBIT INC, ˆ β donde index recogería la serie β ' i x . Representación de las curvas de probabilidad Los coeficientes estimados del modelo binario pueden emplearse para examinar cómo varían las predicciones de probabilidad con respecto a las variables independientes. En este apartado se van a representar cuatro curvas de probabilidad (en el eje vertical) con respecto a la edad de la mujer (en el eje horizontal). Cada curva muestra la estimación de la probabilidad que corresponde a mujeres sin hijos, con uno, dos o tres hijos, respectivamente. Empleando EViews es necesario realizar algunas manipulaciones previas. En primer lugar, se trata de que el modelo estimado sea reconocido como un modelo por EViews. Para ello debe seleccionarse en la barra de herramientas de la estimación Proc y Make Model. 24 EViews crea un modelo basado en la especificación de probabilidad ) ( ) 1 ( β i i F y P x′ · · . Con una función de distribución que corresponderá a la de una normal en el caso de la estimación probit: [ ] ( ) ( ) ∫ ∫ ∞ − ∞ − − Φ · · · · β β β π φ ' ' 2 ' 2 1 1 2 x x x x dt e dt t y P t O la de una logística, en el caso de la estimación logit: [ ] ( ) β β β β ' 1 1 1 1 ' ' ' x x x x x Λ · + · + · · − e e e y P 25 Para poder editar este modelo son necesarios dos pasos previos. En primer lugar, debe romperse el ligamen entre la ecuación estimada y el modelo generado. Para ello, seleccione Proc, Links, Break All Links. A continuación seleccione en la barra de herramientas el botón Text (o alternativamente, seleccione View, Source Text). Con ello logrará visualizar el modelo y realizar en el mismo las modificaciones necesarias. 26 En la ventana en la que se ha editado el modelo, es necesario crear una ecuación para cada una de las curvas de probabilidad: sin hijos, uno, dos y tres hijos. Estas situaciones se corresponden con valores de k5 iguales a 0, 1, 2 y 3. Respecto a las restantes variables exógenas, las curvas se calculan para sus valores medios. En la ecuación editada estos valores se pueden obtener empleando la función de EViews @mean(nombre de la variable). La variable age no debe promediarse, puesto que es una de las variables de interés en la gráfica. En la ventana deberá escribir las siguientes ecuaciones (puede utilizar las opciones de copiar y pegar del editor de texto): LFP0 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 0 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP1 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 1 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP2 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 2 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) LFP3 = 1 - @CLOGISTIC(-(3.18214044494 - 1.46291303597 * 3 - 0.0645706836214 * @mean(K618) - 0.0628705507705 * AGE + 0.807273778506 * @mean(WC) + 0.111733572035 * @mean(HC) + 0.604693114912 * @mean(LWG) - 0.0344464305076 * @mean(INC))) Una vez escritas las ecuaciones, debe hacer clik en Solve y seleccionar en Solution scenarios & output, Active la opción Actuals. Al aceptar esta especificación EViews genera cuatro nuevas variables lfp0, lfp1, lfp2, lfp3, con las predicciones de probabilidad para los distintos números de hijos. 27 Para generar las curvas de probabilidad seleccione en la barra de herramientas del workfile las opciones Object, New Object, Group y acepte OK. En el cuadro que se abre escriba: age lfp0 lfp1 lfp2 lfp3 y acepte en OK. EViews abre una ventana con el grupo de variables anteriores. En la barra de herramientas seleccione la secuencia View, Graph. En las opciones de gráfico que se le abre, seleccione la opción Scatter y aceptar. El gráfico que visualizará es similar al que se muestra a continuación. .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 32 36 40 44 48 52 AGE LFP0 LFP1 LFP2 LFP3 Como observará, las curvas de probabilidad muestran que a mayor edad de la mujer, la probabilidad de participar en el mercado de trabajo disminuye, pero que el número de hijos menores de 5 años es también determinante en la probabilidad. Cuando el número de hijos es igual a tres, la probabilidad de participar es muy baja, casi nula, y prácticamente independiente de la edad de la mujer. Coefficient Tests Una vez estimado el modelo, EViews ofrece algunos procedimientos que resultan útiles para analizar el modelo. Puede visualizarlas desde la barra de herramientas de la ventana de ecuación, seleccionando View. La primera opción de interés es la de Coefficient Tests. En la misma puede realizar los contrastes de Wald o Razón de Verosimilitud que considere necesarios. 28 Dependent Variable Frequencies Presenta la distribución de frecuencias de la variable dependiente. Categorical Regressor Stats Muestra la media y la desviación estándar de las variables explicativas, tanto para el total de la muestra, como para las dos categoría de la variable dependiente. Expectation-Prediction (Classification) Table Presenta el cuadro de clasificaciones que compara las predicciones realizadas mediante el modelo con los datos observados en la muestra. El programa permite seleccionar el punto de corte en la predicción de la probabilidad, en función del cual la predicción i Y ˆ tomará valor 1 ó 0. En los resultados se muestran cuatro tablas 2x2. Expectation-Prediction Evaluation for Binary Specification 29 Equation: UNTITLED Date: 01/20/08 Time: 15:19 Success cutoff: C = 0.5 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 180 86 266 0 0 0 P(Dep=1)>C 145 342 487 325 428 753 Total 325 428 753 325 428 753 Correct 180 342 522 0 428 428 % Correct 55.38 79.91 69.32 0.00 100.00 56.84 % Incorrect 44.62 20.09 30.68 100.00 0.00 43.16 Total Gain* 55.38 -20.09 12.48 Percent Gain** 55.38 NA 28.92 Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 168.80 156.20 325.00 140.27 184.73 325.00 E(# of Dep=1) 156.20 271.80 428.00 184.73 243.27 428.00 Total 325.00 428.00 753.00 325.00 428.00 753.00 Correct 168.80 271.80 440.59 140.27 243.27 383.54 % Correct 51.94 63.50 58.51 43.16 56.84 50.94 % Incorrect 48.06 36.50 41.49 56.84 43.16 49.06 Total Gain* 8.78 6.66 7.58 Percent Gain** 15.44 15.44 15.44 *Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation La primera tabla (parte superior a la izquierda) se corresponde a la explicada anteriormente, que cruza la predicción a partir del corte en probabilidad, con los valores observados en la muestra. Los datos reflejados en el cuadro serían los siguientes: Valor observado de i Y 0 · i Y 1 · i Y Predicción de i Y ˆ 0 ˆ · i Y 180 86 1 ˆ · i Y 145 342 En el cuadro se muestra el porcentaje de aciertos para 0 · i Y e 1 · i Y (55,38% y 79,91%, respectivamente) y el porcentaje total de aciertos (69,32%). Asimismo, en el cuadro aparecen los porcentajes incorrectos. En la parte superior derecha aparece el cuadro de clasificación de un modelo probabilístico sin variables explicativas (únicamente con la constante). La comparación de ambos cuadros permite valorar la mejora en capacidad predictiva del modelo originalmente estimado. Las valores de Total Gain y Percent Gain permiten esa comparación. Total Gain recoge la variación 30 absoluta en el porcentaje de aciertos, mientras que Percent Gain se define como la mejora porcentual respecto a las clasificaciones incorrectas del modelo constante. En la parte inferior del cuadro se muestran las tablas de clasificación basadas en el cálculo del número esperado de observaciones con 0 · i Y e 1 · i Y . Por ejemplo, para el obtener el valor esperado de valores 0 · i Y se calculará: ( ) ( ) ∑ ∑ · · − · · N i N i i i i F Y P 1 1 ' 0 β x x Donde la función de distribución F será la normal o la logística. Goodness-of-Fit Tests (Hosmer-Lemershow) Esta opción calcula el contraste de Hosmer-Lemershow. Además ofrece los resultados de otro contraste (contraste de Andrews). Los estadísticos difieren en la forma en la que agrupan las observaciones y en la distribución asintótica del contraste. A continuación sólo se comentarán los resultados relacionados con el contraste de Hosmer-Lemershow. En principio, EViews permite seleccionar un número de intervalos cualquiera, aunque por defecto define 10 intervalos. Esta opción es la que generalmente aparece en la mayoría de aplicaciones. En la ventana de resultados aparecen las columnas “Low” y “High” en “Quantile of Risk”. En estas columnas se muestran las predicciones de probabilidad mínima y máxima en cada intervalo. En las otras columnas se muestran el número de observaciones en cada intervalo con valores 0 · i Y e 1 · i Y , así como el número esperado de predicciones con 0 ˆ · i Y e 1 ˆ · i Y . En la última columna se recoge la contribución de cada intervalo al estadístico de Hosmer- Lemeshow. 31 Goodness-of-Fit Evaluation for Binary Specification 32 Andrews and Hosmer-Lemeshow Tests Equation: UNTITLED Date: 01/20/08 Time: 17:31 Grouping based upon predicted risk (randomize ties) Quantile of Risk Dep=0 Dep=1 Total H-L Low High Actual Expect Actual Expect Obs Value 1 0.0140 0.3046 48 59.8827 27 15.1173 75 11.6981 2 0.3056 0.4085 56 48.0046 19 26.9954 75 3.69970 3 0.4091 0.4675 50 42.1046 25 32.8954 75 3.37557 4 0.4677 0.5215 45 38.2991 31 37.7009 76 2.36342 5 0.5226 0.5763 32 33.7267 43 41.2733 75 0.16063 6 0.5771 0.6311 25 29.7702 50 45.2298 75 1.26746 7 0.6339 0.6905 26 25.6709 50 50.3291 76 0.00637 8 0.6925 0.7510 20 20.9795 55 54.0205 75 0.06349 9 0.7559 0.8125 18 16.3535 57 58.6465 75 0.21200 10 0.8136 0.9621 5 10.2082 71 65.7918 76 3.06954 Total 325 325.000 428 428.000 753 25.9163 H-L Statistic 25.9163 Prob. Chi-Sq(8) 0.0011 Andrews Statistic 26.9485 Prob. Chi-Sq(10) 0.0027 El valor del estadístico de HL aparece al final del cuadro. En nuestro ejemplo, el p-value del contraste es muy bajo (igual a 0,0011), indicando que el modelo no presenta un buen ajuste a los datos. 33


Comments

Copyright © 2024 UPDOCS Inc.