8 – USO DE VARIÁVEIS ESPECIAIS: DUMMY Em muitas situações concretas, nos deparamos com fenômenos que não podem ser medidos, quantificados, mas apenas qualificados. É voz corrente que em nosso país, assim como em muitos outros, as mulheres – mesmo tendo as mesmas qualificações profissionais do que os homens – têm rendimentos menores. De forma semelhante, pessoas negras têm menor remuneração do que as brancas – obviamente, consideradas as mesmas qualificações. Em vários países, seguro de vida de fumantes é mais caro do que os de não fumantes – todas as demais características constantes. Sabe-se também que em períodos de guerra o consumo agregado se eleva – como conseqüência mesmo do que se convencionam chamar esforço de guerra. Note que nessa situação, o consumo familiar se reduz, mas aumenta o “consumo para a guerra”. Nesses casos, nosso modelo deve ser “ajustado”, pois, evidentemente não estamos lidando com uma variável que preenche os requisitos do modelo. Para essas situações, podemos atribuir o valor 1 à presença do atributo e valor 0 à sua ausência. Assim, por exemplo, podemos criar uma variável, digamos Z, para o atributo tabagismo. Nesse caso, z = 1 se o indivíduo é fumante e z = 0 se é não fumante. De forma similar, para os casos anteriormente citados, podese ter: z = 0 se o indivíduo é do sexo feminino e z = 1 se do sexo masculino; z = 0 se o indivíduo é negro e z = 1 se for branco; z = 0 se o período é de paz e z = 1 se o período for de guerra. Note que esse tipo de variável poderá assumir apenas dois valores: zero ou um. Por isso é chamada de variável binária. Nos manuais de econometria são também chamados de variável DUMMY ou qualitativa. Repare que algumas questões surgem imediatamente quando nos defrontamos com situações nas quais um atributo pode ter grande importância na explicação do fenômeno estudado. O que acontece quando todas as variáveis independentes de um modelo, são dummies? E quando algumas forem e outras não? É o que veremos a seguir. 8.1 Regressão Com Todas as Variáveis Independentes Dummies Suponha uma pesquisa sobre salário oferecido a economistas que entram no mercado de trabalho. Suponha ainda que esses salários são normalmente distribuídos com média igual a µ1 para economistas com doutorado e µ0 para os não doutores, avulsos com variância σ . O que podemos esperar sobre µ0 e µ1? É razoável imaginar que µ1>µ0>0. Nesse caso, nosso modelo econométrico pode ser expresso por: Y = β 0 + β 1X + ε Onde: Y = salário dos economistas 129 2 X = variável dummy: X = 1 se doutor X = 0 se não doutor ε = termo aleatório Observe que o salário médio de economistas sem doutorado é: µ0 = E (Y/X=0) = E (β 0 + β 1.0 + ε) = E (β 0) + E (β 1.0) + E (ε) = µ0 = β 0 + 0 + 0 => µ0 = β 0 O salário médio de economistas com doutorado, por sua vez, será dado por: µ1 = E(Y/X=1) = E (β 0 + β 1.1 + ε) = E (β 0) + E (β 1) + E (ε) = µ1 = β 0 + β 1 + 0 => µ1 = β 0 + β 1 O resultado obtido significa que β 0 está medindo o salário médio de um economista que não tem doutorado e β 1 mede a diferença entre o salário médio de um doutor e de um não doutor. Suponha agora que na pesquisa mencionada foi coletada não apenas a informação sobre doutorado, mas também sobre mestrado. Nesse caso, podemos estar interessados em saber a diferença de salários para todos os níveis de instrução: graduados, mestres e doutores. Note que temos agora três atributos e não dois como havíamos tratado. Como representar esses três atributos? Nesse caso, necessitamos de duas variáveis dummies: Z1 e Z2, que serão construidas da seguinte forma: Z1 = 1 se mestre Z1 = 0 se não mestre Z2 = 1 se doutor Z2 = 0 se não doutor Podemos assim montar o seguinte quadro: Instrução Graduação Mestre doutor Nosso modelo será então: Y = β 0 + β 1 Z1 + β 2 Z2 + ε Onde: Y = salário dos economistas Z1 = dummy de (Z1 = 1 se mestre; Z1 = 0 se não mestre) Z2 = dummy de (Z2 = 1 se doutor; Z2 = 0 se não doutor) 130 Z1 0 1 0 Z2 0 0 1 Suponha que os salários são normalmente distribuidos com média µ0 se graduado, µ1 se doutor e µ2 se mestre e que as variâncias sejam constantes σ . Nesse caso, os salários médios serão: µ0 = E (Y/graduado) = E (β 0 + β 1.0 + β 2.0 + ε) = β 0 µ1 = E (Y/mestre) = E (β 0 + β 1.1 + β 2.0 + ε) = β 0 + β 1 µ2 = E (Y/doutor) = E (β 0 + β 1.0 + β 2.1 + ε) = β 0 + β 2 Observe que: µ0 = β 0 indicando que o intercepto mede o salário médio de um graduado; µ1 = β 0 + β 1 => β 1 = µ1 - µ0 mede a diferença entre o salário médio de um mestre e de um graduado; e µ2 = β 0 + β 2 => β 2 = µ2 - µ0 mede a diferença entre o salário médio de um doutor e de um graduado. Note ainda que: • A diferença entre o salário médio de um mestre (β 1+ β 0) e o de um graduado (β 0) é: β 1 + β 0 - β 0 = β 1; • A diferença entre o salário médio de um doutor (β 0+ β 2) e o de um mestre (β 1+ β 0) é: β 0 + β 2 - β 1 - β 0 = β 2 - β 1. 2 Alguns dos senhores poderiam perguntar: seria incorreto usarmos uma variável qualitativa com três valores, digamos: R = 0 se graduado R = 1 se mestre R = 2 se doutor Nosso modelo seria: Y = β 0 + β 1. R + ε E (Y/graduado) = E (Y/R = 0) = β 0 = µ0 E (Y/mestre) = E (Y/R = 1) = β 0 + β 1 = µ1 E (Y/doutor) = E (Y/R = 2) = β 0 + 2 β 1= µ2 Note que a diferença entre o salário médio de mestre e o de graduação será: µ1 - µ0 = β 0 + β 1 - β 0 = β 1 (exatamente igual ao obtido no caso anterior), mas a diferença entre o 131 salário médio de um doutor (2β 1 + β 0) e o de um mestre (β 1 + β 0) será: 2β 1 + β 0 - β 1 - β 0 = β 1 que é diferente da encontrada no caso anterior. Na verdade, utilizando uma única variável representando as três categorias estamos supondo que a diferença de salários médios entre as três categorias é a mesma: β 1, o que pode não ser verdadeiro. Nota: observe que se soubermos que a diferença salarial entre n categorias é constante, então podemos usar apenas uma variável dummy, assumindo n valores consecutivos. Ainda sobre esse tópico, alguns dos senhores poderiam perguntar se poderíamos utilizar três variáveis binárias; posto que estamos tratando de três categorias? Nessa hipótese, teríamos: Z1 = 1 se doutor Z2 = 1 se mestre Z3 = 1 se graduado Z1 = 0 se não doutor Z2 = 0 se não mestre Z3 = 0 se não graduado Nesse caso, a solução seria indeterminada, posto que Z3 = 1 – (Z1 + Z2). 8.2 Regressão Com Variáveis Independentes Quantitativas e Qualitativas Em economia, modelos contendo apenas variáveis independentes qualitativas são muito raros. Em geral, encontramos situações em que a variável dependente é explicada por uma ou mais variáveis independentes quantitativas e uma ou várias variáveis qualitativas (dummies). Como dito no início, certos fenômenos podem ser adequadamente descritos com a inclusão de variáveis dummies. Assim, por exemplo, podemos afirmar que a renda de um indivíduo depende de sua escolaridade (anos de estudo). Mas a incorporação de uma variável binária indicativa do gênero, além de refletir mais adequadamente a realidade, pode nos oferecer resultados estatisticamente mais sólidos. Como esse, existem inúmeros outros fenômenos que podem ser mais bem descritos com a inclusão de variáveis qualitativas. Presume-se, por exemplo, que o consumo agregado médio de um país dependa não apenas da renda, como da ocorrência de períodos de paz ou de guerra. Tomemos um modelo dado por: C = β 0 + β 1X + β 2Z + ε, onde: C = consumo agregado X = renda Z = dummy de caracterização de período: Z = 1 se período de guerra Z = 0 se período de paz ε = termo aleatório 132 Temos então: E (Y/guerra) = E (β 0 + β 1X + β 2 . 1 + ε) = (β 0 + β 2) + β 1X E (Y/paz) = E (β 0 + β 1X + β 2 . 0 + ε) = β 0 + β 1X Note que, em tempos de guerra, o intercepto da função consumo é deslocada de β 0 para β 0 + β 2. Isso quer dizer que a ocorrência da guerra afeta o intercepto da função consumo. Essa especificação que fizemos é chamada forma aditiva e graficamente é representada por: consumo guerra paz Note que as retas são paralelas, ocorrendo apenas o deslocamento do intercepto. renda O efeito de uma guerra, porém, pode afetar o consumo agregado de forma diferente. Se considerarmos que as condições de guerra afetam a declividade (propensão marginal) e não o intercepto, podemos especificar o modelo por: C = β 0 + β 1X + β 2 X.Z + ε Essa especificação é denominada “forma multiplicativa”. Note que: E (C/guerra) = β 0 + β 1X + β 2 X.1 = β 0 + (β 1 + β 2)X E (C/paz) = β 0 + β 1X + β 2 X.0 = β 0 + β 1X Nesse caso, a alteração ocorre no coeficiente angular da função, alternando a inclinação da reta. Graficamente, teremos: Consumo guerra paz Renda O efeito da guerra pode influenciar o intercepto e a declividade simultaneamente. Nesse caso, teremos uma forma aditiva e multiplicativa. O modelo então será: C = β 0 + β 1X+ β 2Z+ β 3 X.Z ε 133 E teremos: E (C/guerra) = E (β 0 + β 1X + β 2.1 + β 3 X.1) = β 0 + β 1X + β 2 + β 3X = (β 0 + β 2) + (β 1 + β 3)X E (C/paz) = E (β 0 + β 1X + β 2.0 + β 3 X.0) = β 0 + β 1X Graficamente, teremos: Consumo guerra Nota: Os valores obtidos nessa regressão serão os mesmos caso fossem “rodadas” duas regressões: uma para o período de guerra e outra para o período de paz. No entanto, a paz estimação de σ2 será diferente, afetando os intervalos de confiança e os testes de hipótese. Portanto, afetando os testes t’s e F. Renda 8.2.1 Regressão Com Várias Variáveis Dummies A regressão com uso de variáveis dummies não se restringe a apenas uma variável. A técnica de variáveis dummy pode ser estendida para manipular várias delas. Considere a seguinte regressão: Yi = β 0 + β 1Xi + β 2D1i + β 3D2i + εi Sendo: Yi = salário de um professor universitário Xi = anos de experiência de ensino D1i = 1 se homem 0 se mulher D2i = 1 se branco 0 não branco Observe que cada uma das variáveis dummy tem apenas duas categorias (D1 = homem ou mulher e D2 = branco ou não branco). Note que a categoria omitida (D1 = 0 e D1 = 0) é “professora não branca”. 15 15 No livro de Gujarati está incorretamente informado que se trata de “professora negra”. 134 Supondo, como é feito até aqui, que E (εi)=0, pode se obter a seguinte regressão: E (Yi / D1 = 0; D2 = 0; Xi) = β 0 + β 1Xi • que corresponde ao salário médio de professora não branca E (Yi / D1 = 0; D2 = 1; Xi) = β 0 + β 1Xi + β 3 = (β 0 + β 3) + β 1Xi • que corresponde ao salário médio de professora branca E (Yi / D1 = 1; D2 = 0; Xi) = β 0 + β 1Xi + β 2 = (β 0 + β 2) + β 1Xi • que corresponde ao salário médio de professor não branco e, por fim: E (Yi / D1 = 1; D2 = 1; Xi) = β 0 + β 1Xi + β 2 + β 3 = (β 0 + β 2+ β 3) + β 1Xi • que corresponde ao salário médio de professor branco. Supõe-se aqui que as regressões se diferenciam somente quanto ao intercepto. Os resultados dessa regressão permitirão testar uma série de hipóteses quanto aos interceptos de cada categoria. Supondo-se que: (a) o salário médio mais reduzido seja dado pelo grupo de “professoras não brancas”; (b) seguindo, sucessivamente, por salário médio de “professores não brancos”, “professoras brancas” e “professores brancos”, ter-se-á: Yi ( ) ˆ ˆ ˆ ˆ Y = (β + β )+ β X ˆ ˆ ˆ ˆ Y = (β + β )+ β X i 0 3 1 i 0 2 1 ˆ ˆ ˆ ˆ ˆ Yi = β 0 + β 2 + β 3 + β 1 X i (professor branco) i (professora branca) (professor não branco) (professora não branca) i ˆ ˆ ˆ Yi = β 0 + β 1 X i Xi ˆ ˆ ˆ ˆ Nesse caso, os coeficientes β 0 , β 2 e β 3 serão estatisticamente significativos, sendo β 0 , ˆ ˆ ˆ ˆ β2 e β3 > 0 e β3 > β2 . Considere o seguinte conjunto de dados extraídos da Pesquisa Nacional por Amostra de Domicílio 1999 (PNAD/1999) realizada pelo IBGE. São informações sobre renda, escolaridade, gênero e cor do chefe do domicílio pesquisado pelo IBGE. 135 Renda 450 450 720 90 90 1350 720 270 450 720 1350 270 720 720 90 90 90 270 90 270 90 450 270 270 450 2700 2700 450 270 2700 1350 270 2700 270 450 2700 450 720 1350 450 Escolar 8 11 9 3 8 10 5 2 6 2 8 4 9 9 1 2 3 2 2 5 0 7 1 3 7 17 15 2 4 5 9 5 7 6 4 12 2 7 15 7 Gênero 0 1 1 0 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 0 1 1 0 0 1 1 1 0 1 1 0 1 0 0 1 1 1 1 1 Cor 1 0 1 0 0 1 0 0 1 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0 136 Suponha que estejamos interessados em verificar: a) o efeito da escolaridade (medido em anos de estudo) na renda do chefe do domicílio; b) se há ou não diferença de rendimento – mantidos as demais características constantes – entre chefes homens e mulheres; e c) se há ou não diferença de rendimento – mantidas as outras características constantes – entre brancos e não brancos. Admita a hipótese de que se houver diferença entre homens e mulheres e entre brancos e não brancos essa será somente de intercepto – deslocamento paralelo – pode-se construir o seguinte modelo de regressão: Yi = β 0 + β 1Xi + β 2D1i + β 3D2i + εi Onde: Yi = rendimento do chefe do domicílio (em R$) Xi = anos de estudo do chefe do domicílio D1i = 1 se homem 0 se mulher D2i = 1 se branco 0 não branco Rodada a regressão, a reta estimada é: Yi = - 445,39 + 109,25Xi + 415,01D1i + 467,46D2i Ora, se os coeficientes estimados forem estatisticamente significativos esse resultado poderia ser interpretado da seguinte forma: (a) cada ano de escolaridade acrescenta R$109,25 ao salário do indivíduo; (b) o fato do chefe do domicílio ser homem – todas as demais características constantes – representa um adicional de rendimento (sobre a mulher) de R$415,01; (c) o fato do chefe do domicílio ser branco – toda as demais características constantes – representa um acréscimo de rendimento (sobre os não brancos) de R$467,46. ˆ Yi = - 445,39 + 109,25Xi + 415,01D1i + 467,46D2i (202,51) (23,48) (200,07) (181,53) R²=0,57 137 Como fizemos anteriormente, poder-se-ia admitir a hipótese de que esses atributos expressos pelas variáveis dummies (gênero e cor) afetariam não apenas o intercepto, mas também a declividade da reta. Nesse caso, nosso modelo seria expresso por: Yi = β 0 + β 1Xi + β 2D1i + β 3D2i + β 4D1iXi + β 5D2iXi + εi E os coeficientes, estatisticamente significativos, indicariam as diferenças de intercepto e de declividade. 8.3 Teste de Estabilidade Estrutural dos Modelos Como mencionado anteriormente, em certos modelos, as diferenças no intercepto podem ter pouca ou nenhuma importância ou significado. Vejamos um exemplo em que essa questão se aplica. Suponha o seguinte conjunto de dados referente a poupança e renda pessoal no Reino Unido no período 1946/1963. Ano 1946 1947 1948 1949 1950 1951 1952 1953 1954 Poupança 0,36 0,21 0,08 0,20 0,10 0,12 0,41 0,50 0,43 Renda 8,8 9,4 10,0 10,6 11,0 11,9 12,7 13,5 14,3 Ano 1955 1956 1957 1958 1959 1960 1961 1962 1963 Poupança 0,59 0,90 0,95 0,82 1,04 1,53 1,94 1,75 1,99 Renda 15,5 16,7 17,7 18,6 19,7 21,1 22,8 23,9 25,2 O período 1946-1954, imediatamente pós-guerra é conhecido como período de reconstrução britânica. O segundo período 1955-1963, segundo diversas opiniões, não tem as características do período anterior e é designado como período pós-reconstrução. Suponha que se queira verificar se a relação poupança-renda agregada mudou entre os dois períodos. Poderíamos inicialmente imaginar algo assim: • Período de reconstrução i = 1, 2, ..., n Yi = α0 + α1Xi + εi • Período pós-reconstrução: i = 1, 2, ..., n X = renda em milhões de Yi = β 0 + β 1Xi + γi Sendo em ambos os casos: Y = poupança em milhões de libras libras 138 εi e γi = perturbações aleatórias Analisemos as duas regressões com mais vagar. De forma geral, os resultados comparativos das duas regressões apresentam as seguintes possibilidades: (1) α0 = β 0 e α1 = β 1 => as duas regressões são idênticas. (nesse caso, não há nenhuma diferença entre os dois períodos que, a rigor, deveriam ser tratados como um único período); (2) α0 ≠ β 0 mas α1 = β 1 => as duas retas de regressão são paralelas, deferindo apenas no intercepto. (nesse caso, não há qualquer mudança na relação funcional entre as duas variáveis. É como se houvesse um “evento” que deslocasse a curva – para cima ou para baixo – em um dado momento, mas não alterasse a relação); (3) α0 = β 0 mas α1 ≠ β 1 => as duas retas de regressão têm o mesmo intercepto, mas suas declividades são diferentes. (nesse caso, a ocorrência de um evento altera o impacto da variável explicativa na variável explicada. Essas regressões são chamadas regressões convergentes); (4) α0 ≠ β 0 e α1 ≠ β 1 => as duas retas de regressão diferem no intercepto e na declividade. (nesse caso a ocorrência de um evento desloca a reta paralelamente e também altera o impacto da relação causal, aumentando ou diminuindo-lhe o valor. Essas regressões são chamadas dissimilares ou divergentes). Graficamente, podemos representar essas situações por: poupança α1 = β 1 poupança α1 = β 1 α1 = β 1 β0 α0 = β 0 renda α0 renda (a) Regressões Coincidentes (b) Regressões Paralelas poupança β1 α1 α0 = β 0 renda poupança α1 β1 β0 α0 renda (c) Regressões Convergentes (d) Regressões Dissimilares 139 Os resultados das regressões estão apresentados abaixo, sendo a primeira para o período de reconstrução e a segunda, para o período pós-reconstrução. ˆ Yi = -0,2662 + 0,0470Xi Yi = -1,7502 + 0,1504 Xi Como já sabemos, poderíamos ter construído um modelo que contemplasse a possibilidade de deslocamentos de intercepto e de declividade. Nesse caso teríamos: Yi = β 0 + β 1Xi + β 2Di + β 3DiXi + εi Sendo: Y = poupança (em milhões de libras) X = renda (em milhões de libras) D= 1 se reconstrução 0 se pós-reconstrução ε = erros aleatórios Cujos resultados esperados seriam: E (Yi / D = 0; Xi) = β 0 + β 1 Xi E (Yi / D = 1; Xi) = β 0 + β 1X1 + β 2 + β 3Xi = (β 0 + β 2) + (β 1 + β 3) Xi Os resultados das três regressões estão apresentados a seguir: Reconstrução ˆ Yi = - 0,27 + 0,04Xi (0,30) (0,02) R²=0,30 Pós-Reconstração ˆ Yi = - 1,75 + 0,15Xi (0,36) (0,02) R²=0,91 Ambos períodos com Dummy ˆ Yi = - 0,27 + 0,05Xi – 1,48Di + 0,10DiXi (0,33) (0,03) (0,47) (0,03) R²=0,95 140 8.4 O Uso de Variáveis Dummy na Análise Sazonal Como vimos anteriormente, muitas séries de dados econômicos mensais ou mesmo trimestrais apresentam padrões sazonais. Muitas vezes, no estudo dessas séries deseja-se retirar o efeito da sazonalidade. Como também vimos, há diversos métodos para dessazonalizar uma série e aqui utilizaremos o método das variáveis dummies. Suponha que estejamos interessados em analisar o efeito das rendas (trimestrais) sobre o lucro das empresas no período 1965-1970 nos EUA. Admita que acreditemos que as rendas não são homogêneas ao longo do ano e mais precisamente que cada trimestre tenha particular padrão. Para captar esse efeito – caso haja – podemos definir o seguinte modelo: lucrost = β 0 + β 1vendast + β 2D2t + β 3D3t + β 4D4t + εt Onde: D2 = 1 se segundo trimestre 0 caso contrário D3 = 1 se terceiro trimestre 0 caso contrário D4 = 1 se quarto trimestre 0 caso contrário Observe que: • E (lucrost / D2=0; D3=0; D4=0; vendast) = β 0 + β 1 vendast → que representa o lucro médio do 1º trimestre de cada ano; • 16 ˆ ˆ ˆ E (lucrost / D2=1; D3=0; D4=0; vendast) = β 0 + β 2 + β 1 vendast → que representa o lucro médio do 2º trimestre de cada ano; ( ) • ˆ ˆ ˆ E (lucrost / D2=0; D3=1; D4=0; vendast) = β 0 + β 3 + β 1 vendast → que representa o lucro médio do 3º trimestre de cada ano; ( ) • ˆ ˆ ˆ E (lucrost / D2=0; D3=0; D4=1; vendast) = β 0 + β 4 + β 1 vendast → que representa o lucro médio do 4º trimestre de cada ano. ( ) Entre vários métodos existentes, os que mais se destacam são o método da relação com a média móvel (vista anteriormente), o método de ligação e método da percentagem da média anual. 141 16 ˆ ˆ ˆ Caso haja algum padrão sazonal, teremos β 2 , β 3 , β 4 ≠ 0 . Obviamente que podemos ter os três betas iguais a zero – indicando , nesse caso, ausência de padrão sazonal – ou apenas algum deles diferente de zero. Repare que havendo um padrão sazonal estatisticamente significativo, podemos calcular ˆ os Yt deduzido o efeito sazonal do respectivo período. O resultado será uma série dessazonalizada. Tomemos o seguinte conjunto de dados: Ano e Trimestre 1965 – I II III IV 1966 – I II III IV 1967 – I II III IV 1968 – I II III IV 1969 – I II III IV 1970 – I II III IV Lucros (US$ milhões) 10.503 12.092 10.834 12.201 12.245 14.001 12.213 12.820 11.349 12.615 11.014 12.730 12.539 14.849 13.203 14.947 14.151 15.949 14.024 14.315 12.381 13.991 12.174 10.985 Vendas (US$ milhões) 114.862 123.968 121.454 131.917 129.911 140.976 137.828 145.565 136.989 145.126 141.536 151.776 148.862 158.913 155.727 168.409 162.781 176.057 172.419 183.327 170.415 181.313 176.712 180.370 D2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 D3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 D4 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 A regressão estimada é expressa por: Lucro = 6.688,3630 + 0,0382Vendas + 1322,9819D2 – 217,8054D3 + 183,8565D4 (3,9082) (3,3313) (2,0719) (-0,3445) (0,2810) (*17) Os resultados da regressão indicam que apenas o coeficiente da variável vendas e o intercepto diferencial associado a D2 – segundo trimestre – são estatisticamente significativos ao nível de 5%. Pode-se assim concluir que existe algum fator sazonal atuando no segundo trimestre (*17) Valores entre parênteses referem-se a estatísticas t. 142 de cada ano, fazendo com que o lucro se eleve no segundo trimestre, quando comparado ao trimestre base (1º trimestre) em aproximadamente 1.322 US$ milhão. O coeficiente da variável vendas nos indica que, levado em consideração os fatores sazonais; uma venda adicional de 1.000 US$, por exemplo, representará um acréscimo nos lucros de 38,2 US$. Analisados os resultados dessa regressão, podemos concluir que apenas o segundo trimestre parece ser diferente dos demais. Pode-se então, rodar novamente a regressão utilizando-se apenas uma dummy para distinguir o segundo trimestre dos demais. Nesse caso, o resultado dessa nossa regressão será dado por: Lucrot = 6.515,58 + 0,0393Vendast + 1.331,3523D2t (4,0143) (3,7173) (2,7004) O uso de variáveis dummies, como visto, é muito útil na análise de regressão e pode servir a diversos propósitos. Alguns cuidados, no entanto, devem ser tomados. Nessa seção serão apresentados pontos especiais e cuidados que devem ser seguidos quando forem utilizadas essas variáveis. 8.4.1 Interpretação da Dummy em Regressões Semi-Logaritmicas Suponha o seguinte modelo de regressão: LnYi = β 0 + β 1Xi + β 2Di Onde: Y = salário inicial de professores universitários; X = anos de experiência de ensino; D= 1 se homem 0 se mulher Seja o seguinte conjunto de dados a ser utilizado nessa regressão: 143 Salário Inicial R$ Y 23,0 19,5 24,0 21,0 25,0 22,0 26,5 23,1 25,0 28,0 29,5 26,0 27,5 31,5 29,0 Anos de Experiência X 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 Gênero D 1 0 1 0 1 0 1 0 0 1 1 0 0 1 0 Caso o modelo fosse linear, os resultados da regressão seriam: ˆ Yi = 17,9693 + 1,3707Xi + 3,3336Di (93,62) (38,45) (21,46) R²= 0,9921 ˆ ˆ ˆ Todos os coeficientes estimados ( β 0 , β 1 e β 2 ) com t´s significativos e elevado poder de determinação. ˆ Observe que poderíamos interpretar o coeficiente β 1 como o valor da mudança (nesse caso acréscimo) de salário médio para cada ano adicional de experiência, mantido o gênero ˆ constante. No caso da variável dummy, poderíamos interpretar o valor de β 2 como o acréscimo de salário médio pelo fato de o professor universitário ser homem, (D=1), mantida a experiência constante. Essa interpretação é totalmente válida e correta quando o modelo é linear. Mas quando estivermos tratando de um modelo semilog, essa interpretação está equivocada. Comecemos por verificar o resultado da estimação da equação semilog: ˆ Yi = 2,9298 + 0,0546Xi + 0,1341Di (481,5228) (48,3356) (27,2249) R²= 0,9954 ˆ Nesse caso, interpretamos o coeficiente β 1 como a variação relativa no valor médio de Y decorrente da mudança/variação de uma unidade de X (anos de experiência). Assim, o acréscimo de um ano de experiência implica em uma variação de 0,0546 (ou 5,46%) no logaritmo da renda. Como ln Y é, ele próprio uma taxa de variação, nossa interpretação deve ser a seguinte: o aumento de um ano de experiência de ensino eleva a taxa de variação de salário em 5,46%. 144 ˆ Mas será que podemos fazer a mesma interpretação para o coeficiente β 2 ? Segundo Halvorsen e Palmquist , pode-se aplicar essa interpretação no valor de qualquer regressor, “desde que o regressor seja uma variável contínua e não dicotômica, como no caso da variável dummy (...) Nesse caso, usa-se o antilog (na base e) do coeficiente estimado da dummy e subtraia 1”. 18 ˆ Então, no nosso caso, devemos utilizar o valor estimado de β 2 (0,1341) para calcular o “verdadeiro” impacto do gênero na variação de salários dos professores universitários. Assim: antilog(0,1341) – 1 = 1,14348 – 1 = 0,14348 Agora podemos interpretar que a taxa de variação do salário médio dos professores homens é 14,348% superior à taxa de variação do médio dos professores mulheres. 8.4.2 Heterocedasticidade e Autocorrelação Quando utilizamos variáveis dummies assumimos implicitamente que var(V1i) = var(V2i) = τ , ou seja, que a variância do erro para qualquer dos dois valores da dummy seja constante. Se isso não acontecer, ou seja, se as variâncias dos erros forem diferentes é possível que as estimativas não sejam estatisticamente significativas. Assim, quando usamos variáveis dummies é necessário que façamos testes adicionais específicos que serão vistos nos tópicos de heterocedasticidade. O mesmo pode ocorrer no tocante a autocorrelação. Suponha o seguinte modelo: Yt = β 0 + β 1Dt + β 2Xt + β 3DtXt + εt Em que Dt = 0 para um primeiro período 1 para um segundo período 2 Suponha que se tenha n1 observações para o primeiro período e n2 observações para o segundo. Suponha ainda que o termo do erro εt é gerado por um esquema auto-regressivo de primeira ordem expresso por: εt = Ρετ-1 + νt νt ~ N (0, τ ) 2 Nesse caso, teremos problemas para estimar os coeficientes associados a D. Essa variável é utilizada apenas para classificar períodos, separando observações do primeiro e do segundo períodos. Na presença de autocorrelação devemos corrigir os dados, o que será visto no tópico sobre autocorrelação. 18 Halvorsen, Robert & Raymond Palmquist (1980). “The Interpretation of Dummy Variables in Semilogarithmic Equations”. American Economic Review, vol. 70, nº 3, pp. 474-475 145 8.5 Síntese e Conclusões Podemos agora fazer uma breve síntese ao tópico variáveis dummies e, em seguida, apresentar algumas conclusões: a) Em modelos nos quais variáveis qualitativas tenham relevância explicativa, podemos recorrer ao uso de variáveis dummies; b) Essas variáveis normalmente assumem os valores alternativos zero (0) e um (1). No entanto, se soubermos de antemão que os atributos que elas representam têm efeitos cumulativos constantes, podemos fazê-los m-1 valores consecutivos correspondentes aos m atributos estudados; c) Em geral, no entanto, quando temos uma variável qualitativa que representa m atributos diferentes, deve-se criar m – 1 variáveis dummies, cada uma delas podendo assumir apenas os valores 0 ou 1; d) Devemos lembrar sempre que variáveis dummies são um expediente classificatório de dados, uma vez que dividem a série seguindo atributos; e) Se houver diferenças entre os sub-grupos que foram classificados pelas variáveis dummies, elas dever-se-ão refletir nos valores estimados dos interceptos ou nos coeficientes de declividade (ou em ambos) na regressão estimada; f) O uso de variáveis dummies pode ser dirigido para diversas aplicações: diferenças de intercepto, diferenças de declividade; dessazonalização de séries temporais e análise de estabilidade estrutural. Para cada caso deve ser construído um modelo específico, buscando captar as possíveis diferenças. g) Embora seja uma ferramenta útil e versátil, a técnica da variável dummy deve ser utilizada com cautela. Em primeiro lugar, se a regressão contiver um termo constante, o número de variáveis dummies deverá ser sempre menor do que os atributos possíveis (m – 1). Em segundo, o coeficiente associado às variáveis dummies deve ser sempre interpretado em relação ao grupo-base (D = 0). Por fim, devemos ter em mente que o uso de variáveis dummies “consome” graus de liberdade da regressão. Portanto, devese sempre avaliar a adoção de variáveis dummies levando-se em conta o número total de observações. h) O uso de variáveis dummies é muito fácil e nos auxilia na identificação e interpretação de efeitos de variáveis qualitativas. Porém, sempre que a utilizarmos, devemos avaliar os possíveis problemas e limitações, sobretudo quando estivermos tratando de modelos semilog ou séries temporais. 146 Exercícios Propostos 1. Sabendo que um determinado fenômeno sofre alterações de comportamento a cada cinco anos um pesquisador montou um modelo com duas equações diferentes (a primeira válida para os anos múltiplos de 5 e a segunda para os demais). O que você pode afirmar a respeito desta medida? Foi um procedimento adequado? Justifique. 2. Um modelo de regressão foi rodado com os seguintes resultados: Yi = β 1 + β 2Xi + β 3Di + β 4DiXi + εi β1 Valor estimado Desvio Padrão 500 50 β2 0,1 0,03 β3 100 15 β4 0,2 0,01 Onde: Y = Gasto anual destinado a vestuário (R$) X = Renda Familiar (R$ mil) D = 0 para homens e 1 para mulheres Teste a hipótese de que as mulheres, em geral, gastam mais do que os homens e que esta diferença é maior nas classes econômicas mais elevadas. 3. Uma revista encomendou uma pesquisa com o objetivo de identificar o público de sua revista. Os leitores foram classificados segundo gênero (masculino e feminino) e opção sexual (hetero ou homossexual). Duas dummies (A e B) foram utilizadas para identificar o leitor, sendo A=1 para leitores femininos e B = 1 para homossexuais. Os resultados obtidos são apresentados a seguir. A proposta inicial da revista era atrair o público masculino homossexual. Você acredita que isto corresponde ao que ocorreu na realidade? Em caso negativo, indique se a diretoria deveria mudar sua estratégia e qual grupo deveria ser focado. Coeficiente Intercepto A B 0,09 0,21 0,12 Desvio Padrão 0,03 0,002 0,001 4. Uma empresa de fast-food fez uma pesquisa para identificar os diabéticos de uma certa região, pois pretende inovar seu cardápio com comidas dietéticas. Uma variável dummy (D) foi utilizada, onde D = 0 se diabéticos. Os resultados da pesquisa foram os seguintes: 147 Coeficiente Intercepto D 25,5 77,0 Desvio Padrão 5,7 13,8 O que pode-se afirmar? Nessa mesma pesquisa foi perguntado aos diabéticos se eles consumiriam sanduíches e sobremesas dietéticas. Utilizou-se a variável dummy C, sendo que C = 1 se os entrevistados concordavam. Os resultados obtidos foram os seguintes: Coeficiente Intercepto C 6,0 19,5 Desvio Padrão 2,18 2,57 O que a empresa deve fazer? 5. Em que caso 2 características poderiam sem representadas por apenas uma variável dummy que pode assumir valores 0, 1 ou 2? Indique uma situação cotidiana que exemplifique este caso. 6. Para a situação a seguir, indique como uma dummy poderia ajudar a na modelagem estatística do fenômeno em estudo: 180 160 140 120 100 80 60 40 20 0 0 5 10 15 20 25 30 35 7. Para cada uma das situações a seguir, indique se você acredita que, de alguma forma, o uso de variáveis dummy pode ser necessário. a) estudo do comportamento da inadimplência do comércio; b) identificação de diferenças na pluviosidade de uma região; c) comportamento da cotações das ações; d) diferenças de rendimento acadêmico entre homens e mulheres; 148 e) determinação do consumo de gasolina de um carro; f) quantidade de consumo diário médio de derivados de leite; g) metodologia de precificação de seguro de vida; h) metodologia de precificação de seguro saúde i) j) determinação da demanda de televisores; previsão do número de telespectadores de determinado programa. 8. A partir dos gráficos a seguir, identifique se o uso de uma dummy deve fazer sentido. a) 120 100 80 60 40 20 0 0 5 10 15 20 25 30 35 b) 120 100 80 60 40 20 0 0 5 10 15 20 25 30 35 c) 149 0 -10 0 -20 -30 -40 -50 -60 -70 -80 -90 5 10 15 20 25 30 35 d) 120 100 80 60 40 20 0 -20 0 -40 -60 -80 -100 5 10 15 20 25 30 35 e) 20 10 0 -10 0 -20 -30 -40 -50 -60 -70 -80 -90 5 10 15 20 25 30 35 *9. Um determinado grupo de estudantes acredita que a nota média obtida o exame TOEFL depende do mês em que é realizada a prova. Eles suspeitam que, se a prova for realizada nos períodos de férias (julho, dezembro, janeiro e fevereiro), a nota tende a ser menor. Diante dos dados da amostra a seguir, você acredita que a suspeita destes estudantes é pertinente? Justifique. Caso você rejeite a hipótese levantada, você consegue identificar algum outro comportamento atípico da amostra apresentada? Faça uma análise estatística dos resultados encontrados. 150 Mês jan/98 fev/98 mar/98 abr/98 mai/98 jun/98 jul/98 ago/98 set/98 out/98 nov/98 dez/98 jan/99 fev/99 mar/99 abr/99 mai/99 jun/99 jul/99 ago/99 set/99 out/99 nov/99 dez/99 Pontuação 617 562 524 549 571 538 554 511 672 566 441 482 531 627 470 546 519 530 548 425 608 567 576 567 Mês jan/00 fev/00 mar/00 abr/00 mai/00 jun/00 jul/00 ago/00 set/00 out/00 nov/00 dez/00 jan/01 fev/01 mar/01 abr/01 mai/01 jun/01 jul/01 ago/01 set/01 out/01 nov/01 dez/01 Pontuação 559 575 549 504 577 535 636 591 423 550 518 591 567 577 551 490 546 589 559 438 569 500 486 499 *10. Os dados a seguir referem-se a vendas mensais do comércio. Acredita-se que os meses de maio e dezembro apresentem um comportamento atípico devido ao dia das mães e ao Natal e que o mês de janeiro apresente vendas abaixo da média anual devido à obrigatoriedade do pagamento de alguns impostos (IPTU e IPVA, por exemplo). Verifique se é possível testar estas hipóteses com a utilização de variáveis dummy. Em caso afirmativo, quantas dummies serão necessárias para se determinar o modelo? Rode o modelo de regressão e comprove ou não as hipóteses. Na prática, o que os comerciários podem fazer com as informações que você obteve? 151 Vendas 7,884 8,079 8,245 8,159 8,425 8,526 8,432 8,761 8,866 8,756 8,933 9,581 9,116 9,272 9,362 9,494 9,510 9,684 9,897 9,783 10,157 9,916 10,071 10,689 Mês jan/95 fev/95 mar/95 abr/95 mai/95 jun/95 jul/95 ago/95 set/95 out/95 nov/95 dez/95 jan/96 fev/96 mar/96 abr/96 mai/96 jun/96 jul/96 ago/96 set/96 out/96 nov/96 dez/96 Vendas 10,056 10,694 10,411 10,544 10,759 11,036 11,121 11,222 11,002 11,485 11,386 12,101 11,386 11,513 11,787 11,907 11,906 11,945 12,166 12,101 12,367 12,363 12,435 13,399 Mês jan/97 fev/97 mar/97 abr/97 mai/97 jun/97 jul/97 ago/97 set/97 out/97 nov/97 dez/97 jan/98 fev/98 mar/98 abr/98 mai/98 jun/98 jul/98 ago/98 set/98 out/98 nov/98 dez/98 Vendas 12,695 12,759 12,938 13,101 13,001 13,478 13,299 13,672 13,466 13,884 13,746 14,377 Mês jan/99 fev/99 mar/99 abr/99 mai/99 jun/99 jul/99 ago/99 set/99 out/99 nov/99 dez/99 *11. O seguinte modelo de regressão linear múltipla foi obtido a partir de uma determinada amostra: RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,9998 2 R 0,9997 2 R ajustado 0,9996 Erro padrão 3,5566 Observações 30 ANOVA gl Regressão Resíduo Total 5 24 29 SQ MQ F F signific 899.057 179.811 14.215,2 0,000 303,581 12,649 899.361 152 Interseção Dummy 1 Dummy 2 D1 * X D2 * X X Coefs Erro Pad 16,109 3,117 (0,601) 2,919 2,415 2,784 15,119 0,167 0,040 0,155 2,845 0,175 Stat t 5,168 (0,206) 0,868 90,449 0,258 16,295 valor-P 95% Infs 95% Sups 0,000 9,675 22,542 0,839 (6,626) 5,424 0,394 (3,330) 8,161 0,000 14,774 15,464 0,799 (0,280) 0,360 0,000 2,485 3,206 Modelo1: Yi = β 0 + β 1 * D1i + β 2 * D2i + β 3 * D1i * Xi + β 4 * D2i * Xi + β 5 * Xi + εi A partir dele retirou-se duas variáveis que pareciam estar em excesso: RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,9998 2 R 0,9997 2 R ajustado 0,9996 Erro padrão 3,4238 Observações 30 ANOVA gl Regressão Resíduo Total 3 26 29 Coefs 15,319 3,054 15,086 2,890 SQ MQ F 899.056,2 299.685 25.565,5 304,779 11,722 899.361 Erro Pad Stat t 1,561 9,816 1,273 2,398 0,071 211,174 0,087 33,180 valor-P 0,000 0,024 0,000 0,000 F signific 0,000 Interseção Dummy 2 D1 * X x 95% Infs 95% Sups 12,111 18,527 0,437 5,671 14,939 15,233 2,711 3,069 Modelo2: Yi = β 0 + β 1 * D2i + β 2 * D1i * Xi + β 3 * Xi + εi A partir destes modelos, identifique se o uso de variáveis dummy melhora a especificação do modelo. Faça uma análise estatística dos dados e indique o que representa, neste caso específico, o acréscimo de cada uma das variáveis dummy. 153