Casa > P > Por Que Registramos Variáveis No Modelo De Regressão?

Por que registramos variáveis no modelo de regressão?

O registo de uma variável (ou não) é uma decisão que tomamos como parte da nossa escolha da Forma Funcional.

A maioria das vezes a relação real entre as nossas variáveis pode não ser linear - onde uma mudança de uma unidade em [matemática][/math] leva a uma mudança de unidade constante [matemática]\beta[/math] em [matemática][/math].

Formulários Funcionais Registados:

Pode ser o caso de uma mudança de uma unidade em [matemática][/math] levar a uma constante [matemática]\beta[/math] por cento* de mudança em [matemática][/math] - conhecido como semilog (lnY) ou forma funcional log-lin - mostrado no gráfico à esquerda. Anos de educação e renda podem seguir uma relação desta natureza, onde mais um ano de educação aumenta a renda em uma porcentagem, ao invés de uma unidade, valor. Mais um ano de escolaridade pode ter um pequeno efeito na renda passando do 10º para o 11º ano, mas mais anos estudando em um programa de MBA podem aumentar substancialmente a renda. Isto irá gerar uma linha curva quando nosso gráfico for escalonado em unidades, mostrando um efeito marginal em unidades.

main-qimg-4ff8e88c6d7260fa9a9634d220e2c4f7.webp

Também pode ser o caso que uma mudança de um por cento em [matemática][/math] leva a uma mudança constante [matemática]\beta[/math] de unidade em [matemática][/math] - conhecida como a forma funcional semilog (lnX) ou lin-log - mostrada no gráfico à esquerda. Anos de experiência e renda podem seguir uma relação desta natureza, onde um aumento percentual, em vez de unidade, na experiência aumenta o valor da unidade de renda - o significado provável dos aumentos será maior no início da sua carreira, então o seu rendimento irá planar. Isto é mostrado no gráfico acima à direita.

O uso final dos logs será para quando queremos estimar o que uma mudança de um por cento em [matemática][/math] leva a constantes [matemática]\beta[/math] mudanças por cento em [matemática][/math] - conhecido como a forma funcional de log-log duplo ou log-log. Isto é usado para medir elasticidades. Um bom uso disto pode ser estimar o efeito de um aumento de 1% no preço dos carros sobre a % de mudança na quantidade de carros vendidos. Esta relação é mostrada visualmente abaixo.

main-qimg-4446bf48e8dca1fc11cc8f9a00691cba.webp

Bonus: Enquanto o uso de logs é ótimo para quando temos um efeito marginal que está mudando de tamanho em unidades - ou colocado de forma diferente, o efeito econômico de [matemática] [/math] sobre [matemática] [/math] está de alguma forma relacionado a mudanças percentuais, ao invés de mudanças de unidade - algumas vezes teremos um efeito marginal que pensamos que mudará de direção em algum momento. Neste caso, vamos querer mudar para uma forma polinomial, ou quadrática, funcional onde incluímos um termo quadrado de (ou uma das) variáveis independentes.

Um exemplo disso é o efeito de verificações e equilíbrios no custo econômico de crises financeiras. Inicialmente, passando de um valor muito baixo de checks and balances (conhecidos formalmente como "Veto Players" ou "Political Constraints") um aumento na variável reduzirá o custo de uma crise, aumentando a confiança do mercado no compromisso do governo com o curso atual da resposta, retardando o colapso. No entanto, à medida que os controlos e equilíbrios aumentam cada vez mais, a redução da confiança do mercado devido à incapacidade do governo em responder a qualquer mudança inesperada nas condições começa a ultrapassar esta situação, e o efeito marginal torna-se negativo. Uma representação visual é mostrada abaixo.

main-qimg-362f7d7f7c3140bfb41eafad37f90580.webp

Escolhendo uma Forma Funcional:

Toda regressão é uma aproximação constante do que é quase certamente um efeito real não constante da sua [matemática][/math](s) sobre a sua [matemática][/math]. Se o seu efeito real está mais próximo de ser constante em termos percentuais, ao invés de termos unitários, usando uma função linear irá gerar um erro de especificação.

Em seu núcleo, a econometria se resume a escolher a forma/formato de uma linha, e estimar os coeficientes para as variáveis na referida linha que *minimiza os resíduos/maximiza a probabilidade/coincide com os momentos*. Ou, dito de forma simples, o melhor trabalho de fazer a linha se encaixar nos dados.

Embora exista um papel para verificar distribuições e scatterplots antes de decidir sobre uma forma funcional, a principal consideração ao selecionar uma forma funcional deve ser sempre a sua avaliação da natureza da relação entre [matemática][/math](s) e [matemática][/math]. mudança percentual para mudança percentual? Log-Log. Mudança de unidade causa uma mudança percentual? Log-Lin. A mudança percentual causa uma mudança de unidade? Lin-Log. O efeito marginal muda de direcção? Dê uma olhada na forma funcional quadrática. A mudança de unidade causa a mudança de unidade? Normal linear specification.

main-qimg-61cbdd0eab73a5c514a2225dd7abeeb8.webp

Further, quando se usa regressão multivariada, é bastante comum "misturar e combinar" estas formas funcionais. Usando uma variável dependente logada, uma variável independente logada, e uma segunda variável linear independente com um termo quadrático desta mesma variável é a-ok. Eu faço isso frequentemente.

P>Just be careful! Certifique-se de ter uma boa razão para fazer isso baseado em seu entendimento teórico da relação entre suas variáveis. Tentar especificações aleatórias e variáveis a torto e a direito até que você obtenha algo que *screva* (ou seja, pareça bom em termos de significância estatística e testes pós-avaliação) é uma ótima maneira de obter um resultado sem valor.

Comece sempre com a teoria ao selecionar sua especificação e formas funcionais.

Finalmente:

Seguindo do último ponto, respostas dizendo coisas como "usar um formulário funcional logado pode lhe dar um R^2 mais alto", e dizendo a você que a consideração primária é a distribuição dos dados estão faltando o ponto. R^2 é útil, mas não deve estar guiando suas decisões de especificação. A distribuição dos dados não é uma boa razão para mudá-los, a menos que haja uma forte razão para pensar que a relação é baseada em uma escala percentual, ao invés de uma unidade.

Tocar o log de uma variável muitas vezes fará com que uma variável com uma longa cauda direita (bastante comum) seja aproximadamente normal, mas como Peter Flom aponta isso não é necessariamente uma boa razão para fazer essa transformação nos seus dados. A distribuição dos resíduos é mais importante do que a distribuição da variável em si, e tomar esta decisão baseada puramente na distribuição dos dados, ao invés da natureza da relação que você está estimando, é colocar o carrinho à frente do cavalo.

*Embora não seja perfeito, pegando o log de uma variável aproxima-se das mudanças percentuais.

Todas as imagens e tabelas são tiradas da Utilizando Econometria: Um Guia Prático material suplementar. É um ótimo texto de nível de graduação que uso para o meu Curso de Econometria.

De Edora

Onde posso encontrar supercarros no modo de história do GTA 5? :: O que são boas séries sobre animais ou natureza na Netflix para assistir?