• Michel

Regressão Multivariável na Previsão de Vendas

A Regressão Multivariável é uma técnica de previsão de vendas que usa um conjunto de variáveis que podem ter uma influência sobre as vendas.



A Regressão Multivariável é uma técnica de previsão de vendas que usa um conjunto de variáveis que podem ter uma influência sobre as vendas. Ela usa a relação entre dois tipos de variáveis: a variável dependente e as variáveis independentes. Por exemplo, suponha que você já sabe que as vendas dependem das alterações no PIB e da taxa de desemprego. As vendas previstas seriam a variável dependente, porque seu valor depende do valor do PIB e da taxa de desemprego que seriam as variáveis independentes. Então você precisaria determinar a intensidade da relação (correlação) entre estas duas variáveis e as vendas. Se o PIB diminui em 1%, e a taxa de desemprego cai 2%, quanto irão suas vendas aumentar ou diminuir?

O resultado de uma análise por regressão multivariada poderia ser por exemplo concluir que uma cota de vendas anual razoável para uma loja é dada pela seguinte equação.


Vendas Previstas para o trimestre = 5*(cresc PIB) -10*(grau da Concorrência) -100* (Taxa de Desemprego) + 1000* (Área em mt2 da loja)


Os coeficientes 5, 10, 100, 1000 são calculados pelo modelo e definem a importância da variável associada na multiplicação, assim como se o efeito nas vendas previstas é positivo ou negativo.

Por exemplo, o coeficiente 5 do crescimento do PIB tem influência positiva mas pequena nas vendas. O coeficiente -100 na Taxa de Desemprego tem influência negativa e relativamente grande nas vendas. Já o coeficiente 1000 na área da loja tem influência positiva e bastante grande nas vendas.

No gráfico tridimensional abaixo os pontos azuis representam lojas de uma rede de varejo. Cada ponto é associado com a venda média dos últimos três anos (descontada a inflação) que é a variável dependente e as variáveis independentes que são a área da loja em mt2 e o grau de concorrência (em uma escala de 1 a 5).



Note que enquanto a venda é muito influenciada pela área da loja, o grau de concorrência tem menor influência. Note também que não é possível representar num gráfico tridimensional mais do que 3 variáveis, por isso não estão representados o crescimento do PIB e a Taxa de desemprego.

Após concluir quais são as variáveis independentes estatisticamente significativas (no exemplo acima temos quatro delas), a pergunta natural é o quão bem a regressão representa a realidade?

Para responder isso você deve analisar cuidadosamente cada variável que está influenciando o modelo e levar em conta os fatores citados a seguir.


Correlação não é causalidade

É importante não confundir correlação com causalidade. Por exemplo, é possível correlacionar o número de afogamentos em um uma praia com o número de sorvetes vendidos num dado período. O modelo pode dar previsões razoáveis, não porque sorvetes causam afogamentos, mas porque as pessoas tomam mais sorvetes em dias quentes quando elas também são mais propensas a nadar. Então as duas variáveis (vendas de sorvete e afogamentos) estão correlacionadas, mas uma não está causando a outra. Entretanto as correlações não deixam de ser úteis para a previsão, mesmo quando não há nenhuma relação causal entre as duas variáveis.


Via de regra um modelo melhor é possível se um mecanismo causal pode ser determinado. Neste exemplo, tanto as vendas de sorvete e afogamentos serão afetados pela temperatura e pelos números de pessoas que visitam a praia. Então um modelo melhor para afogamentos provavelmente poderia incluir temperaturas e o número de visitantes e excluir as vendas de sorvetes.

Dados Incomuns (Outliers)

Um outlier é um ponto de dados que é muito diferente do resto dos dados. Por exemplo, ao selecionar uma amostra das vendas de 30 lojas de uma rede, 29 delas estão entre R$ 150 e R$ 300 mil reais mensais e uma 30ª loja com vendas de R$ 3.000.000. Esta última provavelmente é um outlier. Na regressão, um outlier é um ponto de dados que está longe da linha de regressão em comparação com o resto dos dados.


Outliers podem ocorrer por acaso em qualquer distribuição, mas eles geralmente indicam ou um erro de medição.

Regressão Multivarável na Prática

Se você tem dúvidas sobre o que é um processo de análise preditiva leia primeiro este blog“Implementação de um processo de anál






O RapidMiner fornece uma ferramenta simples para regressão. O primeiro passo é importar os dados para treinar o modelo, usando o operador de leitura apropriado. Então você altera o tipo de atributo de seu campo de destino (variável dependente) para “label”, e adiciona o operador de Regressão Linear para gerar o modelo, como na figura abaixo.



Agora, você pode importar os dados de teste e usar o operador Apply Model para prever os resultados. O modelo é mostrado na figura a seguir.


Ao conectar a porta weight do operador de Regressão Linear à porta da janela do processo você terá os pesos (coeficientes) das variáveis independentes em uma tabela separada. Neste exemplo o modelo contém 5 variáveis independentes e uma variável dependente ( que queremos prever).

As tabelas a seguir mostram os resultados. O RapidMiner fornece as estatísticas do modelo de regressão, a equação da regressão e adiciona um campo de valores previstos para o conjunto de dados de teste. Você pode exportar os resultados para o Excel.







3 Dimensões

Inteligência Artificial nas Empresas

Al. das Papoulas, 147 - Santana de Parnaíba - Alphaville, SP 06539-180 - (11) 4153 6004  - (11) 9 9795 9765

michel@3dimensoes.com.br