• Michel

Distribuições de Probabilidades usadas em Machine Learning–parte 1


Uma definição popular dos pré-requisitos para o Cientista de Dados é:

'O Cientista de Dados é um melhor estatístico do que a maioria dos programadores e um melhor programador do que a maioria dos estatísticos‘.

As distribuições de probabilidade são fundamentais para a Estatística, assim como os bancos de dados são para a Ciência da Computação. Elas são básicas se você pretende falar como um Cientista de Dados. É possível efetuar uma análise simples de Machine Learning usando R ou Python sem entender distribuições, assim como gerar um programa em Python sem entender programação orientada a objetos. Mas geralmente isto termina mal: com bugs e intermináveis debugs, ou pior: com previsões erradas.

É fato que Machine Learning adotou muitos métodos da Estatística. Se você não lembra bem das noções básicas de estatística você possivelmente precisa de um curso intensivo de recordação para trabalhar com Machine Learning . Pelo menos para ser capaz de fazer observações básicas sem passar vergonha.

Existem centenas de distribuições de probabilidade, porém somente algumas aparecem com frequência nos casos reais.

Neste artigo abordamos as distribuições discretas mais usadas em Machine Learning.

Distribuição de probabilidades


Uma distribuição de probabilidades é uma função matemática que fornece as probabilidades de ocorrência de diferentes resultados possíveis em um experimento.

Em termos mais técnicos, a distribuição de probabilidades é uma descrição de um fenômeno aleatório em termos de probabilidades de eventos. Por exemplo, se a variável aleatória X for usada para denotar o resultado de um lançamento de uma moeda ("o experimento"), então a distribuição de probabilidade de X levaria o valor P(x) = 0,5 para cara e P(x) = 0,5 para coroa (assumindo que a moeda não é viciada).

Uma distribuição de probabilidade é definida em termos de um espaço amostral subjacente, que é o conjunto de todos os resultados possíveis do fenômeno aleatório que está sendo observado.

Distribuições de probabilidade são geralmente divididas em duas classes:

Distribuições de probabilidades discretas - aplicável aos cenários em que o conjunto de resultados possíveis é discreto, como um sorteio ou um lançamento de dados que pode ser codificada por uma lista discreta das probabilidades dos resultados, conhecida como uma função de massa de probabilidade .

Distribuições de probabilidades contínuas - aplicável aos cenários em que o conjunto de resultados possíveis pode assumir valores em um intervalo contínuo (por exemplo, números reais), como a temperatura em um determinado dia. É tipicamente descrita por funções de densidade de probabilidade. A distribuição normal é uma distribuição de probabilidade contínua comumente encontrada.

Uma distribuição univariada fornece as probabilidades de uma única variável aleatória assumir vários valores alternativos.

Distribuições de probabilidade univariadas importantes e comumente encontradas incluem a distribuição binomial, a distribuição geométrica, de Poisson e a distribuição normal.

Um dos exemplos mais simples de uma distribuição univariada é a distribuição uniforme, onde todos os elementos de um conjunto finito são igualmente prováveis. É o modelo de probabilidade para os resultados de lançar uma moeda, rolar um dado, etc.

A distribuição uniforme contínua univariada em um intervalo [a , b] tem a propriedade de que todos os subintervalos do mesmo comprimento são igualmente prováveis.

Variáveis Discretas


A probability mass function (PMF) é uma função que fornece a probabilidade de que uma variável aleatória discreta seja exatamente igual a algum valor.

A PMF é o principal meio de definir uma distribuição de probabilidade discreta.

A cumulative distribution function (CDF), também chamada de cumulative density function de uma variável aleatória X, avaliada em x, é a probabilidade de que X terá um valor menor ou igual a x.

Um exemplo de uma distribuição univariada discreta é a de um modelo de probabilidade para os resultados da soma ao se de lançar dois dados.

Estas probabilidadedes são mostradas abaixo.



Veremos que a PMF difere da probability density function (PDF), na medida em que esta última está associada a variáveis ​​aleatórias contínuas em vez de discretas.

Variáveis Contínuas


Probability density function (PDF) ou densidade de uma variável aleatória contínua, é uma função que descreve a probabilidade relativa de uma variável aleatória tomar um dado valor. No gráfico temos diversos exemplos de PDF’s.



Quando a variável aleatória é continua não tem sentido definitr a probabildade em um ponto.

Por exemplo, suponhamos que uma espécie de bactérias normalmente vive por 4 a 6 horas. Qual é a probabilidade de que uma bactéria viva exatamente 5 horas? A resposta é de 0%. Muitas bactérias vivem por aproximadamente 5 horas, mas não há nenhuma chance de que qualquer bactéria morra em exatamente 5.0000... horas.

Em vez disso, poderíamos perguntar: qual é a probabilidade de que a bactéria morra entre 5 horas e 5,01 horas? Vamos dizer que a resposta é de 0,02 (ou seja, 2%). A seguir: qual é a probabilidade de que a bactéria morra entre 5 horas e 5.001 horas? A resposta é provavelmente em torno de 0,002, uma vez que este é um décimo do intervalo anterior. A probabilidade de que a bactéria morrea entre 5 horas e 5.0001 horas é provavelmente cerca de 0,0002, e assim por diante.

Portanto, em resposta à pergunta qual é a probabilidade de que a bactéria morra em 5 horas?, a resposta literalmente correta, mas inútil, é 0, mas uma melhor resposta pode ser escrita como 2% . Esta é a probabilidade de que a bactéria morra dentro de um pequeno (infinitesimal) período de tempo.

A distribuição binomial é a distribuição de probabilidade discreta do número de sucessos numa sequência de n tentativas tais que:


• Cada tentativa tem exclusivamente como resultado duas possibilidades, sucesso ou fracasso

• Cada tentativa é independente das demais

• A probabilidade de sucesso p a cada tentativa permanece constante independente das demais

• A variável de interesse é o número de sucessos k em n tentativas

• Para um único ensaio, ou seja, n = 1, a distribuição binomial é também chamada de distribuição de Bernoulli


Definição

Se a variável aleatória X que contém o número de tentativas que resultam em sucessos tem uma distribuição binomial com parâmetros n e p escrevemos

X ~ Bin(n, p)

A probabilidade de ter exatamente k sucessos é dado pela função de probabilidade:






Exemplos

1) Suponha que uma moeda viciada tenha probabilidade de 30% de cair Cara quando lançada. Qual é a probabilidade de alcançar 0, 1, ..., 6 caras depois de seis jogadas?


2) Três dados honestos são lançados. A probabilidade de que o número 6 seja obtido mais de uma vez é:



Acha-se a probabilidade de que 6 seja obtido 2 vezes.

A distribuição de probabilidade de Poisson


Na distribuição binomial calcula-se o número de sucessos em uma sequência de n tentativas, cada um das quais produz sucesso com probabilidade p.

Já a distribuição de Poisson expressa a probabilidade de um determinado número de eventos ocorrer em um intervalo fixo de tempo (ou espaço) se esses eventos ocorrerem com uma taxa média conhecida e são independentes.

A distribuição de Poisson é também chamada de "lei de eventos raros" - é a distribuição que conta o número de ocorrências de um evento, dado que a probabilidade do evento é muito pequena.

Por exemplo, um indivíduo que acompanha a quantidade de correspondência que recebe todos os dias recebe um número médio (mu) de duas cartas por dia (figura abaixo). Receber qualquer correspondência em particular não afeta as chegadas de futuras correspondências. A probabilidade de receber, digamos 10 correspondências em um dia é muito pequena e obedece a uma distribuição de Poisson.



A distribuição de Poisson foi desenvolvida pelo matemático francês Simeon Denis Poisson em 1837, sendo um modelo apropriado se as seguintes suposições forem verdadeiras.


k (0, 1, 2,...) é o número de vezes que um evento ocorre em um intervalo.

• A ocorrência de um evento não afeta a probabilidade de ocorrer um segundo evento. Ou seja, os eventos ocorrem de forma independente.

• A taxa na qual os eventos ocorrem é constante. A taxa não pode ser maior em alguns intervalos e menor em outros intervalos.

• Dois eventos não podem ocorrer exatamente no mesmo instante; em vez disso, em cada subintervalo muito pequeno, exatamente um evento ocorre ou não ocorre.

• A distribuição de probabilidade é dada por uma distribuição binomial em que o número de tentativas é suficientemente maior que o número de sucessos.

Dado que uma situação segue uma distribuição de Poisson, existe uma fórmula que permite calcular a probabilidade de observar k eventos ao longo de um período de tempo para qualquer valor inteiro não negativo de k.


Definição

Seja X a variável aleatória discreta que representa o número de eventos observados durante um determinado período de tempo. Seja lambda o valor esperado (media) de X. Se X segue uma distribuição de Poisson, então a probabilidade de observar k eventos durante o período de tempo é





onde e é o número de Euler .


Uma propriedade importannte da distribuição de Poisson é que o valor esperado (media) lamba é igual a variância.



Exemplo

Na Copa do Mundo, uma média de 2,5 gols são marcados em cada partida. Modelando esta situação com uma distribuição de Poisson, qual é a probabilidade de que k = 0, 1,2, 3 ou 4 gols sejam marcados em um jogo?

Neste caso lambda = 2.5 e a fórmula acima se aplica diretamente:











Se o objetivo é garantir que menos de 10% das chamadas sejam colocadas em espera, então 7 agentes devem estar de plantão.

Distribuição de Poisson versus distribuição binomial


A distribuição de Poisson é na verdade um caso limite de uma distribuição binomial quando o número de tentativas n fica muito grande e a probabilidade de sucesso p é pequena.

A distribuição binomial é especificada por 2 parâmetros, n e p, enquanto a distribuição de Poisson é especicada unicamente pela media.

A distribuição de Poisson é similar à distribuição binomial também porque ambas modelam contagens de eventos. Contudo, dentro do seu espaço de observação finito, a distribuição de Poisson não coloca nenhum limite superior nesta contagem: uma mesa telefônica poderia receber um número ilimitado de chamadas em um dia e não violar os requisitos de distribuição de Poisson. Por outro lado, a distribuição binomial define um limite superior na contagem: o número de eventos que você observa não pode ser maior do que o número de ensaios que você realiza.


Distribuição de Poisson versus distribuição normal


A distribuição normal dá a probabilidade dos diferentes valores possíveis de uma variável continua x. Já a distribuição de Poisson tal como a distribuição Binomial dá as probabilidades de uma variável discreta k = 0, 1, 2, 3,... .

Outra diferença importante é que a distribuição normal é especificada por dois parâmetros, a media e o desvio padrão, enquanto a distribuição de Poisson usa unicamente pela media. Finalmente, a distribuição de normal tem sempre a forma de sino, sendo simétrica em torno do seu valor médio, enquanto a distribuição de Poisson, geralmente é bastante assimétrica .

Contudo, como tantas distribuições discretas e contínuas, a forma da distribuição de Poisson torna-se cada vez mais simétrica, até mesmo a distribuição normal, à medida que a media cresce em tamanho.


O eixo horizontal é o índice k , o número de ocorrências. Lambda é o número esperado de ocorrências. O eixo vertical é a probabilidade de k ocorrências por lambda. A função é definida apenas em valores inteiros de k . As linhas de conexão são apenas guias para o olho uma vez que k é discreto.

Regressão de Poisson e regressão binomial negativa

Em Machine Learning a regressão de Poisson usa a distribução de Poisson em modelos de regressão que são usados para prever valores numéricos, geralmente contagens.

A regressão de Poisson é um modelo linear generalizado (generalized linear model) de análise de regressão.

Ocorre que as variáveis ​​de contagem geralmente seguem uma distribuição de Poisson e, portanto, podem ser usadas em um modelo de regressão de Poisson. Os modelos de regressão de Poisson são semelhantes à Regressão Logística de muitas maneiras - ambos usam a Estimação da Máxima Verossimilhança (Maximum Likelihood), ambas exigem uma transformação da variável dependente, no entanto, a resposta não está limitada a valores específicos, como na regressão logística.

Qualquer um familiarizado com a regressão logística passará facilmente para a Regressão de Poisson.

A regressão de Poisson assume que a variável de resposta (target) Y possui uma distribuição de Poisson e assume que o logaritmo de seu valor esperado pode ser modelado por uma combinação linear de parâmetros desconhecidos. A regressão de Poisson às vezes é conhecida como um modelo log-linear, especialmente quando usado para modelar tabelas de contingência.

No caso mais simples com uma única variável independente x, o modelo toma a forma:


log(E(Y))= a + bx


A regressão binomial negativa é uma generalização da regressão de Poisson que afrouxa a suposição altamente restritiva de que a variância é igual à media feita pelo modelo de Poisson.

Uma distribuição de contagens geralmente terá uma variação que não é igual à sua media. Realizar a regressão de Poisson nos dados de contagem que exibem esse comportamento resulta em um modelo que não se encaixa bem.

Uma abordagem que aborda esse problema é a Regressão Binomial Negativa.

A distribuição binomial negativa, como a distribuição de Poisson, descreve as probabilidades de ocorrência de números inteiros maiores ou iguais a 0. Diferentemente da distribuição de Poisson, a variância e a média não são equivalentes. Isso sugere que ele pode servir como uma aproximação útil para a modelagem de contagens com variabilidade diferente de sua média

Exemplos de uma aplicações de regressão de Poisson podem ser um estudo de como a contagem de colônias de bactérias são relacionados a diversas condições ambientais e diluições, o número de falhas de uma certa máquina em várias condições de funcionamento, ou ainda sobre a mortalidade infantil ou a incidência de câncer entre grupos com diferentes dados demográficos.

Referências

http://personal.maths.surrey.ac.uk/st/J.Deane/Teach/se202/poiss_bin.html

https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

https://support.minitab.com/pt-br/minitab/18/help-and-how-to/probability-distributions-and-random-data/supporting-topics/distributions/poisson-distribution/

https://analyticsbuddhu.com/2017/02/26/how-many-types-of-continuous-probability-distribution/

http://personal.maths.surrey.ac.uk/st/J.Deane/Teach/se202/poiss_bin.html

3 Dimensões

Inteligência Artificial nas Empresas

Al. das Papoulas, 147 - Santana de Parnaíba - Alphaville, SP 06539-180 - (11) 4153 6004  - (11) 9 9795 9765

michel@3dimensoes.com.br