• Michel

Escolhendo entre um algoritmo paramétrico ou não paramétrico

É seguro dizer que a maioria das pessoas que usam estatística estão mais familiarizadas com análises paramétricas do que com análises não paramétricas. Os algoritmos não paramétricos não pressupõem que a relação entre as entradas e saídas de seus dados sigam uma função matemática específica.


Uma introdução aos conceitos fundamentais de Machine Learning foi dada neste blog. Finalizamos com uma classificação geral dos algoritmos de ML é resumida na figura abaixo.

Algoritmos paramétricos e não paramétricos


No aprendizado de máquina supervisionado, um algoritmo aprende um modelo a partir dos dados de treinamento.

O objetivo de qualquer algoritmo de aprendizado de máquina supervisionado é estimar a melhor função de mapeamento (f1, f2, f3,...) que gera a variável de saída Y (y1, y2,...yn) através dos dados de entrada X (x1, x2,...xn). Note a função original, digamos T, que relaciona as entradas às saídas é desconhecida, pois se a conhecêssemos não precisaríamos usar ML, simplesmente aplicaríamos a função aos dados de entrada para obter a saída.

A função de mapeamento f é freqüentemente chamada de target function (função objetivo) porque é a função que mais aproximou os resultados de T, ou seja f é o algoritmo de aprendizado de máquina supervisionado que vai ser usado para aproximar T. Veja p gráfico abaixo.


Nosso trabalho como profissionais de aprendizado de máquina é avaliar diferentes funções f1, f2,... e ver qual é a que melhor aproxima a função desconhecida T.

Algoritmos Paramétricos

Algoritmos que assumem que f segue uma determinada função conhecida são chamados de algoritmos paramétricos de aprendizado de máquina.

A aplicação de um algoritmo paramétrico envolve duas etapas:

1. Selecione uma função f.

2. Descubra os parâmetros para a função a partir dos dados de treinamento.

Por exemplo, na Regressão Linear assumimos que f é do tipo:


f(x) = b0 + b1 * x1 + b2 * x2 =+...+ bn * xn

Onde b0, b1... bn são os parâmetros (coeficientes).

Agora, tudo o que precisamos fazer é estimar os coeficientes b0, b1... bn e temos um modelo preditivo para o problema.

Agora, se de fato a forma assumida por f for uma combinação linear das variáveis ​​de entrada como acima teremos um bom modelo ao descobrir os coeficientes corretos de f, porém se f não for uma função linear pode ser necessária alguma transformação nos dados de entrada ou pode ser que a suposição de linearidade esteja errada e a abordagem produzirá resultados ruins.

Alguns exemplos de algoritmos paramétricos de aprendizado de máquina incluem:

  • Regressão Linear

  • Regressão Logística

  • Análise Discriminante Linear

  • Perceptron

  • Redes Neurais Simples

Algoritmos paramétricos são em geral,mais simples, i..e., mais fáceis de entender e interpretar e mais rápidos para treinar. Por outro lado ao escolher uma função f, esses métodos ficam restritos aos parâmetros da função e na prática, é improvável que a função f reproduza exatamente a função original desconhecida T.


Algoritmos não-paramétricos


Algoritmos que não fazem fortes suposições sobre a forma da função de mapeamento f são chamados de algoritmos de aprendizado de máquina não paramétricos. Ao não fazer suposições, eles estão livres para aprender qualquer forma funcional a partir dos dados de treinamento.

Os métodos não-paramétricos são bons quando você tem muitos dados e pouco conhecimento prévio, e quando não quer se preocupar muito em escolher apenas as variáveis certas para o problema. Por exemplo, se você tem uma base de dados em que, por privacidade, os nomes dos atributos não estão estão identificados e você não sabe os que estas variáveis significam.

Os métodos não-paramétricos buscam ajustar melhor os dados de treinamento na construção da função de mapeamento, enquanto mantém alguma capacidade de generalizar para dados não vistos. Como tal, eles são capazes de ajustar um grande número de formas funcionais.

Um exemplo de modelo não paramétrico é o algoritmo knn em que uma observação nova adere a classe dos k de vizinhos mais próximos. O método não assume nada sobre a forma da função de mapeamento, a não ser que próximas provavelmentetem uma variável de saída similar.

Alguns exemplos de algoritmos de aprendizado de máquina não paramétricos são:

knn

· Árvores de decisão como CART e C4.5

· SVM (Support Vector Machines)

Os Algoritmos de Aprendizado de Máquina Não Paramétricos tem maior flexibilidade podendo se encaixar em vários de tipos de funções .Seu desempenho é em geral superior, porém

· requerem mais dados de treinamento para estimar a função de mapeamento e são

· mais lentos para treinar, pois muitas vezes precisam de muitos ajustes. Também estão mais propensos a Overfitting.

3 Dimensões

Inteligência Artificial nas Empresas

Al. das Papoulas, 147 - Santana de Parnaíba - Alphaville, SP 06539-180 - (11) 4153 6004  - (11) 9 9795 9765

michel@3dimensoes.com.br