Random Forest

  O Random Forest implementa o conceito de ensemble learning através da técnica de bagging (bootstrap aggregating). O algoritmo constrói múltiplas árvores de decisão utilizando subconjuntos aleatórios dos dados de treinamento, combinando suas previsões através de votação majoritária (classificação) ou média (regressão). A aleatoriedade é introduzida tanto na seleção de amostras quanto na escolha de subconjuntos de features para cada divisão, reduzindo a correlação entre árvores individuais.

Vantagens

  • Robustez ao Overfitting: A combinação de múltiplas árvores reduz significativamente a variância do modelo, melhorando a capacidade de generalização.
  • Análise de Importância de Features: Fornece métricas quantitativas sobre a relevância de cada variável no processo decisório, auxiliando na seleção de features e interpretação de resultados.
  • Versatilidade: Manuseia eficientemente dados tabulares heterogêneos, incluindo variáveis numéricas e categóricas, com tratamento nativo de valores ausentes
  • Paralelização Natural: O treinamento de árvores individuais pode ser paralelizado, reduzindo o tempo de processamento

Desvantagens

  • Complexidade Computacional: Demanda recursos significativos de memória e processamento, especialmente com grandes volumes de dados e muitas árvores
  • Interpretabilidade Limitada: A natureza ensemble dificulta a compreensão intuitiva das regras de decisão, ao contrário de uma árvore de decisão única
  • Latência de Predição: Tempo de resposta mais elevado em produção devido à necessidade de agregação de múltiplas previsões
  • Tendência a Overfitting em Ruído: Embora mais robusto que árvores individuais, ainda pode capturar padrões espúrios em datasets com muito ruído

Métricas

MétricaValor
Acurácia0.9068
Recall0.8366
Especificidade0.9369
Precisão0.9304
F1-Score0.9336
Tempo de Treino73.88s

Matriz de Confusão

Valor real
Good
Bad
Good
0.84
0.16
Bad
0.06
0.94
Valor previsto
1.0
0.0

Feature Importance

O que é este gráfico?

O gráfico de summary do SHAP mostra a importância média das features para o modelo. Cada ponto representa uma observação e sua contribuição para a predição; pontos à direita aumentam a probabilidade da classe positiva, enquanto pontos à esquerda diminuem.

As cores normalmente representam o valor da feature (alto/baixo). Este gráfico dá uma visão global da importância e direção do efeito das variáveis.

SHAP summary plot for random-forest