O dataset base do trabalho é o Statlog (German Credit Data), desenvolvido por Hans Hofmann (1994), amplamente utilizado em estudos de risco de crédito. Ele contém 1000 registros de clientes de um banco alemão, cada um classificado como bom pagador ou mau pagador, com base em seu histórico e características socioeconômicas.

  O conjunto de dados é composto por 20 atributos, incluindo informações categóricas, ordinais e numéricas. A classificação binária divide os clientes em duas categorias:

  • Classe 1 (Bom Pagador): 700 registros (70%).
  • Classe 0 (Mau Pagador): 300 registros (30%)

Dados Sintéticos

  Para aumentar a base e testar os modelos em cenários de maior escala, foi utilizada uma Rede Adversária Generativa (GAN) por meio da biblioteca YData Synthetic, uma vez que os dados de crédito reais são escassos e sensíveis devido a restrições legais e confidencialidade. Essa metodologia preserva os padrões estatísticos do dataset original, mas com maior volume de dados e possibilitou avaliar a escalabilidade dos modelos e seu desempenho em bases maiores e desbalanceadas.

Tratamento de Dados

  O pré-processamento dos dados foi essencial para viabilizar a aplicação dos algoritmos de machine learning. As principais transformações realizadas incluíram a conversão de variáveis categóricas em representações binárias através do one-hot encoding, a codificação numérica ordenada das variáveis ordinais para preservar sua hierarquia natural, e a normalização das variáveis numéricas para equalizar suas escalas de influência.

AtributoDescrição
durationDuração do crédito em meses
credit_amountValor do crédito solicitado
installment_rateTaxa da prestação
present_residenceTempo na residência atual
ageIdade do cliente
number_creditsNúmero de créditos existentes
people_liableNúmero de dependentes
checking_statusStatus da conta corrente
savings_statusStatus da conta poupança
employmentTempo de emprego
personal_statusEstado civil / sexo
other_debtorsOutros devedores / garantias
propertyTipo de propriedade
other_installment_plansOutros planos de prestação
housingTipo de moradia
jobCategoria de emprego
telephonePossui telefone?
foreign_workerTrabalhador estrangeiro?
purposeFinalidade do crédito
real_incomeRenda real (ou transformada)
credit_historyHistórico de crédito / pontuação