O dataset base do trabalho é o Statlog (German Credit Data), desenvolvido por Hans Hofmann (1994), amplamente utilizado em estudos de risco de crédito. Ele contém 1000 registros de clientes de um banco alemão, cada um classificado como bom pagador ou mau pagador, com base em seu histórico e características socioeconômicas.
O conjunto de dados é composto por 20 atributos, incluindo informações categóricas, ordinais e numéricas. A classificação binária divide os clientes em duas categorias:
- Classe 1 (Bom Pagador): 700 registros (70%).
- Classe 0 (Mau Pagador): 300 registros (30%)
Dados Sintéticos
Para aumentar a base e testar os modelos em cenários de maior escala, foi utilizada uma Rede Adversária Generativa (GAN) por meio da biblioteca YData Synthetic, uma vez que os dados de crédito reais são escassos e sensíveis devido a restrições legais e confidencialidade. Essa metodologia preserva os padrões estatísticos do dataset original, mas com maior volume de dados e possibilitou avaliar a escalabilidade dos modelos e seu desempenho em bases maiores e desbalanceadas.
Tratamento de Dados
O pré-processamento dos dados foi essencial para viabilizar a aplicação dos algoritmos de machine learning. As principais transformações realizadas incluíram a conversão de variáveis categóricas em representações binárias através do one-hot encoding, a codificação numérica ordenada das variáveis ordinais para preservar sua hierarquia natural, e a normalização das variáveis numéricas para equalizar suas escalas de influência.
| Atributo | Descrição |
|---|---|
| duration | Duração do crédito em meses |
| credit_amount | Valor do crédito solicitado |
| installment_rate | Taxa da prestação |
| present_residence | Tempo na residência atual |
| age | Idade do cliente |
| number_credits | Número de créditos existentes |
| people_liable | Número de dependentes |
| checking_status | Status da conta corrente |
| savings_status | Status da conta poupança |
| employment | Tempo de emprego |
| personal_status | Estado civil / sexo |
| other_debtors | Outros devedores / garantias |
| property | Tipo de propriedade |
| other_installment_plans | Outros planos de prestação |
| housing | Tipo de moradia |
| job | Categoria de emprego |
| telephone | Possui telefone? |
| foreign_worker | Trabalhador estrangeiro? |
| purpose | Finalidade do crédito |
| real_income | Renda real (ou transformada) |
| credit_history | Histórico de crédito / pontuação |