Com o crescimento progressivo nos volumes de concessão de crédito no Brasil, as empresas estão buscando melhorar na assertividade da concessão e agilidade na análise do crédito, não somente para novos clientes como também para clientes antigos. Técnicas multivariadas vêm sendo difundidas para a construção de modelos de previsão de risco de crédito que, baseadas tanto em informações cadastrais quanto no histórico de relacionamento do cliente na empresa, predizem um comportamento padrão de risco. O objetivo do artigo é propor uma sistemática para construção de modelos de previsão de risco de crédito baseados em dados comportamentais (“behavioral scoring”), utilizando um processo de modelagem híbrida de dois estágios com regressão logística e redes neurais e avaliar seu desempenho. Todas as etapas de construção do modelo são discutidas detalhadamente, sendo abordados desde o planejamento e definições do modelo até a análise da validação da fórmula de pontuação. O modelo foi aplicado em uma amostra de 9.070 clientes de uma instituição financeira de atuação nacional.

“Behavioral scoring”

Vários autores dividem os modelos de “credit scoring” em duas categorias principais: (i) “application scoring” – pontuação de um novo cliente, que considera variáveis cadastrais como sexo, idade, escolaridade e indica um fenômeno estático – e (ii) “behavioral scoring” – pontuação de um cliente antigo, que considera variáveis comportamentais, como movimentação financeira, quantidades de parcelas pagas em atraso, além das variáveis cadastrais, e indica um fenômeno dinâmico. Assim, a principal diferença entre esses modelos está no conjunto de variáveis disponíveis para estimar a qualidade de crédito do cliente, ou seja, quanto mais precoce o estágio do ciclo de crédito, menor o número de informações específicas sobre o cliente de que dispõe a instituição.

Para construção de modelos “behavioral scoring” é necessário escolher um ponto de observação, sendo que é preciso haver dados sobre o comportamento do cliente antes e após esse ponto. O período de tempo de observação anterior ao ponto é chamado por alguns pesquisadores de período de desempenho ou de observação. As características observadas durante esse tempo que precede o ponto de observação serão utilizadas para o desenvolvimento do modelo. O período após o ponto de observação é o período de resultados, e é nesse período que o cliente é classificado como bom ou mau pagador, dependendo de seu estado no final.

Modelagem híbrida

Em mineração de dados, a abordagem de hibridação tem sido uma área de pesquisa ativa para melhorar a classificação, a previsão e o desempenho de modelos de pontuação de crédito. Em geral, o modelo híbrido é baseado na combinação de duas técnicas diferentes, podendo ser técnicas de agrupamento ou de classificação.

Modelos híbridos vêm sendo utilizados, principalmente, para melhorar inconvenientes das técnicas de inteligência artificial, já que a primeira técnica servirá para orientar o processamento da segunda, diminuindo o tempo de processo e facilitando, por meio do primeiro método, a identificação da relevância das variáveis significativas.

Para demonstrar a viabilidade e eficácia da proposta da modelagem híbrida em duas etapas, é apresentada na íntegra do trabalho uma lista de alguns artigos que usaram modelos híbridos para a pontuação de crédito, apesar de ainda haver poucos estudos enfocando esse desenvolvimento.

O presente artigo, portanto, se apoia na conclusão de Tsai e Chen (2010), usando o resultado da regressão logística como nós de entrada da rede neural, garantindo uma melhor interpretação do modelo e menor tempo de processamento, além dos benefícios já mencionados. As duas técnicas que serão utilizadas seguem descritas na sequência.

Regressão logística

A regressão logística tem por objetivo encontrar um modelo explicativo para o comportamento da probabilidade de sucesso, em termos das variáveis preditoras. Dessa forma, a regressão logística é especificamente desenhada para prever a probabilidade de um evento ocorrer, sendo essa probabilidade classificada entre o intervalo 0 e 1.

Pesquisadores destacam a técnica de regressão logística, pela possibilidade de contornar certas restrições encontradas em outros modelos multivariados. Contudo, o modelo de regressão logística é sensível à colinearidade entre as variáveis.

Portanto, de maneira geral, a regressão logística permite identificar e remover características que já foram detectadas por outras variáveis e assegura que toda característica importante do cliente permaneça na sua pontuação.

Redes neurais

As redes neurais são sistemas de inteligência artificiais, inspirados no funcionamento de um cérebro humano, contendo propriedades particulares como capacidade de aprendizado, de generalização ou de organização dos dados. Além da capacidade de aprendizado, onde os erros de saída retornam ao início da rede e são ajustados adequadamente, a rede neural tem outra vantagem sobre as técnicas estatísticas, de não necessitar de uma suposição inicial de um modelo probabilístico preestabelecido para estimar os parâmetros de um suposto modelo.

Apesar de as redes neurais terem se estabelecido como alternativa aos tradicionais modelos estatísticos e de muitos estudos na área de crédito terem concluído que as redes neurais superam os tradicionais métodos estatísticos em termos de precisão de classificação, pesquisadores alertam para a aplicação de redes neurais em problemas que necessitem previsão e classificação, com interesse na precisão da classificação e não na interpretação das variáveis preditoras.

Por isso, nesse artigo, propõe-se uma abordagem de modelos híbridos, para melhorar inconvenientes das técnicas de inteligência artificial, diminuindo o tempo de processo e facilitando, por meio do primeiro método, identificar a relevância das variáveis significativas.

A sistemática para o desenvolvimento do modelo

Para a elaboração do modelo a ser testado, sete etapas principais foram seguidas. i) Planejamento e definições: definição do produto e mercado para o qual o modelo será desenvolvido; finalidade do modelo; definição de inadimplência; definição do horizonte de previsão do modelo. ii) Identificação das variáveis preditoras: identificação das variáveis disponíveis no sistema da empresa. iii) Amostragem e coletas dos dados: definição do período (histórico e performance) e tamanho da amostra; separação da amostra de análise e teste. iv) Análise dos dados: avaliação da consistência e preenchimento dos dados. v) Análise bivariada: agrupamento de atributos de variáveis; criação das variáveis “dummies”. vi) Obtenção da fórmula preliminar: escolha de técnicas quantitativas; determinação do software a ser usado; seleção das variáveis preditoras; verificação da suposição das técnicas. vii) Acurácia e validação do modelo: medição do índice de desempenho (KS e ROC) do modelo na amostra de teste.

Todos os passos para a obtenção do modelo foram abordados no artigo, na mesma sequência dos passos mostrados na sistemática, de forma que fiquem evidenciadas as etapas percorridas para a obtenção do modelo, tanto em relação à obtenção das variáveis e amostras quanto na abordagem das técnicas para a construção de um modelo de “behavioral scoring”, propondo um processo de modelagem híbrida de dois estágios com regressão logística e redes neurais.

Conclusões

Esse trabalho inova não só no detalhamento do processo de construção de um “behavioral scoring”, como também quanto à abordagem de modelos híbridos, que estão sendo recentemente estudados internacionalmente, sendo esse um dos precursores na apresentação dessa técnica com dados brasileiros. Dessa forma, o modelo aqui desenvolvido pode servir de apoio para pesquisadores e analistas de empresas que desejam desenvolver seus modelos.

A técnica de modelagem híbrida aqui desenvolvida foi condizente com estudos já realizados, apresentando superioridade à tradicional (regressão logística). Além disso, com o apoio dos resultados da regressão logística, como nós de entrada da rede neural, técnica que vem sendo cada vez mais utilizada, contornaram-se as características indesejáveis das redes neurais, como processamento lento e dificuldade na interpretação das variáveis. Cabe ressaltar que a busca por uma rede neural mais eficiente é de suma importância e depende da experiência do pesquisador, visto que algumas redes treinadas (RN1), tendo como nós de entrada os resultados da regressão logística, alcançaram os mesmos indicadores de eficiência da regressão logística, sendo aconselhável, nesses casos, o uso dos modelos mais simples que alcançam o mesmo resultado, ou seja, o modelo mais parcimonioso.

Portanto, a utilização de modelos de previsão de risco de crédito que utilizam as variáveis comportamentais dos clientes elimina a subjetividade da análise tradicional, aproveitando as informações ricas do comportamento do cliente que se encontram armazenadas em bancos de dados, muitas vezes inutilizáveis. Além disso, a padronização do procedimento de decisão e a velocidade na análise do crédito são ganhos que aumentam a rentabilidade da empresa, garantindo uma maior eficiência no atendimento dos clientes.

Monografia de Luciane de Godói Moraes, vencedora do 2º lugar na categoria B do IV Prêmio Febraban de Economia Bancária.
Trabalho na integra: Uma abordagem alternativa de behavioral scoring usando modelagem híbrida de dois estágios com regressão logística e redes neurais.

Fonte: Valor Econômico