Scoring de risco explicável: o fim da black box

Score é o coração de qualquer programa moderno de KYC, AML e antifraude. É também a parte que mais frequentemente vira problema. Modelos opacos, regras desatualizadas, thresholds estabelecidos por chute e justificativas que nem o autor lembra. Quando o regulador chega, o programa estremece, porque ninguém consegue explicar por que aquele cliente recebeu aquela nota.

Por que score importa tanto

Score traduz uma constelação de sinais em um número. Quando é bem feito, é a forma mais eficiente de operar em escala:

O cliente de baixo risco entra sem fricção, com aprovação direta.
O cliente de risco médio entra com monitoramento reforçado.
O cliente de risco alto vira caso para análise humana.
O cliente além do apetite é recusado.

Sem score, ou todo mundo passa por mesa (caro, lento, ineficiente), ou todo mundo passa direto (perigoso). O score é o termostato do programa.

Os quatro pecados do scoring antigo

1. Black box

Modelos de deep learning sem explicabilidade entregam acurácia, mas nenhuma transparência. Quando o cliente recusa-se a aceitar o resultado, quando o ouvidor pede uma justificativa, quando o regulador pede a base da decisão, você tem nada.

Black box é incompatível com compliance. Ponto.

2. Regras imutáveis

Modelo treinado uma vez, congelado, e usado por anos. Padrão de fraude muda, tipologia muda, perfil de cliente muda, o modelo, não. Resultado: score que era preciso vira aleatório, sem ninguém notar.

3. Thresholds estabelecidos por intuição

“Acima de 70 reprova, abaixo de 30 aprova, entre é mesa.” Quem decidiu 70? Por quê? Quanto custa errar para cima ou para baixo? Em programas frágeis, ninguém sabe. O número está lá há três anos, ninguém revisa.

Threshold sério é estabelecido por análise de custo de erro: quanto você perde com falso-positivo (cliente legítimo barrado, venda perdida, churn) e quanto perde com falso-negativo (fraude passando, perda direta, multa), e ajustado periodicamente.

4. Falta de feedback loop

O modelo decide, o cliente entra (ou não), e o sistema esquece. Não há ciclo: “esse cliente foi aprovado e virou fraude três meses depois, o modelo deveria ter pegado?”. Sem esse loop, o modelo não aprende.

Como deveria ser

Modelo explicável

Modelos modernos não precisam ser black box. Técnicas estabelecidas (SHAP, LIME, regras destiladas) permitem extrair os principais fatores que contribuíram para o score:

“Score 82 foi composto por: PEP indireto (+30), país de operação alto risco (+25), valor acima do perfil (+15), padrão de transações suspeito (+12).”

Cada fator é nomeado, ponderado e justificado. O analista entende. O ouvidor entende. O regulador entende. O cliente, quando recusa o resultado, recebe motivos concretos.

Composição transparente

Score não é um número mágico: é a composição de subscores, cada um responsável por uma dimensão:

Subscore de identidade: qualidade dos dados, biometria, documentos.
Subscore de comportamento: padrão de uso, cadência, dispositivo.
Subscore de relacionamento: contrapartes, rede de contas relacionadas.
Subscore transacional: valor, frequência, perfil.
Subscore externo: PEP, sanções, mídias adversas.

A combinação é uma fórmula configurável pelo time de risco. Quando muda apetite, muda peso. Quando o problema é em uma dimensão específica, dá para isolar e ajustar.

Champion/challenger

Modelos não promovem direto para produção. Eles rodam em sombra (champion atual decidindo, challenger novo decidindo em paralelo) por algumas semanas. Quando o challenger demonstra ser melhor, em métricas claras, contra dados reais, vira o novo champion.

Esse processo é a única forma sã de evoluir o motor sem quebrar a operação.

Backtest constante

Toda semana, ou todo mês, o time roda backtest:

Pega N dias de operação real (alertas, decisões da mesa, fraudes confirmadas, recuperações).
Roda o motor atual contra os dados.
Mede: quantas fraudes teria barrado? Quantos legítimos teria bloqueado a mais? Qual o impacto financeiro?

O backtest gera a evidência objetiva de que o modelo está funcionando, ou de que precisa de ajuste.

Drift detection

Modelos degradam. Sinais perdem poder preditivo, distribuições mudam, o mundo gira. Sistemas modernos monitoram:

Drift de entrada: a distribuição dos sinais que alimentam o modelo está mudando?
Drift de saída: a distribuição dos scores está mudando sem motivo claro?
Drift de performance: as métricas de qualidade estão piorando?

Quando drift é detectado, alerta automaticamente. O time pode investigar antes que vire problema.

O papel do time de risco

Tecnologia resolve metade. A outra metade é cultura:

Risco define apetite e justifica: o time de risco é dono do score. Define o que importa, como pesar, qual o threshold. Não delega para engenharia.
Engenharia entrega capacidade: o motor é configurável, não chumbado. Mudar peso, threshold ou regra é configuração, não exige deploy.
Compliance audita: o time de compliance valida que o modelo está alinhado com a regulação aplicável e com a política interna.
Produto observa o impacto: cada mudança no motor é correlacionada com métricas de produto, como conversão, churn e NPS, para garantir que ajuste de risco não destrói o negócio.

Conclusão

Score explicável não é um luxo acadêmico. É o que separa programas que sobrevivem ao primeiro questionamento sério do regulador, do auditor ou do cliente, dos que viram problema. Modelos black box, regras congeladas e thresholds intuitivos são tecnologia dos anos 2010. Em 2026, o padrão é diferente.

Na Guardline, scoring é construído desde o dia zero com explicabilidade, governança e backtest nativos. Quer trocar a black box atual? Fale com a gente.