Risk · Compliancelettura ~10 min

Explainability e credit scoring nell'era dell'EU AI Act

Dal «come spiego il modello che ho scelto» al «quale modello posso permettermi, dato che dovrò motivarne ogni rifiuto». L'EU AI Act ribalta l'ordine delle domande nel credit scoring.

Il credit scoring è ad alto rischio

Il Regolamento (UE) 2024/1689 (AI Act) classifica come ad alto rischio, nell'Allegato III, i sistemi di IA destinati a valutare il merito creditizio delle persone fisiche o a determinarne lo scoring (con l'eccezione del rilevamento delle frodi). La classificazione porta con sé obblighi sostanziali: gestione del rischio, governance e qualità dei dati, documentazione tecnica, trasparenza verso l'utilizzatore, sorveglianza umana e requisiti di accuratezza e robustezza.

L'AI Act è entrato in vigore nell'agosto 2024 e gli obblighi per i sistemi ad alto rischio si applicano in via scaglionata nei due anni successivi. Per chi fa scoring questo si somma all'art. 22 del GDPR sulle decisioni interamente automatizzate e all'onere, già sostanziale, di motivare un rifiuto di credito.

Spiegazioni post-hoc: utili ma scivolose

Le tecniche di spiegazione locale sono ormai standard: SHAP (Lundberg & Lee, 2017), fondato sui valori di Shapley della teoria dei giochi (Shapley, 1953), e LIME (Ribeiro et al., 2016). Restituiscono un'attribuzione per ogni variabile, ma vanno maneggiate con cautela: su modelli a gradient boosting con feature fortemente correlate le attribuzioni diventano instabili, dipendono dalla baseline scelta e rischiano di essere più giustificazioni che spiegazioni.

La tesi di Rudin: in alto rischio, interpretabile per design

Cynthia Rudin (2019) ha sostenuto, su Nature Machine Intelligence, che nei contesti ad alto impatto conviene usare modelli intrinsecamente interpretabili invece di spiegare a posteriori delle black box: spesso il divario di performance è piccolo, e si guadagna in verificabilità. Non a caso la scorecard logistica (con Weight of Evidence e Information Value) resta lo standard bancario: ogni punteggio è scomponibile in punti per fattore, e da lì nasce naturalmente la motivazione del diniego.

Alternative moderne mantengono interpretabilità senza rinunciare del tutto alla flessibilità: modelli additivi generalizzati (GAM) ed Explainable Boosting Machine, in cui il contributo di ogni variabile resta leggibile.

Conseguenze progettuali

La domanda non è «come spiego il modello», ma «quale classe di modelli scelgo, dato che ogni esito negativo dovrà essere motivato». In pratica: scegliere a monte modelli la cui spiegazione è nativa; documentare dati e bias; monitorare drift e disparate impact tra gruppi; tenere l'essere umano nel ciclo sulle decisioni sfavorevoli.

Punti chiave

Il credit scoring è alto rischio per l'AI Act: trasparenza e sorveglianza umana sono obblighi.
SHAP e LIME spiegano a posteriori, ma sono instabili con feature correlate.
In alto rischio conviene spesso un modello interpretabile per design (scorecard, GAM/EBM).
La motivabilità del rifiuto va decisa nella scelta del modello, non aggiunta dopo.

Riferimenti

Regolamento (UE) 2024/1689 (AI Act), Allegato III.
Lundberg & Lee, A Unified Approach to Interpreting Model Predictions (SHAP), NeurIPS 2017.
Ribeiro, Singh & Guestrin, «Why Should I Trust You?» (LIME), KDD 2016.
Rudin, Stop Explaining Black Box Machine Learning Models for High Stakes Decisions, Nature Machine Intelligence, 2019.
Regolamento (UE) 2016/679 (GDPR), art. 22.