La statistica ha una obsolescenza, obsolescenza programmata o senescenza?

La statistica, o in questo caso scienza dei dati, scade come il latte pastorizzato oppure ha una data di scadenza simile a quella del latte a lunga conservazione? Oppure la statistica ha i problemi dei dispositivi elettronici che migliorano ogni anno? La statistica ha una obsolescenza programmata, anche se quella del latte è una programmazione fatta in buona fede, oppure ha una obsolescenza tecnologica, oppure ha un processo di invecchiamento naturale che si può fare poco per gestire?

 

Latte scaduto: non berlo, usalo in questo modo: una vera fortuna

 

Innanzitutto i report con scadenza fissata o programmata hanno una certa importanza nella mia esperienza ed è uno dei motivi per cui nel mio servizio di consulenza, di solito offro anche un follow-up, quindi una visita di controllo successiva, un po’ come dal dentista. Dal report si può vedere se una variabile significativa il 5 dicembre, risulta ancora tale 5 mesi dopo o più.

 

Questo fenomeno delle significatività che possono sbiadirsi, rientra in un fenomeno più generale di nome data drift, ossia deriva dei dati.

Si tratta di un termine che proviene dall’ambito dell’ingegneria dell’apprendimento automatico, che è una branca molto specifica della statistica. La deriva dei dati accade quando, ad esempio, la distribuzione dei dati di input cambia in funzione del tempo. 

 

La deriva accade anche quando si addestrano modelli troppo rigidi e non mi riferisco soltanto il cosiddetto over fit, cioè modelli troppo specifici, quindi già in quel caso potresti avere un modello che funziona molto bene con il dataset di test e dopo appena 30 giorni di nuovi dati vedi che inizia a darti forti problemi. 

Di solito questo overfit o modelli troppo specifici vengono anche fuori quando tu chiedi un modello misurato solo su un tipo di prestazione. Ma questo è un altro discorso. 

 

Esistono quattro tipi di derive. Il più complicato ovviamente ha a che fare con il cambio improvviso. In altre parole un qualche tipo di evento estremo, sia collegato alla tua variabile obiettivo oppure con qualche tua variabile esplicativa.

In degli episodi del podcast, ho fatto vari esempi di cambiamenti improvvisi. Questa situazione ha un nome non sorprendente, ossia deriva improvvisa. 

Ad esempio, ho costruito un modello di previsione del fatturato del tuo bar e ad un certo punto il comune trova l’azienda a cui affidare l’appalto per i lavori sulla strada dove tu hai il bar, togliendo parcheggi e la comodità di visitare la tua attività per una parte di clienti.

 

Secondo caso: deriva graduale. Se vendevi macchine per fax, col tempo la gente si è attrezzata di un computer, anche perché sono diventati sempre più economici, e col tempo si sono dotati anche di una connessione internet e di conseguenza anche di un servizio mail, quindi la mail ha rimpiazzato gradualmente i fax.

Oppure i gusti delle persone cambiano: un tempo andava di moda il fine settimana farsi una partita a calcetto con amici o/e colleghi, quindi i campi da calcetto avevano un certo tipo di clientela fissa, adesso il padel sembra tirare molto di più del calcetto.

 

Terza deriva: la deriva incrementale, che in alcuni casi si confonde con quella precedente. Esempio: le tecniche dello spam cambiano. Inizialmente le prime email pericolose risultavano di tipo amoroso, probabilmente ricorderai il famoso caso della mail che aveva come oggetto “I love you”. Chiaramente era più nota oltreoceano che in Italia. Col tempo la tecnica si è raffinata e avevamo mail con un principe nigeriano e chiedeva aiuto in cambio di una ricompensa. Successivamente, negli ultimi anni, abbiamo molte mail di spam collegate all’arrivo di un pacco di un corriere. 

 

Ultima deriva: la deriva ricorrente, se ti piace un certo autore russo, ti piacerà anche questo tipo di deriva, perché ha che fare con le autocorrelazioni, quindi alla ciclicità degli eventi. Esempio, generalmente i gelatai vendono quando fa caldo, non quando fa freddo (perlomeno in Italia, all’estero ho scoperto con un certo orrore che funziona diversamente). Ipotesi fantasiosa: i gelatai vendono di più negli anni del fenomeno climatico di nome El Nino. Quindi negli anni più caldi, ovviamente c’è anche un limite, oltre il quale il caldo non ti aumenta le vendite. 

 

Queste derive, ovviamente vanno monitorate, come? Con delle automazioni, di solito. E così come l’automazione diminuisce certi tipi di occupati, ma aumenta i supervisori, la stessa cosa succede con l’apprendimento automatico, in questo caso di ingegneria dell’apprendimento automatico: si passa dalla figura che sa fare modelli, indipendentemente se con un approccio informativo o statistico, al cosiddetto Machine Learning Operations, ossia molto rozzamente operazioni dell’apprendimento automatico. Esiste anche nell’ambito sviluppo software, là si chiama Dev Operations, essenzialmente lì abbiamo i supervisori e/o persone che coordinano sviluppatori 

 

A questo punto potresti domandarti come ridurre la deriva dei dati e un metodo l’avrai già visto dai miei video se ne hai guardato qualcuno: l’analisi sequenziale che consente ad esempio di tenere d’occhio la significatività di una variabile al variare del numero di osservazioni preso in considerazione, oppure all’aumentare del tempo, dei giorni. Poi abbiamo un altro metodo per ridurre la deriva dei dati tramite un controllo, ossia uno statistica test che verifica se due parti di dati vengono dalla stessa distribuzione in probabilità. Poi abbiamo ovviamente altri statistica test, più o meno vecchi, indicatori sintetici e metodi di controllo qualità statistici. 

 

Come avrai capito, stiamo proprio nell’ambito ingegneristico, ti faccio l’esempio della chimica industriale: abbiamo una colonna di distillazione (raffineria) che in questo caso rappresenta il nostro modello. Per la colonna ovviamente abbiamo un sacco di controlli: temperatura, pressione e poi in ingresso abbiamo il controllo per la qualità della materia prima, la portata volumetrica del greggio, etc. In funzione di questi controlli abbiamo anche tutte le automazioni del caso: chiusura/apertura valvole, possibili sfiati, etc. Nel nostro caso, ovviamente gli statistica test e il resto, metaforicamente rappresentano i controlli della colonna di distillazione. Le valvole e gli sfiati metaforicamente si possono rappresentare con un stoppare il modello, riaddestrarlo con accorgimenti del caso.

Si possono automatizzare anche i ri-addestramenti in funzione di come vanno delle metriche di controllo. 

 

Un modello che scade come il latte dipende dal fatto che non c’è stata a priori una pastorizzazione, cioè un processo che portava ad un modello più longevo. Nell’economia abbiamo un esempio eclatante, anche se all’epoca non avevano la potenza di calcolo di oggi. Poi esistono modelli che invecchiano semplicemente perché col tempo la scienza va avanti e abbiamo modelli più performanti sotto vari punti di vista, oppure ancor prima dei modelli, strumenti più performanti, o a seguito dei modelli, diagnostiche più efficaci/efficienti e così via. 

 

Ma ovviamente in certi casi abbiamo dei modelli che invecchiano in maniera naturale perché magari avevano una variabile obiettivo che a tutti gli effetti cambia nel tempo. 

 

Se ti piacerebbe avere un modello per una tua metrica importante della tua azienda con una obsolescenza più limitata, puoi contattarmi.

Privacy Policy
it_ITItalian