Come riconoscere un informatico che fa statistica e perché bisogna fare attenzione

Introduzione

Uno degli obiettivi della statistica sta nello spiegare la variabilità di un fenomeno di interesse, tramite un’espressione matematica, ossia un’equazione che prende il nome di modello, fatta da una variabile obiettivo (dipendente) e variabili che spiegano (esplicative, indipendenti). Se la variabile obiettivo non ha variabilità, allora non abbiamo una variabile ma una costante. E non ci serve la statistica. 

Nella statistica esistono modelli di base, detti inferenziali, e modelli classificativi. I primi servono a fare i secondi, anche per avere idea delle prestazioni base. Il nome dei modelli base dipendono dal tipo di variabile obiettivo: la regressione lineare per le quantitative (es. vendite), il modello logistico per le dicotomiche (es. cliente/non cliente, acquisto ricorrente/ acquisto occasionale, etc.) o categoriali (categorie di spesa, etc.)

Esempio di modello statistico:

vendite gelati = coefficiente*temperatura giornata + coefficiente*numero turisti + errore 

Rispetto ai modelli che hai visto alle scuole superiori, come in geometria o in fisica, i modelli statistici hanno un termine d’errore e coefficienti “più sporchi”, ossia numeri non tondi. 

Informatici vs statistici

–  tendono a fare solo correlazioni lineari, senza significatività. A meno che non abbiamo un dataset con molte righe dove le significatività si possono cogliere ad occhio tramite la grandezza della correlazione, inserire in un modello variabili non significative crea un modello non attendibile e assolutamente instabile, quindi inutile per spiegare fenomeni, fare previsioni o classificazioni.

– si buttano subito in modelli che servono per fare classificazione e non partono da modelli base. Questo significa rischiare fin da subito di avere modelli rigidi (overfit), che avranno prestazioni apparentemente ottime in sede di test. Ma comporta anche un automatismo pericoloso e potenzialmente costoso in termini di scelta delle variabili, specie se si utilizzano soluzioni dove si addestra il modello utilizzano risorse di un computer terzo (cloud). 

– utilizzano l’importanza delle variabili anziché la significatività classica o bayesiana. La prima risulta una metrica puramente descrittiva, le ultime due inferenziali. Questo significa creare molti più modelli, perché in assenza di metodo per la selezione delle variabili si va un po’ a tentativi, rischiando quanto anticipato nel punto precedente. Quella metrica puramente descrittiva può avere senso nel problema di classificazione di certe immagini, dove le variabili risultano le colonne di una immagine, ad esempio se full HD abbiamo 1080 righe e 1920 colonne; oppure nel campo dell’elaborazione del linguaggio naturale (NLP). La visione artificiale ha meno a che fare con la statistica rispetto altri ambiti dell’apprendimento automatico, e richiede meno pensiero critico su quello che si sta facendo / vuole fare, in quanto ha anche più passaggi automatizzati. 

In linea generale potrai notare che l’approccio da informatico compensa con la forza bruta computazionale, espressione familiare nell’ambito delle password, le lacune teoriche di statistica. In altre parole, sparano tanti proiettili ma pochi vanno a segno. Gli statistici, d’altro canto, hanno meno competenze informatiche, col rischio di renderli meno autonomi, ma la conoscenza della teoria li rende più efficaci in determinate attività pratiche. D’altra parte, l’informatico che scrive codice di statistica serve più che altro alle grosse aziende.

 

Privacy Policy
it_ITItalian