Parole confondenti che provengono dal mondo della statistica

Purtroppo alcune parole che seguiranno non hanno significato solo nella scienza dei dati (data scienza) o statistica, ma anche nell’amministrazione delle basi di dati (oggi ingegneria dei dati), e nella galassia dei modelli statistici linguistici (LLM o IA). Quindi si verifica quella piaga linguistica, secondo me, dove una parola assume più significati a seconda del contesto. 

 

Inferenza nella statistica: generalizzare le caratteristiche di un sotto insieme della popolazione, o campione, alla popolazione. Quel campione ha determinate caratteristiche, e se non le si controlla, la generalizzazione fa danni. Esempio di inferenza non statistica ma personale: “sono stato derubato nella città X, allora tutti i cittadini di X sono dei delinquenti”.

Parte della confusione di questa parola deriva dalla sua provenienza latina. Significa portar dentro; arrecare, concludere, peccato che uno statistico dovrebbe sapere che dare conclusioni tramite una sola inferenza risulta poco scientifico.  Potremmo usare le parole “statistica induttiva”, ma secondo me non migliora di molto l’accessibilità perché bisognerebbe dare delle nozioni di filosofia analitica (es. Russell). 

 

Inferenza nei modelli statistici linguistici (GPT, Mistral, LLama, etc.).: il processo di esecuzione di dati in tempo reale attraverso un modello di intelligenza artificiale, addestrato per fare una previsione o risolvere un compito. Esempio: dopo aver addestrato un LLM con dei PDF, gli pongo una domanda aspettandomi come risposta delle informazioni contenute nei documenti somministrati come addestramento.

Nella statistica non linguistica questa “inferenza” la chiamiamo semplicemente fase di test del modello, o validazione, in dei casi. 

 

Modellazione dei dati: ha a che fare con la progettazione di basi di dati, definendo come i dati sono collegati e archiviate in modo da poter essere recuperate in modo efficiente. La necessità di questo approccio si vede dalle medie imprese in su. In statistica, modellare i dati, inteso come una variabile d’interesse, ci porta al prossimo punto.

 

Modello statistico: non risulta una persona, con studi statistici, con bellezza condivisa e misurabile perché si può osservare la sezione aurea sul volto, ma un’espressione matematica, o equazione, che tenta di spiegare una variabile di interesse, y, con variabili esplicative x. In qualche famiglia di modelli ha anche un termine di errore che ha determinate proprietà. 

 

Correlazione e connessione. Nel linguaggio comune, o naturale, vengono utilizzate come sinonimi. In statistica la prima misura la relazione fra due variabili quantitative (es. soddisfazione del cliente al primo acquisto e numero di acquisti), la seconda fra variabili qualitative, quindi coinvolge le frequenze degli eventi anziché il valore dell’evento (es. utente che visita una certa pagina del sito e presenza dell’acquisto).

 

Il valore-p. Nella inferenza frequentista, indica il valore della significatività. Sicuramente avrai già fatto esami del sangue. Quando a destra del rapporto trovi asterischi (da uno a tre), bisogna preoccuparsi, perché significa che i tuoi valori hanno una differenza significativa rispetto un certo valore della popolazione italiana. E valori sballati possono risultare effetti di sintomi sgradevoli e quindi una malattia da diagnosticare. Coi dati aziendali, in genere, si gioisce più facilmente quando si vedono asterischi.  

 

Troviamo assieme la parolina magica in statistichese che può svoltare la tua azienda tramite una consulenza statistica. Vuoi fare una visita virtuale di una trentina di minuti?

Privacy Policy
it_ITItalian