Statistica esplorativa: dalla costa familiare a nuove terre

In questo articolo capirai l’importanza della statistica esplorativa.

Nella F1 fanno le prove, prima della gara. I piloti studiano il tracciato: come entrare nelle curve, colgono possibili insidie, difficoltà,, etc.

Quando si pensa che una località ospita petrolio, si esplora il sito utilizzando tecniche geofisiche e non, per poi fare rilievi sul campo tramite sonde e non.

Max Calderan prima di attraversare il Rub’al-Khali (il secondo più grande deserto sabbioso della Terra) come sua impresa, ha letto dell’esistenza di circa 40 specie di piante e 5 specie di animali all’interno di quell’ecosistema. Soprattutto gli animali definiscono il profilo di rischio di un progetto del genere: i morsi possono portare agenti patogeni nel sangue, le piante invece possono sostituire alcuni principi attivi di medicine o funzionare come idratazione di emergenza. 

 

Nella statistica si può fare sia i piloti delle KPI (metriche aziendali importanti), gli esploratori di fenomeni statistici (“là dove nessuno si era mai spinto” con la statistica…) o gli archeologi dei bit per ricostruire il vaso con le monete d’oro dell’azienda o organizzazione. Ma per fare tutto ciò, ovviamente, si passa dall’esplorazione a meno che non si vuole andare a sbattere, non ci si vuole perdere, non si vogliono distruggere reperti.

 

Tipi di esplorazioni

Innanzitutto le esplorazioni fanno parte delle statistiche descrittive: descrivere tramite somme, conteggi, etc, rappresentare tramite grafici, sintetizzare i dati tramite indicatori, che ovviamente si costruiscono tramite somme, conteggi e guarda caso alcuni di questi si trovano nel logo di STATiCalmo, nell’introduzione del podcast ho approfondito. Le statistiche descrittive utilizzano, se vogliamo, strumenti non statistici, così come la ricerca del petrolio coinvolge altre discipline come la geologia, geofisica, sismologia, etc. Si va dall’informatica alla grafica ed interfacce utente (UI) per le rappresentazioni dei dati.

 

Le statistiche descrittive si fanno prima della statistica inferenziale. In pochissimi casi si possono fare decisioni strategiche solo con statistiche descrittive. 

 

Il tipo di esplorazione dipende anche qui dall’ambiente: variabili quantitative come il fatturato vanno esplorate diversamente da variabili qualitative come l’etichetta cliente / potenziale cliente (o convertito / non convertito).

Nei video di STATiCalmo spesso vedi uno schema ricorrente delle esplorazioni, che volendo si possono automatizzare, che possiamo riassumere così:

 

  • Distribuzioni o tabelle di frequenza: non conoscere questa caratteristica del territorio rende quasi sicuramente inutile tutto ciò che segue, e calcolare delle cose che seguono, senza questo controllo, può anche diventare pericoloso. Senza questo controllo non si sa come vestirsi, ad esempio nel deserto dell’Oman o nel circolo polare artico, o addirittura non si capisce se ha senso partire.
  • Sintesi dei dati, presi per colonna, per vedere valori mancanti o per capire, senza passare dai grafici, la distribuzione delle variabili (colonnari). 
  • Relazioni, correlazioni. Se variabile obiettivo ed esplicativa appartengono a quelle quantitative (es..fatturato e indice PMI), allora si può calcolare la correlazione lineare di Pearson e vedere la significatività statistica associata (parte della inferenza statistica). La correlazione lineare, mostra solo un tipo di relazione fra due variabili. Ma ne esistono molte altre e la matematica ci dice quali (es. trigonometria per dati temporali). Se una variabile appartiene alle quantitative e l’altra alle qualitative (es. fatturato per evento meteorologico), allora conviene utilizzare un altro tipo di correlazione. Se tutte e due appartengono alle qualitative (es. conversione e nazionalità cliente), non si possono usare correlazioni ma associazioni. In genere mostro le correlazioni normali, o sporche, e quelle parziali, più pulite. Tuttavia in alcuni casi questo approccio può limitare. Metaforicamente parlando relazioni e correlazioni fanno parte del comportamento dell’ambiente, che possiamo associare al meteo del territorio, flora e fauna.
    • Esistono correlazioni particolari sulla variabile stessa. Ad esempio un fenomeno che si ripete ciclicamente, uno schema ricorrente temporale. Oppure una ciclicità tra un fenomeno e un comportamento, ad esempio in ambito economico o fisiologico. In altre parole certi fenomeni dipendono da loro stessi (da cui il prefisso “auto” di autocorrelazione) o delle variabili hanno effetti su una variabile obiettivo al tempo t+1, t+2, etc. (con t = ora, giorno, mese, etc.) anziché immediatamente, quindi in maniera ritardata. Esempio di fenomeno ciclico di un territorio: i monsoni delle Maldive. 
  • Valori anomali (outlier), si possono vedere anche dai grafici correlazioni, all’interno di una tabella di grafici che mostra correlazioni, di solito non lineari.  Ad esempio nel deserto questo evento si può associare ad una tempesta di sabbia. A Mykonos ad un terremoto, a Tenerife l’eruzione del Teide. Stesso discorso per Bali. Come intuisci i valori anomali hanno una frequenza bassa ma un potenziale di danni molto alto. Per questo si possono vedere anche col primo punto e saltarlo può diventare un disastro.

 

 

Se ti interessa iniziare le esplorazioni, perché ti interessa vincere il campionato delle aziende, scoprire il tesoro della tua azienda nascosto sotto metri di sabbia o in una fitta coltre di verde, possiamo fare una riunione pre esplorazione (briefing), di circa 30 minuti, per capire se abbiamo compatibilità come compagni di viaggio.

Privacy Policy
it_ITItalian