Quando la statistica diventa big data?

Big data fa parte di quell’insieme di parole inflazionate del decennio precedente.
Esistono varie risposte alla domanda in oggetto, a seconda dello strumento che si utilizza per fare analisi dei dati, e dalla informalità.

Quando i fogli di calcolo crashano, ossia si chiudono improvvisamente o risultano inutilizzabili perché troppo lenti. Nonostante sia Excel che Google Spreadsheet dichiarano ampi limiti, per i fogli, in termini di righe e colonne, questi sopraggiungono molto prima.
Quando le interrogazioni (query) sulle basi di dati (MySQL, PostgreSQL, etc.) impiegano più di 6 minuti.
Quando creare il modello più semplice della statistica, la regressione lineare o il modello logistico, impiega più di 6 minuti.

Nei primi due punti ho parlato di supporti più che altro utilizzati per fare statistiche descrittive con dati strutturati (tabelle): aggregazioni, conteggi, somme, medie, etc.

Per ognuno di questi punti, esistono diverse soluzioni software e hardware, in quanto il degrado delle prestazioni, e/o i rallentamenti, vengono da almeno uno di quegli aspetti. Difficilmente da imprenditore ti occuperai direttamente di queste, più possibile invece per i dirigenti.

Nel caso dei fogli di calcolo di Google, ho preso il più grosso file tra i clienti. Pesa circa 2,6MB. Per monitorare il costo in risorse, su un PC Windows, ho premuto CTRL+ALT+Canc:
1. Si osserva che il collo di bottiglia principale viene dalla CPU (processore), poi dalla RAM (memoria volatile). Quindi si può risolvere aumentando quelle due risorse.
Anche in questo caso acquistare una CPU più performante o più RAM, per il server che ospita la base di dati, risolve il problema se non si utilizza un server remoto. Si chiama anche miglioramento verticale (scaling verticale). Questa soluzione non sempre si può applicare, allora intervengono i magazzini di dati, che ospitano basi di dati. Un esempio: Google BigQuery.
1. si può agire ottimizzando anche l’interrogazione, quindi il codice, tramite ad esempio la normalizzazione, ma solo su questa strategia esistono fiumi di inchiostro.
Abbiamo soluzioni lato codice o proprio cambiare linguaggio di programmazione
1. codice: oramai tutte le CPU hanno più processori, si può esplicitare di eseguire il codice utilizzando tutte le risorse della CPU o passando addirittura alla scheda grafica (GPU), soprattutto per certi tipi di modelli statistici. Oppure il codice si può eseguire su più macchine tramite il calcolo distribuito. L’analisi dei segnali radio per la ricerca degli extraterrestri funziona così.
2. esistono linguaggi di programmazione che risolvono compiti specifici, in questo caso l’elaborazione di grandi moli di dati: Scala e Spark.

Tuttavia il problema menzionato affligge più che altro medie aziende o PMI che esistono da almeno un quinquennio.

Se ti serve un chiacchierata per capire se stai per varcare la soglia dei big data, con tutte le difficoltà connesse del caso, possiamo fare una chiamata gratuita dove ti inizierò ad aiutare a tornare nel reame dei dati gestibili.

Articoli correlati