Impianto dati per aziende ed organizzazioni

Che cosa significa avere un impianto dati? Per capirlo ci serve partire da qualcosa di leggermente più noto.

Per impianto chimico industriale intendiamo un sito che ha uno stoccaggio di una o più materie prime, un reattore, uno stoccaggio del prodotto finito con annesso sistema di distribuzione, tralasciando molto. 

Per un impianto dei dati abbiamo una infrastruttura fisica e digitale che comprende uno stoccaggio dati, possibilmente da varie fonti, un reattore che può significare elaborazione informatico-statistica, la consegna del prodotto finito, che può avvenire tramite un cruscotto di dati o più generalmente un collegamento accessibile del servizio statistico erogato. 

 

Per gestire un’attività del genere servono competenze diverse, come un intero dipartimento di chimica: l’analista, l’ingegnere, tecnici, operai. Vale lo stesso anche per un impianto dei dati, a meno che non lo affidi ad un esterno, come STATiCalmo. Questo impianto si può tradurre con la parola inglese “stack”, traducibile con pila, catasta, o se preferisci, LEGO attaccati. 

 

Stoccaggio dati

Infrastruttura digitale

Purtroppo il più noto risulta Excel. Ma non nasce come base di dati. Microsoft aveva Access per questa funzione, ma la leggenda narra che le soluzioni cloud fanno più soldi.

 

Un’altra base di dati impropria viene dai fogli di calcolo di google. Che si può collegare facilmente a vari servizi di visualizzazione del dato, come Looker.

Anche airtable viene molto abusato. Tra l’altro lo trovo più limitato rispetto a Google sheet.

 

Le basi di dati più utilizzate, anche se non ugualmente note, vengono da 

PostgreSQL

MySQL: il CRM Hubspot usa questa soluzione nella retrovia, per questo parlo di CRM come base di dati particolare per i dati di potenziali clienti e clienti

SQLite

MongoDB: di solito utilizzato per dati non strutturati come documenti

etc.

 

Letteralmente qualsiasi servizio web che usi, utilizza almeno una di quelle soluzioni nella retrovia. Noi di solito interagiamo con lo sportello, come un’interfaccia grafica o sito web. 

 

I fogli di calcolo di google hanno dei vantaggi rispetto ad avere una delle 4 base di dati “vere”: fa salvataggi automatici recuperabili (versionamento), si occupa di creare repliche del file (ridondanza), le formule per interrogare descrittivamente i dati risultano simili al linguaggio naturale.

 

Infrastruttura fisica (anche se in cloud)

Computer o computer virtuale da non meno di 1 CPU (intesa come core), 512MB RAM, 5GB di memoria.

Nastro trasportatore dati

I dati vanno connessi, così come le sintesi chimiche hanno bisogno di più ingredienti (molecole).

Infrastruttura digitale

Penso che praticamente tutti i lettori di questo blog hanno sentito Zapier. Oppure Make. Ma possono presto diventare limitanti o troppo costosi. Per questo esistono soluzioni che puoi ospitare in casa, che nel medio periodo ti fanno risparmiare ed acquisire competenze molto importanti: n8n, activepieces, airbyte, automatisch, etc.

Infrastruttura fisica (anche se in cloud)

qui varia molto in base al carico di lavoro. Minimo minimo 1 CPU, 1GB RAM, 5GB. Per airbyte assolutamente non basta, quindi direi 4 CPU, 8GB RAM, 20GB. 

 

Reattore dati 

Tralasciando la parte di raffinazione o pulizia del dato.

Infrastruttura digitale

se abbiamo a che fare con certe esplorazioni dei dati o un modello statistico, servono gli ambienti di lavoro per i linguaggi di programmazione. RStudio nel caso del linguaggio R; Spyder, vscode nel caso di Python. Esistono degli ambienti di lavoro online detti quaderni, come Google Colab, Jupyter, etc.

Per ambienti di lavoro con interfaccia grafica, quindi più accessibili, come JASP o Orange, serve installare dei programmi.

Per altre esplorazione dei dati, che fungono anche da sistema di distribuzione, abbiamo soluzioni di cruscotti dati, o Business Intelligence, come google Looker, powerBI, Tableau, Apache SuperSet, etc.

Infrastruttura fisica (anche se in cloud)

caso più estremo e variabile del precedente. Minimo minimo 1 CPU, 1GB RAM, 10GB. Per stare tranquilli: 4 CPU, 16GB RAM, 150GB.

 

Distribuzione e consegna della conoscenza

può avvenire tramite un cruscotto di dati o più generalmente un collegamento accessibile (URL) del servizio statistico erogato. 

Infrastruttura digitale

  • Rapporti, diapositive: Quarto, etc. Può avvenire anche tramite GitHub, GitLab.
  • Cruscotti dati dinamici, particolari, con interazioni: Shiny (R, Python), Streamlit (Python), etc.
  • Cameriere dei dati (API): Plumber, Django, Flask, etc. Serve, ad esempio, per avere la previsione di un modello statistico tramite un collegamento. 

Infrastruttura fisica (anche se in cloud)

varia molto in base al carico di lavoro. Minimo 0.5 CPU, 256MB RAM, 1GB. 

 

Ovviamente esistono altre componenti, ad esempio riguardanti la sicurezza. 

In dei casi non necessariamente serve una infrastruttura fisica tua, ad esempio per google sheets, GitHub.

Chiaramente non serve un computer per ogni macro-categoria, ma sicuramente dei servizi non vanno messi assieme. Creare un blocco unico (chiamasi monolita) può portare a spiacevoli sorprese.

Parecchie soluzioni citate hanno la versione “4 salti in padella”.

 

Con questo articolo, che indubbiamente ha una certa complessità visto che coinvolge varie discipline, hai forse scoperto che sicuramente anche tu hai un impianto dati, anche se non completo. Se ti interessa approfondire dei punti che pensi possano migliorare delle prestazioni aziendali, sentiamoci per una prima chiamata gratuita.

 

Privacy Policy
en_USEnglish