Esistono varie soluzioni di impianto dati, a seconda di quanto controllo vuoi sulle tecnologie sottostanti. Ma se vuoi Apache hai esigenze molto particolari.
Ad esempio, usare Excel Online+ Microsoft SQL server e PowerBI come impianto dati, stai usando tecnologie commerciali. Potresti voler usare tecnologie a codice sorgente aperto, che hanno lo svantaggio di richiedere più tempo anche se non hanno un costo. Fra queste abbiamo ad esempio cruscotti dati, parte di un impianto, come Shiny ma esistono soluzioni più articolate, come Apache Superset. Mi è capitato di leggere questa richiesta:
Stiamo cercando uno sviluppatore esperto con competenze in Apache Superset, PostgreSQL e Apache Airflow per progettare, costruire e mantenere condutture di dati, dashboard e soluzioni di reporting.
Responsabilità:
Sviluppare e gestire dashboard Superset per la visualizzazione e l’approfondimento dei dati.
Progettare, ottimizzare interrogazioni e schemi complessi in PostgreSQL.
Creare, programmare e monitorare flussi di lavoro utilizzando Apache Airflow.
[…]
come mai quest’azienda non usa una soluzione di visualizzazione e condutture dati dei principali fornitori cloud? Perché hanno sentito il mio podcast e hanno deciso di farsi tutto in casa? Dubito fortemente. Forse si tratta di una startup che ha l’obiettivo a medio termine di contenere i costi di soluzioni terze, come il cloud, e ha deciso di costruire una infrastruttura propria unendo open source e figure specializzate. Lo consiglio per le piccole e medie imprese? Nella stragrande maggioranza dei casi, no. In linea di massima Apache ha senso dalle medie imprese in su.
Ha anche un costo “a riposo” non indifferente in termini computazionali su un singolo server, costo che ha senso appunto dalle medie aziende in su.
