Nel mercato
Big Data sono due le aziende che oggi presidiano l’area open source:
Hortonworks e
Cloudera. Quest’ultima, fondata nel 2008, nell’aprile scorso è diventata una public company analogamente a quanto successo a Hortonworks nel 2014. Entrambe basano la propria offerta su Hadoop, framework di data management basato su file system distribuito HDFS orientato all’analisi big data.
I numeri. Hortonworks ha un fatturato di 184 milioni di dollari e una capitalizzazione di mercato pari a 831 milioni di dollari.
Cloudera ha invece un fatturato di 261 milioni di dollari e una capitalizzazione di mercato che ha raggiunto i 2,28 miliardi di dollari. Nell’ultimo anno entrambe le aziende hanno aumentato il loro giro d’affari di oltre il 50%. Tuttavia il valore di mercato è in questo momento più favorevole per Cloudera. Quest’ultima ha infatti ha un volume di capitalizzazione 8,7 volte il proprio fatturato, quasi il doppio di Hortonworks il cui rapporto è 4,5.
Cloudera posiziona la propria offerta caratterizzandosi come piattaforma di
data management,
machine learning e advanced analytics con un’enfasi sulla nuova frontiera cognitiva e di intelligenza artificiale, considerata il prossimo vero capo di battaglia del futuribile data management. Una vocazione fatta propria dalla stessa Hortonworks.
Romain Picard, Regional Vice President Emea di Cloudera, incontrato di recente a Milano, ritiene che l’azienda abbia i numeri per poter essere l’ingrediente tecnologico attraverso cui partner e system integrator possono aiutare i clienti a sviluppare nuove soluzioni business data driven fondate sull’analisi dei dati e in contesti del tutto diversi da passato, facendo leva su quello che si configura come il sistema iperconnesso o infosfera con cui si confrontano oggi le aziende. Anche in Italia le premesse sono tutte in positivo, come testimonia
Michele Guglielmo, responsabile vendite per l’area meditteranea di Cloudera, che tra i clienti già acquisiti cita Unicredit. Buongiorno e Job Rapido.
Per Forrester Research il mondo Hadoop è al centro di un nuova evoluzione e chi meglio riuscirà a declinare il framework di data management coerentemente con la nuova frontiera tecnologica e, insieme, di business, sarà destinato a prevalere. Tuttavia, considerate le opportunità dell’analisi dati
in un contesto applicativo che si va sempre più ad estendere, in virtù dell’esplosione dei dati generata dalla frontiera dell’IoT in tutte le sue possibili declinazioni di mercato, è verosimile ipotizzare una crescita consistente per entrambe le aziende, quanto meno da un punto di vista potenziale.
E’ quanto per esempio accaduto a
RedHat, che su Linux e sull’open source infrastrutturale nel giro di vent’anni è riuscita a creare una vera e propria fortuna arrivando oggi ad essere un’azienda che genera 2,5 miliardi di dollari, un business supportato da una capitalizzazione di mercato di ben 16 miliardi di dollari.
I presupposti su cui era nato il Big Data cambiano velocemente. L’elaborazione dati su cluster distribuito Hadoop era fondamentalmente di tipo batch e faceva affidamento sulla logica algoritmica di
MapReduce.
Un modello, quello di cui sopra, cui oggi si affianca
Spark, risorsa più flessibile e potente di MapReduce in grado di fungere al meglio in ambienti dove sono richieste capacità di analizzare flussi di dati in real time e in generale una performance in termini di I/O di gran lunga superiore a MapReduce, in quanto quest’ultimo, al contrario di Spark che lavora su logica in-memory, interagisce con disk storage. Cambia lo stesso ecosistema di risorse, differente nell’uno e nell’altro contesto.
Spark is an alternative to the traditional batch map/reduce model that can be used for real-time stream data processing and fast interactive queries that finish within seconds. It is also based on the Hadoop framework. So, Hadoop is evolving into a general purpose framework that supports multiple models, such as traditional map/reduce and Spark - Fonte: Alex Powell from Quora
Semplificando l’offferta Cloudera è suddivisa in due macro arre da una parte l’offerta di un framework operazionale che sfrutta componenti come
Apache HBase, Apache Kudu, e Apache Spark , dall’altra soluzioni analitiche basate su
Apache Impala Sql Analytics con possibilità di
semplificare l’esecuzione di applicazioni di elaborazione dati su larga scala nel cloud pubblico grazie alla Platform-as-a-Service (PaaS) Altus recentemente annunciata.