Apache Cassandra et Stratosphere (Apache Flink)

Le user group Riviera Scala Clojure a encore une fois organisé une soirée exceptionnelle sur deux outils utilisés dans le Big Data: Apache Cassandra et Stratosphere (Apache Flink). Cette soirée était un succès pour plusieurs points. Tout d’abord Amadeus a mis à diposition l’amphithéâtre Mistral pour que le plus grand nombre à Sophia-Antipolis puisse suivre les conférences dans des conditions confortables. Ensuite les intervenants étaient de qualité, trois personnes de la société DataStax se sont déplacées pour présenter Cassandra et leur solution pour entreprises, plusieurs personnes de la société Orange étaient là pour présenter un retour d’expérience sur l’implémentation de Cassandra, et un core-developer de Apache Flink a fait le déplacement depuis Berlin. Enfin le plus important est que les sujets sont intéressants et d’actualité, surtout pour Apache Flink, une amélioration potentielle à Hadoop et Spark !

Riviera Scala Clojure - presentation by Anwar Rizal — Riviera Scala Clojure – presentation by Anwar Rizal

Dans une première partie, Cassandra a été présentée par Victor Coustenoble de la société DataStax qui s’est implantée récemment en France (merci pour les T-Shirts et goodies !), ensuite Jean Armel Luce de la société Orange nous a présenté l’utilisation de Cassandra au sein de leur entreprise.

Cassandra - DataStax by Victor Coustenoble — Cassandra – DataStax by Victor Coustenoble

Dans une deuxième partie, Aljoscha Krettek de TU Berlin (Technische Universität Berlin) a fait le déplacement pour nous présenter Apache Flink (Stratosphere), un projet en incubation à Apache et qui apporte une série d’améliorations et d’optimisations au framework Spark ! Les deux amélioration que j’ai apprécié le plus sont l’optimisation du workflow MapReduce avant execution sur le cluster, surtout pour les jointures, et l’utilisation uniquement des données utiles à chaque itération comme pour le process itératif de graphes avec Apache Giraph. Il y a donc derrière ce projet une réflexion sur plusieurs éléments liés à l’optimisation de process et l’utilisation de données ce que j’ai trouvé intéressant. J’aime bien le “mid-query fault tolerance” qui est sur leur roadmap !

By Mark Kiami

Leave a Reply Cancel reply