Accéder au contenu principal

Les 12 mythes d’Hadoop


Hadoop est la potion magique qu’on vous sert à toutes les sauces du Big Data et de l’entreprise numérique. Mais qu’est-ce que c’est en réalité ? Et surtout, qu’est-ce que ce n’est pas ?
Hadoop, c’est quoi ?
Au départ, c’est Apache Hadoop, une bibliothèque de logiciels open source utiles à construire un environnement distribué. Elle a un créateur : Doug Cutting (ci-contre) et la petite histoire dit que le nom vient du doudou éléphant de son fils. Mais son succès s’est entouré d’un certain nombre de mythes. En voici 12.
  1. Hadoop est un produit unique
  2. Hadoop, c’est du logiciel libre
  3. Hadoop se suffit à lui-même
  4. HDFS est un  SGBD
  5. Hadoop, c'est du full SQL
  6. Hadoop et MapReduce forment un duo inséparable
  7. MapReduce est un outil d’analytique
  8. Hadoop est surtout un traitement de gros volumes
  9. Hadoop remplace un data warehouse
  10. Le Big Data ne peut pas vivre sans Hadoop
  11. Hadoop est gratuit
  12. Hadoop est surtout un produit d’analytique web
Reprenons point par point:
Résumé d’une très bonne étude de TechTarget « Hadoop Myths Busted » sponsorisée par IBM et Syncsort 
1. « Hadoop est un produit unique » : non, il s’agit d’un ensemble de nombreux produits open source. On parle souvent de Hadoop à la place de sa couche HDFS, Hadoop Distributed File System.
2. « Hadoop, c’est du logiciel libre » : au départ oui mais aujourd’hui il est intégré dans de nombreuses offres propriétaires (IBM, Cloudera, EMC, etc.) qui incluent des fonctions d’administration ou de maintenance qui n’existent pas dans la version de base.
3. « Hadoop se suffit à lui-même » : non, c’est en fait un écosystème et de nombreux produits se développent autour de lui en provenance de multiples vendeurs.
4. « HDFS est un  SGBD » : non, pour être un système de gestion de bases de données complet,  il lui manque des fonctions importantes comme l’accès aléatoire via des index de requêtes.
5. « Hadoop, c'est du full SQL » : non , Hadoop utilise Apache Hive et HiveSQL qui est un SQL-like. Même si Hive est facile à apprendre, il y a un problème de compatibilité avec SQL, qui devrait néanmoins se résoudre rapidement.
6. « Hadoop et MapReduce forment un duo inséparable » : en fait MapRecuce a été développé par Google avant la création de HDFS. Et certains vendeurs ajoutent à MapReduce des fonctions qui ne nécessitent pas HDFS. Mais le duo reste une bonne combinaison
7. « MapReduce est un outil d’analytique » : non, il traite des données en parallèle (architecture MPP Massively Parallell Processing) et rassemble les résultats mais il ne fournit pas l’analytique elle-même. Il reste néanmoins un outil incroyablement puissant.
8. « Hadoop est surtout un traitement de gros volumes » : en fait, il est aussi très adapté à des structures diverses de données (semi-structurées ou non structurées) et pas seulement à du gros volume.
9. « Hadoop remplace un data warehouse » : non, c’est plutôt un complément qui incite les data warehouse à évoluer vers du traitement distribué.
10. « Hadoop est surtout un produit d’analytique web » : en réalité, il n’est pas réservé aux géants du web et peut être utilisé par tout type d’entreprise confrontée par exemple à des objets connectés. Néanmoins sa généralisation va prendre des années.
11. « Le Big Data ne peut pas vivre sans Hadoop » : faux ! Hadoop n’est pas la seule réponse. Il existe d’autres traitements du Big Data chez Teradata, Sybase IQ (SAP) ou encore Vertica (HP). Il existe aussi des développements de traitement du Big Data bien antérieurs à Hadoop, par exemple dans les télécoms.
12. « Hadoop est gratuit » : certes le logiciel est open source mais le déploiement et la mise en œuvre sont bien sûr spécifiques. Il manque des outils d’administration, qu’il faut créer ou acheter. Il lui manque un optimiseur et il lui faut des compétences humaines rares et chères. Sans compter bien sûr les coûts hardware et énergétiques du cluster.

Commentaires

Posts les plus consultés de ce blog

Concerné ou impliqué? La métaphore de l'oeuf au bacon

En attendant de répondre plus longuement à Baron(sur communication et information) qui me signale qu'elle est concernée voire impliquée... "Etre impliqué ou "être concerné"? : pour faire comprendre la différence à des gens, par exemple en séminaire de motivation des troupes, vous leur dites simplement: "Si vous voulez faire des oeufs au bacon, vous avez besoin, au départ, d'une poule et d'un cochon; la différence à l'arrivée, dans votre poèle, c'est que la poule est concernée mais le cochon, lui, est impliqué."

Newsletter Galerie Amavero art et poésie

Abonnez-vous à notre newsletter "Galerie Amavero art et poésie" sur Linkedin!  Vous aurez ainsi les dernières news et publications de poèmes écrits inspirés par des œuvres d'art contemporain, publiés côte à côte, œuvre et texte, sur notre galerie virtuelle. Nous en sommes à 27 artistes et 9 auteurs et le groupe grandit tous les jours! S’abonner Newsletter

Premières réactions à mon article sur les blogs dans Les Echos

Les Echos publient ce jour un "Point de vue" , dans la rubrique "Idées", signé par moi et intitulée "Le blog, nouveau mythe du web". De nombreux sites et blogs en publient des extraits et le commentent. Pour le texte original, je me contenterai pour ma part de renvoyer sur le site Les Echos , pour respecter sa politique de diffusion d'articles imprimés. Les réactions à cet article se multipliant un peu partout, je ne sais comment répondre à tous en même temps: je choisis donc de le faire ici, sur mon blog. Deux précisions d'abord: 1/ On me demande si mon blog est "commercial" puisqu'il y a de la "pub" pour une émission de BFM. J'ai déjà répondu à cette question: non, je ne touche pas d'argent pour cette émission, directement ou indirectement. L'accord est le suivant: en échange de mon travail de journaliste, BFM cite le nom de mon journal et mon journal publie un encadré sur l'émission. Cette émission est ani...