Concevoir, exécuter et tester des programmes écrits avec Map/Reduce
Entrer et sortir des données de formats variés pour les traiter avec Hadoop
Utiliser Hive pour pouvoir interroger le système de fichiers HDFS avec un langage analogue à SQL
Utiliser Pig pour produire facilement des programmes Map-Reduce en langage de haut niveau
Problème des systèmes traditionnels à grande échelle
Qu’est-ce qu’Hadoop ?
Quels problèmes peut-on résoudre avec Hadoop ?
Le projet Hadoop et ses composants
HDFS, le système de fichiers distribué
L'utilisation de MapReduce
L'analyse de données avec les outils Unix
L'analyse de données avec Hadoop
Mappers
Reducers
Combiners
Cluster Hadoop : concepts
Jobs et tasks
Systèmes de fichiers
Programmation distribuée : MapReduce, Pig et Spark
Bases NoSQL : HBase et Cassandra
Accès SQL à Hadoop : Hive
Ingestion de données : Flume, Kafka et Sqoop
Planification des workflows Hadoop : Oozie
Machine Learning : Mahout et Weka
Motivations et design
Blocs et nœuds
Interface en ligne de commande
Interface Java
Flux de données
HBase
Spécification du cluster
Configuration et Installation
Configuration d’Hadoop
Configuration d’HDFS
Monitoring et logging
Maintenance
ingress et egress : éléments-clés
Entrer des données de log avec Apache Flume
Programmation des entrées de données avec Oozie
Importer/Exporter des données depuis des SGBDR avec Sqoop
MapReduce et XML
MapReduce et JSON
MapReduce et formats personnalisés
Pertinence des tests unitaires
Tester les mappers et reducers : JUnit et MRUnit
Execution des tests
LocalJobRunner
Faciliter l’écriture de programmes MapReduce avec Pig
L'installation et l'exécution
Le langage de script : Pig Latin
Les fonctions Utilisateurs (UDF)
Les opérateurs de traitement de données
Interroger et gérer de larges volumes de données avec Hive
L'installation
L'exécution
La comparaison avec les bases de données traditionnelles
HiveQL
Tables
L'interrogation des données
La fonction utilisateurs
Faites-nous part de votre projet de formation,
nous sommes là pour vous guider.