01 56 59 33 00
united-kingdom

PARCOURS « CONSULTANT BIG DATA »

METIER-BIGDATA
METIER-BIGDATA
Durée : 37 jour(s)
soit 259 heures
Programmes
Module COMPRENDRE LE ROLE DE CONSULTANT ESN  1 jour
  • Les principes de la relation client.
  • Le cadre de la relation contractuelle, ses atouts et ses limites.
  • Les rôles de consultant et de salarié.
  • Les qualités nécessaires au rôle de consultant.
 Jeu de rôle:  Auto-évaluation sur la gestion de la relation client. Jeux de prise de conscience des principes de base de la communication. Jeux, entrainement filmés et débriefés. Jeux de rôles sur l’assise du charisme et de la légitimité d’une autorité non hiérarchique. Jeux de rôles filmés. Module INTRODUCTION A LA GESTION D’UN PROJET INFORMATIQUE 2 jours
  • La gestion de projet informatique.
  • La planification et le suivi de projets informatiques.
  • Assurer la qualité des projets informatiques.
  • L’amélioration continue de la qualité.
 Travaux pratiques: Découpage d’un projet par composant et définition du cycle de vie. Établir une planification et un diagramme de Gantt dans MS-Project. Créer, définir et affecter des ressources aux tâches dans MS-Project. Module METHODE AGILES SCRUM 2 joursAGILE SCRUM :
  • Développement logiciel agile
    • Les fondamentaux du développement logiciel agile 
    •  Les développements agiles et le manifeste agile
    • Approche d’équipe intégrée
    • Un feedback au plus tôt et fréquent
    • Aspects des approches agiles
    • Approches de développement agile
    • Pourquoi automatiser les tests sur mobiles ?
    • Création collaborative de user story
    • Rétrospective
    • Intégration continue
    • Planification des releases
  • Principe, pratiques et processus fondamental agile
    • Les différences des tests entre les approches classiques et agiles 
    • Activités des tests et développement 
    • Produits d’activité des projets
    • Niveau de test
    • Test et gestion de configuration
    • Option d’organisation avec des tests indépendants
    • Statuts de test dans les projets
    • Compétences
    • Gérer les risques de régression en faisant évoluer les cas de test manuels et automatisés
    • Rôles et compétence d’un testeur dans une équipe agile : Compétence d’un testeur agile
  • Méthodes agiles
    • Présentation des familles de conduite de projet
    • Méthodes prédictives
    • Méthodes adaptatives
  • La méthode SCRUM
    • Présentation de Scrum
      • Scrum comme conduite de l’équipe projet
      • Gestion de projet généraliste
      • Spécification dynamique
      • Adaptation aux projets logiciels
  •  Rôles dans un projet Scrum
    • Les acteurs intervenant dans et autour d’un projet SCRUM
    • Répartition des responsabilités
    • Client
    • Equipe
    • Scrum master
  • Itérations
    • Présentation des phases de SCRUM
    • Objectifs
    • Version
    • Sprint
    • Scrum
  • Suivi du projet SCRUM
    • Les objectifs fonctionnels dans SCRUM et le suivi des livrables
    • Backlog de produit
    • Backlog de sprint
  • SCRUM avec Sprint
    • Détail sur le cycle principal de SCRUM
    • But
    • Itérations de 4 semaines
    • Livraison
 CYCLE EN V :
  • Cycle des projets
    • Présentation des fondamentaux de la conduite de projet
    • Expression des besoins
    • Analyse
    • Conception 
    • Réalisation
    • Vérification et validation
  •  Utilisation du cycle en V
    • Définition du cycle en V
      • Analyse des besoins
      • Spécifications
      • Conception architecturale
      • Conception détaillée
      • Réalisation
      • Tests unitaires
      • Tests d’intégration
      • Test de validation
      • Recette fonctionnelle
  • Avantages du cycle en V
  • Inconvénients du cycle en V
  • Alternatives au cycle en V
 Module PYTHON 5 joursSyntaxe du langage Python
  • Les Identifiants et les références.
  • Les Conventions de codage et les règles de nommage
  • Les blocs, les commentaires
  • Les types de données disponibles
  • Les variables, l’affichage formaté, la portée locale et globale
  • La manipulation des types numériques, la manipulation de chaînes de caractères
  • La manipulation des tableaux dynamiques (liste), des tableaux statiques (tuple) et des dictionnaires
  • L’utilisation des fichiers
  • La structure conditionnelle if / elif / else
  • Les opérateurs logiques et les opérateurs de comparaison
  • Les boucles d’itérations while et for. Interruption d’itérations break / continue
  • La fonction range
  • L’écriture et la documentation de fonctions
  • Les Lambda expression
  • Les générateurs
  • La structuration du code en modules
  • Les packages
  • Map, reduce et filter
 Approche orientée objet 
  • Les principes du paradigme Objet
  • La définition d’un objet (état, comportement, identité)
  • La notion de classe, d’attributs et de méthodes
  • L’encapsulation des données
  • La communication entre les objets
  • L’héritage, transmission des caractéristiques d’une classe
  • La notion de polymorphisme
  • Association entre classes
  • Les interfaces
  • Notion de modèle de conception (design pattern)
 Utilisation StdLib
  • Les arguments passés sur la ligne de commande
  • L’utilisation du moteur d’expressions régulières Python avec le module « re », les caractères spéciaux, les cardinalités
  • La manipulation du système de fichiers
  • Présentation de quelques modules importants de la bibliothèque standard : module « sys », « os », « os.path
  • Empaquetage et installation d’une bibliothèque Python
  • Les accès aux bases de données relationnelles, le fonctionnement de la DB API
  • Utilisation de contenus XML
  Module PYTHON SCIENTIFIQUE 4 joursPrésentation de l’écosystème « python scientifique »
  • Les outils scientifiques de calcul
  • Les librairies
– Numpy– SciPy– Matplotlib– Pylab (les 3 précédentes en 1)– Pandas– Scikit-Learn … Environnement de travail 
  1. Les distributions Python (Enthought, Anaconda, WinPython, …)
  1. Les IDE de développement (Spyder, Eclipse, PyCharm, …)
 Calcul numérique avec PythonReprésentation des nombres avec Python
  • Les nombres avec Python
  • Les nombres avec NumPy
  • Les problèmes d’arrondi
 NumPy – Le socle de calcul numérique
  • Les différents types de données avec Numpy
  • Opérations matricielles
  • Les fonctions incontournables
  • Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab
Panda
  • Séries et Matrices de données hétérogènes(DataFrame)
  • Entrées/Sorties
  • Sélection et indexation des données
  • Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
  • Concepts des tracés
  • Premiers graphiques : courbes, titres et légendes
  • Axes, échelles de représentations
  • Couleurs et styles
 SciPy 
  • L’interpolation de données météorologiques
  • Le traitement d’images
 DATAVIZQuelques librairies : Seaborn, Altaïr 
  • Visualisation de données cartographiques
  • Applications opensources pour la visualisation de larges jeux de données
 Les essentiels de la programmation parallèle 
  • La parallélisation
 – Principes de base de la parallélisation – Python et la parallélisation 
  • Multi-threading
– Qu’est ce qu’un thread ?– Accès concurrentiel aux données– Les verrous– Les sémaphores– Deadlock– File d’attente– Limites du Multi-threading en Python 
  • Multi-processing
 – Qu’est ce qu’un process ?– Mémoire partagée– Verrous et sémaphores– File d’attente– Communication– Barrière– Pool Module LES FONDAMENTAUX DU BIG DATA 2 joursIntroduction 
  • Introduction au Big Data : de quoi s’agit-il ?
  • Exemples pratiques
  • Les technologies concernées
  • Les outils
  • Les langages :
  • Hortonworks
  • MapR
  • Cloudera
  • IBM Watson
  • Démystification du Big Data
  • Les acteurs principaux
  • Les différents métiers du Big Data
 Enjeux et évolutions du Big Data
  • La qualité des données
  • Le traitement des données
  • La protection des données
  • L’image de la donnée
  • L’humanité des données
 Enjeux stratégiques et organisationnels
  • Le challenge technique
  • Investissement dans la capacité de stockage
  • Investissement dans l’analyse
  • Le Web sémantique
  • Les nouvelles techniques de Data mining
  • L’enjeux économique
  • L’impact organisationnel
  • La conduite du changement
  • L’apparition de nouveaux métiers
  • Etude de cas
 Les technologies utilisées dans des projets Big Data
  • Les outils de stockage
  • L’écosystème Hadoop (Apache, Hortonworks, Cloudera, MapR, IBM, Oracle)
  • Les solutions de visualisation (Microstrategy, Tableau, QlikView)
 Sécurité, éthique et enjeux juridiques
  • Assurer la protection des données
  • L’anonymisation d’une donnée
  • Le contrôle d’intégrité
  • Le chiffrement d’une donnée
  • Qu’est-ce que la blockchain
  • Cas d’usage : Bitcoin
 Module HADOOP 1 jourOrigine d’Hadoop
  • Qu’est-ce que le NoSQL ?
  • Définition du Big Data
  • Histoire d’Hadoop
Installation d’un environnement Hadoop de base 
  • Écosystème complexe
  • Distributions Hadoop
  • Introduction à CDH : Cloudera Hadoop
  • Démarrage d’une QuickStart VM
Stockage de fichiers: HDFS
  • Présentation de l’HDFS
  • Manipulation de fichiers en ligne de commande
Paradigme MapReduce
  • Principe général
  • Fonction Map
  • Fonction Reduce
 Développement d’un premier MapReduce
  • Mapper
  • Reducer
  • Lancement de votre premier MapReduce
  • Combineur
Ecosystème Hadoop
  • Hbase
  • Pig
  • Zookeeper
  • Sqoop
  • Oozie
  • Flume
  • Kafka
  • Spark
 Module ENTREPOT DE DONNEES, ANALYSE ET REQUETAGE SUR HIVE 1 jourLe data warehouse finalité et principes
  • Les enjeux stratégiques d’un SI décisionnel.
  • Les solutions apportées par l’architecture technique et fonctionnelle du Data Warehouse.
  • Caractéristiques des données du SI décisionnel.
 Les principes de la modélisation Data Warehouse
  • Les modèles relationnels opérationnels et dénormalisés.
  • Les modèles hybrides.
  • Les modèles génériques.
  • Comprendre le modèle en étoile, sa finalité.
  • Comprendre les notions de faits et d’analyse. Les hiérarchies d’axe d’analyse.
  • Le modèle en flocon.
  • La problématique des dimensions à évolution.
  • Gestion des agrégats et de la stabilité du périmètre fonctionnel.
  • Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.
Introduction à HIVE
  • Qu’est-ce qu’Hive ?
  • Schema Hive et stockage de données,
  • Comparer Hive aux bases de données traditionnelles,
  • Hive vs. Pig,
  • Cas d’utilisation d’Hive
  • Interagir avec Hive.
 Analyse de données et requêtage avec HIVE
  • Bases de données et tableaux Hive,
  • Syntaxe HiveQL basique,
  • Types de données,
  • Assembler des ensembles de données,
  • Fonctions communes de Built-in,
  • Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».
 Module ORDONNANCEMENT ET TRAITEMENT BIG DATA AVEC OOZIE 1 jourOOZIE
  • Les enjeux
  • Qu’est ce que l’ordonnancement ?
  • Les fonctions clés d’une solution d’ordonnancement
 Travaux pratiques
  • L’orchestrateur Apache OOZIE
  • Les workflows OOZIE
  • Les coordinateurs OOZIE (Coordinators)
  • Limitations de OOZIE
  • Création et utilisation d’ un workflow OOZIE
 Module LES BASES DE L’ADMINISTRATION D’UN CLUSTER CLOUDERA 3 jours
  • CLOUDERA ENTERPRISE DATA HUB
    • Cloudera Enterprise Data Hub
    • Introduction au CDH
    • Introduction à Cloudera Manager
    • Les responsabilités d’un administrateur Hadoop
  • INSTALLATION DE CLOUDERA MANAGER ET DU CDH
    • Introduction à l’installation du cluster
    • Installation de Cloudera Manager Installation
    • Installation du CDH
    • Les services du cluster CDH
  • CONFIGURER UN CLUSTER CLOUDERA
    • Introduction
    • Paramètres de configuration
    • Modifier la configuration des services
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter des nouveaux services
    • Ajouter et supprimer des hôtes
  • HADOOP DISTRIBUTED FILE SYSTEM
    • Introduction
    • Topologie et rôles HDFS
    • Modifier les logs et le checkpointing
    • La performance HDFS et la tolérance à la panne
    • Introduction à la sécurité de HDFS et de Hadoop
    • Interfaces utilisateurs web pour HDFS
    • Utiliser la ligne de commande HDFS
    • Autres outils de ligne de commande
  • INGESTION DE DONNÉES SUR HDFS
    • Introduction à l’ingestion de données
    • Formats de fichiers
    • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
    • Ingérer de la donnée d’une base de donnée relationnel avec Sqoop
    • Ingérer de la donnée d’une source externe avec Flume
    • Les bonnes pratiques d’ingestion de donnée
  • HIVE ET IMPALA
    • Apache Hive
    • Apache Impala
  • YARN ET MAPREDUCE
    • Introduction à YARN
    • Exécuter des applications sur YARN
    • Explorer les applications YARN
    • Les logs d’application YARN
    • Les applications Map Reduce
    • Réglage mémoire et CPU pour YARN
  • APACHE SPARK
    • Introduction à Spark
    • Les applications Spark
    • Comment les applications Spark s’exécutent sur YARN
    • Monitorer les applications Spark
  • DIMENSIONNEMENT DE VOTRE CLUSTER HADOOP
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Considérations sur le réseau
    • Options de virtualisation
    • Options de déploiement cloud
    • Configuration des noeuds
  • CONFIGURATION AVANCÉ DU CLUSTER
    • Configurer les ports de service
    • Paramétrer HDFS et MapReduce
    • Activer la Haute Disponibilité HDFS
  • GESTION DES RESSOURCES
    • Configuration de cgroups avec des centres de services statiques
    • Le Fair Scheduler
    • Configurer la gestion dynamique des ressources
    • Planification des requêtes Impala
  • MAINTENANCE DU CLUSTER
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster
  • MONITORING DU CLUSTER
    • Fonctionnalités de monitoring de Cloudera Manager
    • Tests de santé
    • Événements et alertes
    • Graphiques et rapports
    • Recommandation de monitoring
  • DIAGNOSTIC DU CLUSTER
    • Introduction
    • Outils de diagnostic
    • Exemples de mauvaises configurations
  • INSTALLER ET GÉRER HUE
    • Introduction
    • Gérer et configurer Hue
    • Authentification et autorisation Hue
  • SÉCURITÉ
    • Les concepts de sécurité sur Hadoop
    • Authentification sur Hadoop en utilisant Kerberos
    • Authorisation sur Hadoop
    • Chiffrement sur Hadoop
    • Sécuriser un cluster Hadoop
Module DATA PIPELINE AVEC KAFKA 2 joursPrésentation
  • Retour sur l’historique du projet
  • L’intérêt de Kafka dans le Big Data
  • L’architecture fonctionnelle de Kafka
  • Les composants du système : brokers, topics, conumer, producers
  • Principes de fonctionnement
 
  • Installer Kafka
  • Configurer les composants
  • Installer l’écosystème de développement de Kafka
  • Installer le matériel nécessaire
  • Effectuer des manipulations de base
Installation
  • Etudier la conception des APIs et leur implémentation
  • Comprendre les cas d’usages et les solutions
  • Gérer la couche réseau et le format des messages
  • Gérer, administrer et compacter les Logs
  • Gérer le schéma de distribution des données
  • Effectuer les actions de base sur les topics
  • Gérer les Datacenters
  • Monitorer le système et gérer les alertes
  • Mise en œuvre de Zookeeper
  Configuration et utilisation des APIs
  • Comprendre les enjeux et les principes de sécurité d’un système
Kafka
  • Utiliser le protocole SSL/TLS pour le cryptage et l’authentification
  • Utiliser la couche SASL pour l’authentification
  • Utiliser des listes de contrôle ACL pour les autorisations
  • Authentifier avec Zookeeper
Mise en place de la sécurité du système
  • Data stream scalable avec Kafka Connect
  • Utiliser Kafka Connect pour l’intégration de données
  • Developper des connecteurs personnalisés
 Module LA SUITE ELASTIC LOGSTASH KIBANA 3 joursPrésentation
  • Présentation et histoire d’Elasticsearch, logstash et Kibana.
  • Les prérequis d’installation. Installation type « as a Cloud ».
  • La mise en œuvre d’Elasticsearch, logstash et Kibana.
  • La configuration d’Elasticsearch.
  • Les principes clés l’administration d’Elasticsearch.
  • Le développement d’applications en utilisant Elasticsearch.
  • L’impact d’Elasticsearch sur l’architecture et les applications existantes.
  • Rôles de Logstash et de Kibana.
 Aller plus loin avec Kafka
  • Présentation d’Apache Lucene.
  • L’architecture et les concepts clés.
  • Le format d’échange JSON par Service Container.
  • L’API REST.
  • Le scoring et la pertinence de requêtes.
  • Le stockage de données et la recherche simple.
 Possibilité offertes
  • L’indexation des documents et des données.
  • La recherche sur les documents et les données.
Caractéristiques noSQL
  • Le calcul des listes de réponses.
  • Le filtrage et le tri des résultats.
  • Les suggestions de requêtes.
  • Le surlignage des résultats.
 Fonctionnement d’elasticsearch
  • Comment donner un sens aux données avec Elasticsearch et Kibana?
  • Démarche d’amélioration de l’indexation des données.
  • Démarche d’amélioration des requêtes de recherche.
  • La pertinence géographique des recherches.
  • La percolation.
 Module NoSQL 1 jourPrésentation
  • Origine des bases de données, les notions de transaction, les SGBD, la standardisation SQL,
  • L’arrivée de nouveaux besoins : volumes importants liés aux technologies et aux nouveaux usages, traitements optimisés de flux de données au fil de l’eau
  • Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul
  • Définition ETL : Extract Transform Load
 
  • Structure de données proches des utilisateurs, développeurs : sérialisation, tables de hachage,
JSON
  • Priorité au traitement du côté client
  • Protocoles d’accès aux données, interfaces depuis les langages classiques
  • Données structurées et non structurées, documents, images
  • Stockage réparti : réplication, sharping, gossip protocl, hachage,…
  • Parallélisation des traitements : implémentation de MapReduce
  • Cohérence des données et gestion des accès concurrents : »eventual consistancy » et multi-version concurrency control
 Possibilités offertes
  • Les solutions NoSQL et leurs choix techniques : CouchDB, MongoDB, Cassandra, HBase (Hadoop),
  • ElasticSearch, …
  • Démonstrations avec Cassandra et couchDB
  • Critères de choix
Mise en oeuvre
  • Points à vérifier : méthode d’utilisation des données
  • Format de stockage JSON, XML,
  • Choix de la clé, notion de clé composite, …
  • Aspects matériels, besoins en mémoire, disques, répartition, …
  • Import des données : outils et méthodes selon les moteurs NoSQL
 Module HBASE 1 jourArchitecture
  • HBase Master Node
  • Region Master
  • Liens avec les clients HBase
  • Rôle de ZooKeeper
 
  • Choix des packages
  • Installation et configuration dans le fichier conf/hbase-site.xml
  • Démarrage en mode Standalone start-hbase
  • Test de connexion avec HBase Shell
  • Installation en mode distribué
  • Interrogations depuis le serveur HTTP intégré
Installation
  • Présentation des différentes interfaces disponibles
  • Travaux pratiques avec HBase Shell
  • Commandes de base
  • Syntaxe
  • Variables
  • Manipulation des données : create, list, put, scan, get
  • Désactiver une table ou l’effacer
– Disable (enable)– Drop…
  • Programmation de scripts
  • Gestion des tables : principe des filtres
  • Mise en oeuvre de filtres de recherche
  • Paramètres des tables
  • Présentation des espaces de nommage
 Hbase Utilisation Shell
  • Fonctionnement en mode distribué
  • Fonctionnement indépendant des démons
– HMaster– HRegionServer– ZooKeeper
  • Mise en oeuvre avec HDFS dans un environnement distribué
  • Tables réparties : mise en oeuvre des splits
Programmation
  • Introduction
  • Les APIs
– REST– Avro– Thrift– Java– Ruby…
  • Utilisation d’un client Java
  • Gestion des tables
  • Lien avec MapReduce
  • Principes des accès JMX
  • Exemple d’un client JMX
 Module CONCEPTS BI 1 jourIntroduction
  • Objectifs et définitions
  • Architecture générale
  • Architecture technique
  • Le stockage des données
  • La conception du Datawarehouse
  • L’analyse du besoin : Exercice
  • Les limites du SI opérationnel
 La modélisation des données
  • La base de données
  • Optimisation du modèle
  • L’administration des données
  • Exercices
 L’alimentation du Datawarehouse
  • Les ETL
  • Architecture de divers ETL
  • Présentation d’un ETL
  • Exercices
Les outils de restitution
  • Présentation de différents outils
  • Exercices
  • La gestion de projet
  • Le décisionnel et la législation
  • Les perspectives d’évolutions
 Conclusion
  • Connaître les logiciels et outils du décisionnel
  • Avoir une vue d’ensemble de ces outils
  • Connaître leurs historiques et leurs places sur le marché du décisionnel
 Module TALENT STUDIO 2 joursIntroduction
  • Problématique
  • EAI / ERP
  • Installation
 Découverte de l’environnement
  • Premier pas avec TOS
  • Vue d’ensemble des composants
Les premiers flux
  • Le Business Model
  • Le job
  • Les bonnes pratiques
  • tRowGenerator
  • tFileInputExcel et tFileOutputExcel
  • tMsgBox
  • tSendMail
  • Type de liaisons entre composants
  • Exécuter un job
 Traiter les données
  • tFilterRow
  • tUniqRow
  • tAgregateRow
  • tSortRow
  • tMap
Les métadonnées
  • Vue d’ensemble
  • Créer une métadonnée Excel
  • Utiliser une métadonnée Excel
  • Créer une métadonnée Access
  • Récupérer les tables d’une BDD
 Travailler avec la base de données
  • AccessInput
  • tAccessOutput
 Autres composants et fonctionnalités
  • Variables globales
  • tBuffer
  • tSystem
  • tServerAlive
  • tUnite
  • tReplicate
 Les itérations
  • tFileList
  • tInfiniteLoop
  • tLoop
  • tPOP
  • tFlowToIterate
Gestion des log et des erreurs
  • tLogRow
  • tDie et tLogCatcher
  • tWarn
  • tStatCatcher
  • tFlowMeter et tFlowMeterCatcher
 Fonctionnalités avancées
  • Variables de contexte
  • Créer une variable de contexte
  • Utiliser une variable de contexte
  • Modifier une variable de contexte
  • Cascade de jobs
  • Les routines
Automatisation et documentation
  • Documenter ses jobs
  • Générer des scripts
 Module INGESTION DE DONNEES AVEC KAFKA et NiFi 2 joursRappel de Kafka
  • Kafka : une plateforme de données de flux
  • Aperçu de Kafka et de son efficacité
  • Producers, Brokers, Consumers
 Présentation de NiFi
  • Différence entre données froides et données chaudes
  • Présentation des outils et technologies Big Data
  • Hadoop (HDFS et MapReduce) et Spark
  • Installation et configuration de NiFi
  • Vue d’ensemble de l’architecture NiFi
  • Approches de développement
  • Outils de développement d’applications et état d’esprit
  • Extraction, transformation et chargement (ETL) des outils et de la mentalité
 Mise en oeuvre de NiFi
  • Considérations sur la conception
  • Composants, événements et modèles de processeur
  • La gestion des erreurs
  • Services de contrôleur
  • Tests et dépannage
  • Contribuer à Apache NiFi
 Module CONCEPTS DATAVIZ ET POWER BI 2 joursDATAVITZDécouvrir les tendances actuelles de la visualisation de données 
  • Comprendre la l’origine et la structu
Objectifs
Ce parcours de formation permettra aux candidats d’apprendre les fondamentaux du métier de consultant BIG DATA.
Il permettra également de:
Maîtriser les fondamentaux du BIG DATA et de la BI
Connaitre la solution Hadoop et les technologies associées
Requêter, Analyser, Administrer, Optimiser les systèmes et clusters mis en place
Utiliser la suite ELK
Alimenter et restituer les données (Concepts BI)
Maîtriser l’écosystème Spark enutilisant Scala comme langage deprogrammation
Appliquer en mode projet
Prérequis
Connaissances en informatique
Profil des participants
Consultants, Ingénieurs, Développeurs, Administrateurs…
BAC + 5 scientifique
Dates des prochaines sessions :
Ce parcours de formation permettra aux candidats d’apprendre les fondamentaux du métier de consultant BIG DATA.
Il permettra également de:
Maîtriser les fondamentaux du BIG DATA et de la BI
Connaitre la solution Hadoop et les technologies associées
Requêter, Analyser, Administrer, Optimiser les systèmes et clusters mis en place
Utiliser la suite ELK
Alimenter et restituer les données (Concepts BI)
Maîtriser l’écosystème Spark enutilisant Scala comme langage deprogrammation
Appliquer en mode projet
Module COMPRENDRE LE ROLE DE CONSULTANT ESN  1 jour
  • Les principes de la relation client.
  • Le cadre de la relation contractuelle, ses atouts et ses limites.
  • Les rôles de consultant et de salarié.
  • Les qualités nécessaires au rôle de consultant.
 Jeu de rôle:  Auto-évaluation sur la gestion de la relation client. Jeux de prise de conscience des principes de base de la communication. Jeux, entrainement filmés et débriefés. Jeux de rôles sur l’assise du charisme et de la légitimité d’une autorité non hiérarchique. Jeux de rôles filmés. Module INTRODUCTION A LA GESTION D’UN PROJET INFORMATIQUE 2 jours
  • La gestion de projet informatique.
  • La planification et le suivi de projets informatiques.
  • Assurer la qualité des projets informatiques.
  • L’amélioration continue de la qualité.
 Travaux pratiques: Découpage d’un projet par composant et définition du cycle de vie. Établir une planification et un diagramme de Gantt dans MS-Project. Créer, définir et affecter des ressources aux tâches dans MS-Project. Module METHODE AGILES SCRUM 2 joursAGILE SCRUM :
  • Développement logiciel agile
    • Les fondamentaux du développement logiciel agile 
    •  Les développements agiles et le manifeste agile
    • Approche d’équipe intégrée
    • Un feedback au plus tôt et fréquent
    • Aspects des approches agiles
    • Approches de développement agile
    • Pourquoi automatiser les tests sur mobiles ?
    • Création collaborative de user story
    • Rétrospective
    • Intégration continue
    • Planification des releases
  • Principe, pratiques et processus fondamental agile
    • Les différences des tests entre les approches classiques et agiles 
    • Activités des tests et développement 
    • Produits d’activité des projets
    • Niveau de test
    • Test et gestion de configuration
    • Option d’organisation avec des tests indépendants
    • Statuts de test dans les projets
    • Compétences
    • Gérer les risques de régression en faisant évoluer les cas de test manuels et automatisés
    • Rôles et compétence d’un testeur dans une équipe agile : Compétence d’un testeur agile
  • Méthodes agiles
    • Présentation des familles de conduite de projet
    • Méthodes prédictives
    • Méthodes adaptatives
  • La méthode SCRUM
    • Présentation de Scrum
      • Scrum comme conduite de l’équipe projet
      • Gestion de projet généraliste
      • Spécification dynamique
      • Adaptation aux projets logiciels
  •  Rôles dans un projet Scrum
    • Les acteurs intervenant dans et autour d’un projet SCRUM
    • Répartition des responsabilités
    • Client
    • Equipe
    • Scrum master
  • Itérations
    • Présentation des phases de SCRUM
    • Objectifs
    • Version
    • Sprint
    • Scrum
  • Suivi du projet SCRUM
    • Les objectifs fonctionnels dans SCRUM et le suivi des livrables
    • Backlog de produit
    • Backlog de sprint
  • SCRUM avec Sprint
    • Détail sur le cycle principal de SCRUM
    • But
    • Itérations de 4 semaines
    • Livraison
 CYCLE EN V :
  • Cycle des projets
    • Présentation des fondamentaux de la conduite de projet
    • Expression des besoins
    • Analyse
    • Conception 
    • Réalisation
    • Vérification et validation
  •  Utilisation du cycle en V
    • Définition du cycle en V
      • Analyse des besoins
      • Spécifications
      • Conception architecturale
      • Conception détaillée
      • Réalisation
      • Tests unitaires
      • Tests d’intégration
      • Test de validation
      • Recette fonctionnelle
  • Avantages du cycle en V
  • Inconvénients du cycle en V
  • Alternatives au cycle en V
 Module PYTHON 5 joursSyntaxe du langage Python
  • Les Identifiants et les références.
  • Les Conventions de codage et les règles de nommage
  • Les blocs, les commentaires
  • Les types de données disponibles
  • Les variables, l’affichage formaté, la portée locale et globale
  • La manipulation des types numériques, la manipulation de chaînes de caractères
  • La manipulation des tableaux dynamiques (liste), des tableaux statiques (tuple) et des dictionnaires
  • L’utilisation des fichiers
  • La structure conditionnelle if / elif / else
  • Les opérateurs logiques et les opérateurs de comparaison
  • Les boucles d’itérations while et for. Interruption d’itérations break / continue
  • La fonction range
  • L’écriture et la documentation de fonctions
  • Les Lambda expression
  • Les générateurs
  • La structuration du code en modules
  • Les packages
  • Map, reduce et filter
 Approche orientée objet 
  • Les principes du paradigme Objet
  • La définition d’un objet (état, comportement, identité)
  • La notion de classe, d’attributs et de méthodes
  • L’encapsulation des données
  • La communication entre les objets
  • L’héritage, transmission des caractéristiques d’une classe
  • La notion de polymorphisme
  • Association entre classes
  • Les interfaces
  • Notion de modèle de conception (design pattern)
 Utilisation StdLib
  • Les arguments passés sur la ligne de commande
  • L’utilisation du moteur d’expressions régulières Python avec le module « re », les caractères spéciaux, les cardinalités
  • La manipulation du système de fichiers
  • Présentation de quelques modules importants de la bibliothèque standard : module « sys », « os », « os.path
  • Empaquetage et installation d’une bibliothèque Python
  • Les accès aux bases de données relationnelles, le fonctionnement de la DB API
  • Utilisation de contenus XML
  Module PYTHON SCIENTIFIQUE 4 joursPrésentation de l’écosystème « python scientifique »
  • Les outils scientifiques de calcul
  • Les librairies
– Numpy– SciPy– Matplotlib– Pylab (les 3 précédentes en 1)– Pandas– Scikit-Learn … Environnement de travail 
  1. Les distributions Python (Enthought, Anaconda, WinPython, …)
  1. Les IDE de développement (Spyder, Eclipse, PyCharm, …)
 Calcul numérique avec PythonReprésentation des nombres avec Python
  • Les nombres avec Python
  • Les nombres avec NumPy
  • Les problèmes d’arrondi
 NumPy – Le socle de calcul numérique
  • Les différents types de données avec Numpy
  • Opérations matricielles
  • Les fonctions incontournables
  • Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab
Panda
  • Séries et Matrices de données hétérogènes(DataFrame)
  • Entrées/Sorties
  • Sélection et indexation des données
  • Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
  • Concepts des tracés
  • Premiers graphiques : courbes, titres et légendes
  • Axes, échelles de représentations
  • Couleurs et styles
 SciPy 
  • L’interpolation de données météorologiques
  • Le traitement d’images
 DATAVIZQuelques librairies : Seaborn, Altaïr 
  • Visualisation de données cartographiques
  • Applications opensources pour la visualisation de larges jeux de données
 Les essentiels de la programmation parallèle 
  • La parallélisation
 – Principes de base de la parallélisation – Python et la parallélisation 
  • Multi-threading
– Qu’est ce qu’un thread ?– Accès concurrentiel aux données– Les verrous– Les sémaphores– Deadlock– File d’attente– Limites du Multi-threading en Python 
  • Multi-processing
 – Qu’est ce qu’un process ?– Mémoire partagée– Verrous et sémaphores– File d’attente– Communication– Barrière– Pool Module LES FONDAMENTAUX DU BIG DATA 2 joursIntroduction 
  • Introduction au Big Data : de quoi s’agit-il ?
  • Exemples pratiques
  • Les technologies concernées
  • Les outils
  • Les langages :
  • Hortonworks
  • MapR
  • Cloudera
  • IBM Watson
  • Démystification du Big Data
  • Les acteurs principaux
  • Les différents métiers du Big Data
 Enjeux et évolutions du Big Data
  • La qualité des données
  • Le traitement des données
  • La protection des données
  • L’image de la donnée
  • L’humanité des données
 Enjeux stratégiques et organisationnels
  • Le challenge technique
  • Investissement dans la capacité de stockage
  • Investissement dans l’analyse
  • Le Web sémantique
  • Les nouvelles techniques de Data mining
  • L’enjeux économique
  • L’impact organisationnel
  • La conduite du changement
  • L’apparition de nouveaux métiers
  • Etude de cas
 Les technologies utilisées dans des projets Big Data
  • Les outils de stockage
  • L’écosystème Hadoop (Apache, Hortonworks, Cloudera, MapR, IBM, Oracle)
  • Les solutions de visualisation (Microstrategy, Tableau, QlikView)
 Sécurité, éthique et enjeux juridiques
  • Assurer la protection des données
  • L’anonymisation d’une donnée
  • Le contrôle d’intégrité
  • Le chiffrement d’une donnée
  • Qu’est-ce que la blockchain
  • Cas d’usage : Bitcoin
 Module HADOOP 1 jourOrigine d’Hadoop
  • Qu’est-ce que le NoSQL ?
  • Définition du Big Data
  • Histoire d’Hadoop
Installation d’un environnement Hadoop de base 
  • Écosystème complexe
  • Distributions Hadoop
  • Introduction à CDH : Cloudera Hadoop
  • Démarrage d’une QuickStart VM
Stockage de fichiers: HDFS
  • Présentation de l’HDFS
  • Manipulation de fichiers en ligne de commande
Paradigme MapReduce
  • Principe général
  • Fonction Map
  • Fonction Reduce
 Développement d’un premier MapReduce
  • Mapper
  • Reducer
  • Lancement de votre premier MapReduce
  • Combineur
Ecosystème Hadoop
  • Hbase
  • Pig
  • Zookeeper
  • Sqoop
  • Oozie
  • Flume
  • Kafka
  • Spark
 Module ENTREPOT DE DONNEES, ANALYSE ET REQUETAGE SUR HIVE 1 jourLe data warehouse finalité et principes
  • Les enjeux stratégiques d’un SI décisionnel.
  • Les solutions apportées par l’architecture technique et fonctionnelle du Data Warehouse.
  • Caractéristiques des données du SI décisionnel.
 Les principes de la modélisation Data Warehouse
  • Les modèles relationnels opérationnels et dénormalisés.
  • Les modèles hybrides.
  • Les modèles génériques.
  • Comprendre le modèle en étoile, sa finalité.
  • Comprendre les notions de faits et d’analyse. Les hiérarchies d’axe d’analyse.
  • Le modèle en flocon.
  • La problématique des dimensions à évolution.
  • Gestion des agrégats et de la stabilité du périmètre fonctionnel.
  • Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.
Introduction à HIVE
  • Qu’est-ce qu’Hive ?
  • Schema Hive et stockage de données,
  • Comparer Hive aux bases de données traditionnelles,
  • Hive vs. Pig,
  • Cas d’utilisation d’Hive
  • Interagir avec Hive.
 Analyse de données et requêtage avec HIVE
  • Bases de données et tableaux Hive,
  • Syntaxe HiveQL basique,
  • Types de données,
  • Assembler des ensembles de données,
  • Fonctions communes de Built-in,
  • Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».
 Module ORDONNANCEMENT ET TRAITEMENT BIG DATA AVEC OOZIE 1 jourOOZIE
  • Les enjeux
  • Qu’est ce que l’ordonnancement ?
  • Les fonctions clés d’une solution d’ordonnancement
 Travaux pratiques
  • L’orchestrateur Apache OOZIE
  • Les workflows OOZIE
  • Les coordinateurs OOZIE (Coordinators)
  • Limitations de OOZIE
  • Création et utilisation d’ un workflow OOZIE
 Module LES BASES DE L’ADMINISTRATION D’UN CLUSTER CLOUDERA 3 jours
  • CLOUDERA ENTERPRISE DATA HUB
    • Cloudera Enterprise Data Hub
    • Introduction au CDH
    • Introduction à Cloudera Manager
    • Les responsabilités d’un administrateur Hadoop
  • INSTALLATION DE CLOUDERA MANAGER ET DU CDH
    • Introduction à l’installation du cluster
    • Installation de Cloudera Manager Installation
    • Installation du CDH
    • Les services du cluster CDH
  • CONFIGURER UN CLUSTER CLOUDERA
    • Introduction
    • Paramètres de configuration
    • Modifier la configuration des services
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter des nouveaux services
    • Ajouter et supprimer des hôtes
  • HADOOP DISTRIBUTED FILE SYSTEM
    • Introduction
    • Topologie et rôles HDFS
    • Modifier les logs et le checkpointing
    • La performance HDFS et la tolérance à la panne
    • Introduction à la sécurité de HDFS et de Hadoop
    • Interfaces utilisateurs web pour HDFS
    • Utiliser la ligne de commande HDFS
    • Autres outils de ligne de commande
  • INGESTION DE DONNÉES SUR HDFS
    • Introduction à l’ingestion de données
    • Formats de fichiers
    • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
    • Ingérer de la donnée d’une base de donnée relationnel avec Sqoop
    • Ingérer de la donnée d’une source externe avec Flume
    • Les bonnes pratiques d’ingestion de donnée
  • HIVE ET IMPALA
    • Apache Hive
    • Apache Impala
  • YARN ET MAPREDUCE
    • Introduction à YARN
    • Exécuter des applications sur YARN
    • Explorer les applications YARN
    • Les logs d’application YARN
    • Les applications Map Reduce
    • Réglage mémoire et CPU pour YARN
  • APACHE SPARK
    • Introduction à Spark
    • Les applications Spark
    • Comment les applications Spark s’exécutent sur YARN
    • Monitorer les applications Spark
  • DIMENSIONNEMENT DE VOTRE CLUSTER HADOOP
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Considérations sur le réseau
    • Options de virtualisation
    • Options de déploiement cloud
    • Configuration des noeuds
  • CONFIGURATION AVANCÉ DU CLUSTER
    • Configurer les ports de service
    • Paramétrer HDFS et MapReduce
    • Activer la Haute Disponibilité HDFS
  • GESTION DES RESSOURCES
    • Configuration de cgroups avec des centres de services statiques
    • Le Fair Scheduler
    • Configurer la gestion dynamique des ressources
    • Planification des requêtes Impala
  • MAINTENANCE DU CLUSTER
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster
  • MONITORING DU CLUSTER
    • Fonctionnalités de monitoring de Cloudera Manager
    • Tests de santé
    • Événements et alertes
    • Graphiques et rapports
    • Recommandation de monitoring
  • DIAGNOSTIC DU CLUSTER
    • Introduction
    • Outils de diagnostic
    • Exemples de mauvaises configurations
  • INSTALLER ET GÉRER HUE
    • Introduction
    • Gérer et configurer Hue
    • Authentification et autorisation Hue
  • SÉCURITÉ
    • Les concepts de sécurité sur Hadoop
    • Authentification sur Hadoop en utilisant Kerberos
    • Authorisation sur Hadoop
    • Chiffrement sur Hadoop
    • Sécuriser un cluster Hadoop
Module DATA PIPELINE AVEC KAFKA 2 joursPrésentation
  • Retour sur l’historique du projet
  • L’intérêt de Kafka dans le Big Data
  • L’architecture fonctionnelle de Kafka
  • Les composants du système : brokers, topics, conumer, producers
  • Principes de fonctionnement
 
  • Installer Kafka
  • Configurer les composants
  • Installer l’écosystème de développement de Kafka
  • Installer le matériel nécessaire
  • Effectuer des manipulations de base
Installation
  • Etudier la conception des APIs et leur implémentation
  • Comprendre les cas d’usages et les solutions
  • Gérer la couche réseau et le format des messages
  • Gérer, administrer et compacter les Logs
  • Gérer le schéma de distribution des données
  • Effectuer les actions de base sur les topics
  • Gérer les Datacenters
  • Monitorer le système et gérer les alertes
  • Mise en œuvre de Zookeeper
  Configuration et utilisation des APIs
  • Comprendre les enjeux et les principes de sécurité d’un système
Kafka
  • Utiliser le protocole SSL/TLS pour le cryptage et l’authentification
  • Utiliser la couche SASL pour l’authentification
  • Utiliser des listes de contrôle ACL pour les autorisations
  • Authentifier avec Zookeeper
Mise en place de la sécurité du système
  • Data stream scalable avec Kafka Connect
  • Utiliser Kafka Connect pour l’intégration de données
  • Developper des connecteurs personnalisés
 Module LA SUITE ELASTIC LOGSTASH KIBANA 3 joursPrésentation
  • Présentation et histoire d’Elasticsearch, logstash et Kibana.
  • Les prérequis d’installation. Installation type « as a Cloud ».
  • La mise en œuvre d’Elasticsearch, logstash et Kibana.
  • La configuration d’Elasticsearch.
  • Les principes clés l’administration d’Elasticsearch.
  • Le développement d’applications en utilisant Elasticsearch.
  • L’impact d’Elasticsearch sur l’architecture et les applications existantes.
  • Rôles de Logstash et de Kibana.
 Aller plus loin avec Kafka
  • Présentation d’Apache Lucene.
  • L’architecture et les concepts clés.
  • Le format d’échange JSON par Service Container.
  • L’API REST.
  • Le scoring et la pertinence de requêtes.
  • Le stockage de données et la recherche simple.
 Possibilité offertes
  • L’indexation des documents et des données.
  • La recherche sur les documents et les données.
Caractéristiques noSQL
  • Le calcul des listes de réponses.
  • Le filtrage et le tri des résultats.
  • Les suggestions de requêtes.
  • Le surlignage des résultats.
 Fonctionnement d’elasticsearch
  • Comment donner un sens aux données avec Elasticsearch et Kibana?
  • Démarche d’amélioration de l’indexation des données.
  • Démarche d’amélioration des requêtes de recherche.
  • La pertinence géographique des recherches.
  • La percolation.
 Module NoSQL 1 jourPrésentation
  • Origine des bases de données, les notions de transaction, les SGBD, la standardisation SQL,
  • L’arrivée de nouveaux besoins : volumes importants liés aux technologies et aux nouveaux usages, traitements optimisés de flux de données au fil de l’eau
  • Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul
  • Définition ETL : Extract Transform Load
 
  • Structure de données proches des utilisateurs, développeurs : sérialisation, tables de hachage,
JSON
  • Priorité au traitement du côté client
  • Protocoles d’accès aux données, interfaces depuis les langages classiques
  • Données structurées et non structurées, documents, images
  • Stockage réparti : réplication, sharping, gossip protocl, hachage,…
  • Parallélisation des traitements : implémentation de MapReduce
  • Cohérence des données et gestion des accès concurrents : »eventual consistancy » et multi-version concurrency control
 Possibilités offertes
  • Les solutions NoSQL et leurs choix techniques : CouchDB, MongoDB, Cassandra, HBase (Hadoop),
  • ElasticSearch, …
  • Démonstrations avec Cassandra et couchDB
  • Critères de choix
Mise en oeuvre
  • Points à vérifier : méthode d’utilisation des données
  • Format de stockage JSON, XML,
  • Choix de la clé, notion de clé composite, …
  • Aspects matériels, besoins en mémoire, disques, répartition, …
  • Import des données : outils et méthodes selon les moteurs NoSQL
 Module HBASE 1 jourArchitecture
  • HBase Master Node
  • Region Master
  • Liens avec les clients HBase
  • Rôle de ZooKeeper
 
  • Choix des packages
  • Installation et configuration dans le fichier conf/hbase-site.xml
  • Démarrage en mode Standalone start-hbase
  • Test de connexion avec HBase Shell
  • Installation en mode distribué
  • Interrogations depuis le serveur HTTP intégré
Installation
  • Présentation des différentes interfaces disponibles
  • Travaux pratiques avec HBase Shell
  • Commandes de base
  • Syntaxe
  • Variables
  • Manipulation des données : create, list, put, scan, get
  • Désactiver une table ou l’effacer
– Disable (enable)– Drop…
  • Programmation de scripts
  • Gestion des tables : principe des filtres
  • Mise en oeuvre de filtres de recherche
  • Paramètres des tables
  • Présentation des espaces de nommage
 Hbase Utilisation Shell
  • Fonctionnement en mode distribué
  • Fonctionnement indépendant des démons
– HMaster– HRegionServer– ZooKeeper
  • Mise en oeuvre avec HDFS dans un environnement distribué
  • Tables réparties : mise en oeuvre des splits
Programmation
  • Introduction
  • Les APIs
– REST– Avro– Thrift– Java– Ruby…
  • Utilisation d’un client Java
  • Gestion des tables
  • Lien avec MapReduce
  • Principes des accès JMX
  • Exemple d’un client JMX
 Module CONCEPTS BI 1 jourIntroduction
  • Objectifs et définitions
  • Architecture générale
  • Architecture technique
  • Le stockage des données
  • La conception du Datawarehouse
  • L’analyse du besoin : Exercice
  • Les limites du SI opérationnel
 La modélisation des données
  • La base de données
  • Optimisation du modèle
  • L’administration des données
  • Exercices
 L’alimentation du Datawarehouse
  • Les ETL
  • Architecture de divers ETL
  • Présentation d’un ETL
  • Exercices
Les outils de restitution
  • Présentation de différents outils
  • Exercices
  • La gestion de projet
  • Le décisionnel et la législation
  • Les perspectives d’évolutions
 Conclusion
  • Connaître les logiciels et outils du décisionnel
  • Avoir une vue d’ensemble de ces outils
  • Connaître leurs historiques et leurs places sur le marché du décisionnel
 Module TALENT STUDIO 2 joursIntroduction
  • Problématique
  • EAI / ERP
  • Installation
 Découverte de l’environnement
  • Premier pas avec TOS
  • Vue d’ensemble des composants
Les premiers flux
  • Le Business Model
  • Le job
  • Les bonnes pratiques
  • tRowGenerator
  • tFileInputExcel et tFileOutputExcel
  • tMsgBox
  • tSendMail
  • Type de liaisons entre composants
  • Exécuter un job
 Traiter les données
  • tFilterRow
  • tUniqRow
  • tAgregateRow
  • tSortRow
  • tMap
Les métadonnées
  • Vue d’ensemble
  • Créer une métadonnée Excel
  • Utiliser une métadonnée Excel
  • Créer une métadonnée Access
  • Récupérer les tables d’une BDD
 Travailler avec la base de données
  • AccessInput
  • tAccessOutput
 Autres composants et fonctionnalités
  • Variables globales
  • tBuffer
  • tSystem
  • tServerAlive
  • tUnite
  • tReplicate
 Les itérations
  • tFileList
  • tInfiniteLoop
  • tLoop
  • tPOP
  • tFlowToIterate
Gestion des log et des erreurs
  • tLogRow
  • tDie et tLogCatcher
  • tWarn
  • tStatCatcher
  • tFlowMeter et tFlowMeterCatcher
 Fonctionnalités avancées
  • Variables de contexte
  • Créer une variable de contexte
  • Utiliser une variable de contexte
  • Modifier une variable de contexte
  • Cascade de jobs
  • Les routines
Automatisation et documentation
  • Documenter ses jobs
  • Générer des scripts
 Module INGESTION DE DONNEES AVEC KAFKA et NiFi 2 joursRappel de Kafka
  • Kafka : une plateforme de données de flux
  • Aperçu de Kafka et de son efficacité
  • Producers, Brokers, Consumers
 Présentation de NiFi
  • Différence entre données froides et données chaudes
  • Présentation des outils et technologies Big Data
  • Hadoop (HDFS et MapReduce) et Spark
  • Installation et configuration de NiFi
  • Vue d’ensemble de l’architecture NiFi
  • Approches de développement
  • Outils de développement d’applications et état d’esprit
  • Extraction, transformation et chargement (ETL) des outils et de la mentalité
 Mise en oeuvre de NiFi
  • Considérations sur la conception
  • Composants, événements et modèles de processeur
  • La gestion des erreurs
  • Services de contrôleur
  • Tests et dépannage
  • Contribuer à Apache NiFi
 Module CONCEPTS DATAVIZ ET POWER BI 2 joursDATAVITZDécouvrir les tendances actuelles de la visualisation de données 
  • Comprendre la l’origine et la structu
Consultants, Ingénieurs, Développeurs, Administrateurs…
BAC + 5 scientifique
Connaissances en informatique

Formateur expert dans le domaine

  • 1 ordinateur par stagiaire, 1 support de cours par stagiaire (version papier ou numérique), 1 stylo et un bloc-notes par stagiaire
  • Vidéoprojecteur et tableau blanc
  • Feuille d’émargement à la demi-journée, questionnaire de satisfaction stagiaire, évaluations des acquis tout au long de la formation, attestation de stage
  • Éligible au CPF avec passage de certification TOSA ou PCIE (en option)

En amont de la formation

  • Audit par téléphone par nos commerciaux et formateurs
  • Tests d’auto-positionnement avant l’entrée en formation par le biais de questionnaire

Au cours de la formation

  • Exercices pratiques et mises en situation professionnelle pour valider la compréhension de chaque notion abordée dans le programme de cours.

En fin de formation

  • Validation des acquis par le formateur ou via un questionnaire renseigné par les stagiaires
  • Evaluation qualitative par les participants à l’issue de la formation via un questionnaire de satisfaction accessible en ligne
  • Une attestation de fin de formation reprenant les objectifs de formation est également remise aux stagiaires puis signée par le formateur

Modalités d’inscription

  • Inscription possible jusqu’à la veille de la formation, sous réserve de places disponibles, en nous contactant au 01 56 59 33 00 ou par mail formation@sii.fr

Modalités particulières

  • Nos formations sont accessibles aux personnes en situation de handicap. Renseignez-vous auprès de notre référente handicap au 01 56 59 33 00 ou par mail pedagogie@sii.fr

Réservez votre formation

Que cherchez-vous ?