01 56 59 33 00
united-kingdom

FORMATION BIG DATA – ARCHITECTURE ET TECHNOLOGIES

4-IT-ART
4-IT-ART
Durée : 3 jour(s)
soit 21 heures
Programmes
1. Les questions clés à se poser lors de la mise en place d’un projet Big Data
  • Quels sont les différents cas d’usage de l’application ?
  • Quelles sont les sources de données ?
  • Les mesures de qualité et de performances ?
  • Quel est le cycle de vie de la donnée ?
  • Par quelles transformations passe-t-elle ?
  • Comment la gouverner ?
  • Comment gérer les différentes charges de travail et héberger des projets différents sur la même infrastructure ?
  • Quelles sont les principaux modèles d’architecture d’un SI Big Data ?
  • C’est quoi le « Data Lake » ?
  • Comment dimensionner l’infrastructure et mesurer la scalabilité du système ?
  • C’est quoi le cycle de vie d’un projet Big Data ?
  • Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ?
  • Comparaison des principales distributions d’Hadoop : Apache Hadoop vs HortonWorks vs Cloudera vs MapR
2. Architecture Big Data
  • Limites des architectures classiques
  • Avantages des nouvelles architectures Big Data
  • Structures différentes de données (structurées, semi-structurées et non structurées)
  • Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage
  • Performances élevées du traitement de données massives sous différentes latences (Batch ou en Streaming) et scalabilité en termes de traitements Haute disponibilité
  • Agilité du système et son impact positif sur son évolution et sa maintenance
  • Impact sur l’entreprise et sa transformation en Client-Centric
  • Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
  • Architecture du Data Lake et centralisation des données
  • Cas d’usages basés sur le Data Lake
  • Le modèle « en couches » de données
  • Data Lake vs Data Warehouse
  • La qualité de la donnée (Dataquality) dans un système Big Data
  • Causes du problème de la qualité de données dans les systèmes Big Data
  • Mise en place de la Gouvernance Applicative pour assurer la qualité des données
  • La qualité des traitements dans un système Big Data
  • Importance de la supervision des chaînes de traitements
  • Exploitation efficaces des logs et détection des anomalies en temps réelle
  • Mise en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle
  • Types d’architectures Big Data selon les exigences temporelles architectures
  • Batch Architectures
  • Streaming Lambda Architectures
3. Tour d’horizon sur les technologies Big Data classées par cas d’usage
  • Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data
  • Historique des technologies Big Data : Google’s GFS & MapReduce
  • Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc.
  • Classification des outils du Big Data selon leurs cas d’usage : Stockage et traitement de la donnée (Le système de fichiers distribué de Hadoop (HDFS), MapReduce, YARN, Spark)
  • Les bases de données et la gestion des données (Définition du NoSQL, NoSQL Vs SGBD Relationnels, Classification des bases de données NoSQL selon leurs types et leurs cas d’usages)
  • La sérialisation (Avro, JSON, Parquet)
  • Le management et le monitoring (Ambari, HCatalog, ZooKeeper, Oozie)
  • L’analyse et la visualisation des données (Spark MLIB, Mahout, Hadoop Streaming, Pig et MapReduce v. Hadoop Image Processing Interface (HIPI))
  • Recherche (Elasticsearch, Solr)
  • Le transfert des données (Sqoop, Flume, DistCP, Storm v. Kafka)
  • La sécurité et le contrôle d’accès (Kerberos , Ranger, Sentry , Knox)
4. Solutions Big Data sur le Cloud 5. Retour d’expérience sur les Frameworks et les outils Big Data utilisés : avantages, limites et leurs évolutions
Objectifs
Connaître les technologies pour mettre en place un projet Big Data et construire l’architecture associée
Prérequis
Connaissance de l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques
Profil des participants
Connaître les technologies pour mettre en place un projet Big Data et construire l’architecture associée
Dates des prochaines sessions :
Connaître les technologies pour mettre en place un projet Big Data et construire l’architecture associée
1. Les questions clés à se poser lors de la mise en place d’un projet Big Data
  • Quels sont les différents cas d’usage de l’application ?
  • Quelles sont les sources de données ?
  • Les mesures de qualité et de performances ?
  • Quel est le cycle de vie de la donnée ?
  • Par quelles transformations passe-t-elle ?
  • Comment la gouverner ?
  • Comment gérer les différentes charges de travail et héberger des projets différents sur la même infrastructure ?
  • Quelles sont les principaux modèles d’architecture d’un SI Big Data ?
  • C’est quoi le « Data Lake » ?
  • Comment dimensionner l’infrastructure et mesurer la scalabilité du système ?
  • C’est quoi le cycle de vie d’un projet Big Data ?
  • Quelles sont les compétences nécessaires pour réussir dans la mise en place d’un projet Big Data ?
  • Comparaison des principales distributions d’Hadoop : Apache Hadoop vs HortonWorks vs Cloudera vs MapR
2. Architecture Big Data
  • Limites des architectures classiques
  • Avantages des nouvelles architectures Big Data
  • Structures différentes de données (structurées, semi-structurées et non structurées)
  • Stockage de grandes quantités de données à moindre coût et Scalabilité en termes de stockage
  • Performances élevées du traitement de données massives sous différentes latences (Batch ou en Streaming) et scalabilité en termes de traitements Haute disponibilité
  • Agilité du système et son impact positif sur son évolution et sa maintenance
  • Impact sur l’entreprise et sa transformation en Client-Centric
  • Le Data Lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
  • Architecture du Data Lake et centralisation des données
  • Cas d’usages basés sur le Data Lake
  • Le modèle « en couches » de données
  • Data Lake vs Data Warehouse
  • La qualité de la donnée (Dataquality) dans un système Big Data
  • Causes du problème de la qualité de données dans les systèmes Big Data
  • Mise en place de la Gouvernance Applicative pour assurer la qualité des données
  • La qualité des traitements dans un système Big Data
  • Importance de la supervision des chaînes de traitements
  • Exploitation efficaces des logs et détection des anomalies en temps réelle
  • Mise en place de tableaux de bord pour la visualisation de la qualité des traitements en temps réelle
  • Types d’architectures Big Data selon les exigences temporelles architectures
  • Batch Architectures
  • Streaming Lambda Architectures
3. Tour d’horizon sur les technologies Big Data classées par cas d’usage
  • Limites des outils et des paradigmes classiques qui ont mené à l’apparition des technologies Big Data
  • Historique des technologies Big Data : Google’s GFS & MapReduce
  • Principaux Frameworks du Big Data : Hadoop, Spark, Storm, etc.
  • Classification des outils du Big Data selon leurs cas d’usage : Stockage et traitement de la donnée (Le système de fichiers distribué de Hadoop (HDFS), MapReduce, YARN, Spark)
  • Les bases de données et la gestion des données (Définition du NoSQL, NoSQL Vs SGBD Relationnels, Classification des bases de données NoSQL selon leurs types et leurs cas d’usages)
  • La sérialisation (Avro, JSON, Parquet)
  • Le management et le monitoring (Ambari, HCatalog, ZooKeeper, Oozie)
  • L’analyse et la visualisation des données (Spark MLIB, Mahout, Hadoop Streaming, Pig et MapReduce v. Hadoop Image Processing Interface (HIPI))
  • Recherche (Elasticsearch, Solr)
  • Le transfert des données (Sqoop, Flume, DistCP, Storm v. Kafka)
  • La sécurité et le contrôle d’accès (Kerberos , Ranger, Sentry , Knox)
4. Solutions Big Data sur le Cloud 5. Retour d’expérience sur les Frameworks et les outils Big Data utilisés : avantages, limites et leurs évolutions
Connaître les technologies pour mettre en place un projet Big Data et construire l’architecture associée
Connaissance de l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques

Formateur expert dans le domaine

  • 1 ordinateur par stagiaire, 1 support de cours par stagiaire (version papier ou numérique), 1 stylo et un bloc-notes par stagiaire
  • Vidéoprojecteur et tableau blanc
  • Feuille d’émargement à la demi-journée, questionnaire de satisfaction stagiaire, évaluations des acquis tout au long de la formation, attestation de stage
  • Éligible au CPF avec passage de certification TOSA ou PCIE (en option)

En amont de la formation

  • Audit par téléphone par nos commerciaux et formateurs
  • Tests d’auto-positionnement avant l’entrée en formation par le biais de questionnaire

Au cours de la formation

  • Exercices pratiques et mises en situation professionnelle pour valider la compréhension de chaque notion abordée dans le programme de cours.

En fin de formation

  • Validation des acquis par le formateur ou via un questionnaire renseigné par les stagiaires
  • Evaluation qualitative par les participants à l’issue de la formation via un questionnaire de satisfaction accessible en ligne
  • Une attestation de fin de formation reprenant les objectifs de formation est également remise aux stagiaires puis signée par le formateur

Modalités d’inscription

  • Inscription possible jusqu’à la veille de la formation, sous réserve de places disponibles, en nous contactant au 01 56 59 33 00 ou par mail formation@sii.fr

Modalités particulières

  • Nos formations sont accessibles aux personnes en situation de handicap. Renseignez-vous auprès de notre référente handicap au 01 56 59 33 00 ou par mail pedagogie@sii.fr

Réservez votre formation

Que cherchez-vous ?