Big data mise en oeuvre

Code : 407 Catégorie de la formation : Option compatible :

Objectifs

En situation de travail, vous serez capable de :
A l’issue de cette formation vous serez en mesure de :. Sélectionner des entrepôts de Big Data adaptés pour gérer plusieurs ensembles de données. Traiter des ensembles de données volumineux avec Hadoop pour faciliter la prise de décisions techniques et métier. Interroger des ensembles de données volumineux en temps réel
Durant la formation vous apprendrez à :
- Maitriser l’interface et les fonctionnalités du logiciel.
- Créer des documents simples ou complexes.
- Enregistrer et exporter dans les formats standards.

Prochaines sessions (si disponibles) :

Contenu de la formation

Big Data : enjeux et opportunités

Le Big Data et ses 5 grands défis : volume, variété, vélocité, véracité, validité

Données massives : Web, réseaux sociaux, Open Data, données scientifiques

Ouverture des données publiques : le mouvement Open Data

Interconnexion des données : le Linked Open Data

Variété, distribution, mobilité des données sur Internet

Vélocité et flux continus de données

Les enjeux pour les entreprises

Véracité et validité des données provenant de sources variées pour la prise de décision

Analyses complexes sur Big Data, Big Analytics

Production d’informations en temps réel à partir de Big Data

Croisement et visualisation de données publiques et privées

Réactivité : traitement de flux de données en temps réel, Complex Event Processing (CEP)

Exemples de succès et d’échecs de projets Big Data

Cloud et Big Data : le mariage parfait ?

Opportunités offertes par les progrès matériels

Le stockage : mémoires flash, disques HDD versus SSD, la nouvelle hiérarchie de mémoires

Bientôt 1 teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?

Processeurs multi-cœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle

Le stockage disque en réseau NAS/SAN : impact sur les architectures de gestion de données ?

Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité

Cloud et microserveurs

Architecture Concepts de base

Partage de données, définition et évolution de schéma, cohérence et protection des données

Requêtes, transactions, vues, contraintes d’intégrité et triggers

Optimisation et réglage, l’importance du placement et des index

Le modèle ACID (Atomicité, Cohérence, Isolation, Durabilité) des transactions

Transactions distribuées : le protocole 2PC, tolérance aux pannes et scalabilité

Réplication de données : cohérence des copies, propagation des mises à jour

Modèles de données

Le modèle relationnel : domaine de valeurs, relation, algèbre et calcul, le concept de valeur nulle

SQL2 : les types de données, les niveaux d’isolation, la portabilité

SQL3 : tables imbriquées, types complexes et extensions objet

Nouveaux modèles : clé-valeur, tabulaire, document, graphe, stream

L’analyse de données

Décisionnel et OLAP : le benchmark TPC-H, analyse multi-dimensionnelle

Business Intelligence et data mining : extraction de connaissances à partir des données

Architectures des SGBD

Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline

Architectures MPP: SMP et NUMA, cluster shared-disk, cluster shared-nothing

Motivations

La fin de l’approche « taille unique » du relationnel

Architecture 3-tiers dans le cloud

Le théorème CAP (Consistency, Availability, Partition tolerance) : analyse et impact

La pile logicielle big data

Les niveaux fonctionnels : stockage, organisation, traitement, intégration, outils d’analyse

La gestion de clusters

L’architecture Hadoop, comparaison avec l’architecture Lambda

Comparaison avec les SGBD relationnels

Techniques de base

Organisation des données : en ligne ou en colonne

Placement des données : partitionnement et sharding, réplication, indexation

Parallélisation des requêtes, équilibrage de charge

Haute disponibilité : le failover, les points de sauvegarde pour requêtes lourdes

Stockage de Big Data en fichiers distribués

Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre

Stockage clé-valeur

Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort

Contenu de la formation

Prochaines sessions (si disponibles) :

Retour haut de page

Contact

Parce que tout ne s’écrit pas sur un site internet,
Parce que nous aimons faire du sur-mesure,
Parce que rien ne remplace la relation humaine,
Parce qu’on aimerait bien discuter avec vous,
Laissez-nous un message et on vous recontacte !

Adresse

20, chemin de la Cépière
Bâtiment A. - 3e étage 31100 Toulouse

Email

contact@opus-fabrica.fr

Téléphone

05 34 61 33 90