Big Data : enjeux et opportunités
Le Big Data et ses 5 grands défis : volume, variété, vélocité, véracité, validité
Données massives : Web, réseaux sociaux, Open Data, données scientifiques
Ouverture des données publiques : le mouvement Open Data
Interconnexion des données : le Linked Open Data
Variété, distribution, mobilité des données sur Internet
Vélocité et flux continus de données
Les enjeux pour les entreprises
Véracité et validité des données provenant de sources variées pour la prise de décision
Analyses complexes sur Big Data, Big Analytics
Production d’informations en temps réel à partir de Big Data
Croisement et visualisation de données publiques et privées
Réactivité : traitement de flux de données en temps réel, Complex Event Processing (CEP)
Exemples de succès et d’échecs de projets Big Data
Cloud et Big Data : le mariage parfait ?
Opportunités offertes par les progrès matériels
Le stockage : mémoires flash, disques HDD versus SSD, la nouvelle hiérarchie de mémoires
Bientôt 1 teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
Processeurs multi-cœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle
Le stockage disque en réseau NAS/SAN : impact sur les architectures de gestion de données ?
Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité
Cloud et microserveurs
Architecture Concepts de base
Partage de données, définition et évolution de schéma, cohérence et protection des données
Requêtes, transactions, vues, contraintes d’intégrité et triggers
Optimisation et réglage, l’importance du placement et des index
Le modèle ACID (Atomicité, Cohérence, Isolation, Durabilité) des transactions
Transactions distribuées : le protocole 2PC, tolérance aux pannes et scalabilité
Réplication de données : cohérence des copies, propagation des mises à jour
Modèles de données
Le modèle relationnel : domaine de valeurs, relation, algèbre et calcul, le concept de valeur nulle
SQL2 : les types de données, les niveaux d’isolation, la portabilité
SQL3 : tables imbriquées, types complexes et extensions objet
Nouveaux modèles : clé-valeur, tabulaire, document, graphe, stream
L’analyse de données
Décisionnel et OLAP : le benchmark TPC-H, analyse multi-dimensionnelle
Business Intelligence et data mining : extraction de connaissances à partir des données
Architectures des SGBD
Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline
Architectures MPP: SMP et NUMA, cluster shared-disk, cluster shared-nothing
Motivations
La fin de l’approche « taille unique » du relationnel
Architecture 3-tiers dans le cloud
Le théorème CAP (Consistency, Availability, Partition tolerance) : analyse et impact
La pile logicielle big data
Les niveaux fonctionnels : stockage, organisation, traitement, intégration, outils d’analyse
La gestion de clusters
L’architecture Hadoop, comparaison avec l’architecture Lambda
Comparaison avec les SGBD relationnels
Techniques de base
Organisation des données : en ligne ou en colonne
Placement des données : partitionnement et sharding, réplication, indexation
Parallélisation des requêtes, équilibrage de charge
Haute disponibilité : le failover, les points de sauvegarde pour requêtes lourdes
Stockage de Big Data en fichiers distribués
Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre
Stockage clé-valeur
Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort