Ingénierie des données sur Google Cloud Platform

Ce cours de quatre jours dirigé par un instructeur offre aux participants une introduction pratique à la conception et à la création de pipelines de données sur Google Cloud Platform. Grâce à une combinaison de présentations, de démonstrations et de travaux pratiques, les participants apprendront à concevoir des systèmes de traitement des données, à créer des pipelines de données de bout en bout, à analyser les données et à en tirer des enseignements. Le cours couvre les données structurées, non structurées et en streaming.

Sujets couverts

Ingénierie des données sur Google Cloud Platform

Les données

Apprentissage automatique

Conditions préalables:

Pour tirer le meilleur parti de ce cours, les participants doivent avoir:

Google Cloud Fundamentals: cours Big Data et Machine Learning terminés OU ont une expérience équivalente

Compétence de base avec un langage de requête commun tel que SQL

Expérience avec la modélisation des données, extraire, transformer, charger des activités

Développement d'applications à l'aide d'un langage de programmation commun tel que Python

Connaissance de l'apprentissage automatique et / ou des statistiques

Objectifs:

Ce cours enseigne aux participants les compétences suivantes:

Concevez et construisez des systèmes de traitement des données sur Google Cloud Platform

Traitez les données par lots et en continu en mettant en œuvre des pipelines de données de mise à l'échelle automatique sur Cloud Dataflow

Obtenez des informations commerciales à partir de jeux de données extrêmement volumineux à l'aide de Google BigQuery

Former, évaluer et prévoir à l'aide de modèles d'apprentissage automatique à l'aide de Tensorflow et Cloud ML

Tirez parti des données non structurées à l'aide des API Spark et ML sur Cloud Dataproc

Activez des informations instantanées à partir de données en streaming

Public:

Cette classe est destinée aux développeurs chargés de:

Extraction, chargement, transformation, nettoyage et validation des données

Conception de pipelines et d'architectures pour le traitement des données

Intégration de capacités d'analyse et d'apprentissage automatique dans les pipelines de données

Interroger des ensembles de données, visualiser les résultats des requêtes et créer des rapports

Plan de cours

Le cours comprend des présentations, des démonstrations et des travaux pratiques.

Module 1: Introduction à l'ingénierie des données

  • Explorez le rôle d'un ingénieur de données
  • Analyser les défis de l'ingénierie des données
  • Introduction à BigQuery
  • Lacs de données et entrepôts de données
  • Démo: requêtes fédérées avec BigQuery
  • Bases de données transactionnelles vs entrepôts de données
  • Démonstration de site Web: recherche de PII dans votre ensemble de données avec l'API DLP
  • Collaborez efficacement avec d'autres équipes de données
  • Gérez l'accès aux données et la gouvernance
  • Construisez des pipelines prêts pour la production
  • Examiner l'étude de cas client GCP
  • Atelier: Analyse des données avec BigQuery

Module 2: Construire un Data Lake

  • Introduction à Data Lakes
  • Options de stockage de données et ETL sur GCP
  • Création d'un Data Lake à l'aide de Cloud Storage
  • Démo en option: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
  • Sécurisation du stockage cloud
  • Stockage de toutes sortes de types de données
  • Démonstration vidéo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
  • Cloud SQL en tant que Data Lake relationnel
  • Atelier: Chargement des données de taxi dans Cloud SQL

Module 3: Construire un entrepôt de données

  • L'entrepôt de données moderne
  • Introduction à BigQuery
  • Démo: interrogez TB + de données en quelques secondes
  • Commencer
  • Chargement des données
  • Démo vidéo: interrogation de Cloud SQL à partir de BigQuery
  • Atelier: Chargement de données dans BigQuery
  • Explorer les schémas
  • Démo: Explorer les ensembles de données publics BigQuery avec SQL à l'aide de INFORMATION_SCHEMA
  • Conception de schéma
  • Champs imbriqués et répétés
  • Démo: champs imbriqués et répétés dans BigQuery
  • Travaux pratiques: utilisation des données JSON et des tableaux dans BigQuery
  • Optimisation avec le partitionnement et le clustering
  • Démo: Tables partitionnées et groupées dans BigQuery
  • Aperçu: Transformation des données de lot et de streaming

Module 4: Introduction à la construction de pipelines de données par lots,

  • EL, ELT, ETL
  • Considérations de qualité
  • Comment effectuer des opérations dans BigQuery
  • Démo: ELT pour améliorer la qualité des données dans BigQuery
  • Lacunes
  • ETL pour résoudre les problèmes de qualité des données

Module 5: Exécution de Spark sur Cloud Dataproc

  • L'écosystème Hadoop
  • Exécution de Hadoop sur Cloud Dataproc
  • GCS au lieu de HDFS
  • Optimisation de Dataproc
  • Atelier: Exécution de travaux Apache Spark sur Cloud Dataproc

Module 6: Traitement des données sans serveur avec Cloud Dataflow

  • Cloud Dataflow
  • Pourquoi les clients apprécient Dataflow
  • Pipelines de flux de données
  • Laboratoire: Un pipeline de flux de données simple (Python / Java)
  • Atelier: MapReduce dans Dataflow (Python / Java)
  • Travaux pratiques: entrées latérales (Python / Java)
  • Modèles de flux de données
  • Dataflow SQL

Module 7: Gérer les pipelines de données avec Cloud Data Fusion et Cloud Composer

  • Création visuelle de pipelines de données par lots avec Cloud Data Fusion
  • Composants
  • Présentation de l'interface utilisateur
  • Construire un pipeline
  • Explorer les données à l'aide de Wrangler
  • Travaux pratiques: création et exécution d'un graphique de pipeline dans Cloud Data Fusion
  • Orchestrer le travail entre les services GCP avec Cloud Composer
  • Environnement Apache Airflow
  • DAG et opérateurs
  • Planification du workflow
  • Démo longue en option: chargement des données déclenché par un événement avec Cloud Composer, les fonctions cloud, le stockage cloud et BigQuery
  • Surveillance et journalisation
  • Atelier: Une introduction à Cloud Composer

Module 8: Introduction au traitement des données en streaming

  • Traitement des données en streaming

Module 9: Messagerie sans serveur avec Cloud Pub / Sub

  • Cloud Pub / Sub
  • Atelier: publier des données de streaming dans Pub / Sub

Module 10: Fonctionnalités de streaming de flux de données cloud

  • Fonctionnalités de streaming Cloud Dataflow
  • Laboratoire: Streaming Data Pipelines

Module 11: Fonctionnalités de streaming BigQuery et Bigtable à haut débit

  • Fonctionnalités de streaming BigQuery
  • Atelier: Streaming Analytics et Dashboards
  • Cloud Bigtable
  • Atelier: Streaming de pipelines de données dans Bigtable

Module 12: Fonctionnalité et performances avancées de BigQuery

  • Fonctions de fenêtre analytique
  • Utilisation avec des clauses
  • Fonctions SIG
  • Démo: Cartographie des codes postaux à croissance rapide avec BigQuery GeoViz
  • Considérations sur les performances
  • Atelier: Optimisation de vos requêtes BigQuery pour les performances
  • Atelier facultatif: création de tables partitionnées par date dans BigQuery

Module 13: Introduction à l'analytique et à l'IA

  • Qu'est-ce que l'IA ?
  • De l'analyse de données ad hoc aux décisions basées sur les données
  • Options pour les modèles ML sur GCP

Module 14: API de modèle ML prédéfinies pour les données non structurées

  • Les données non structurées sont difficiles
  • API ML pour enrichir les données
  • Atelier: Utilisation de l'API Natural Language pour classer le texte non structuré

Module 15: Big Data Analytics avec les ordinateurs portables Cloud AI Platform

  • Quel est un ordinateur portable
  • BigQuery Magic et liens avec les pandas
  • Lab: BigQuery dans Jupyter Labs sur AI Platform

Module 16: Pipelines de production ML avec Kubeflow

  • Façons de faire ML sur GCP
  • Kubeflow
  • AI Hub
  • Atelier: Exécution de modèles d'IA sur Kubeflow

Module 17: Création de modèle personnalisé avec SQL dans BigQuery ML

  • BigQuery ML pour la création rapide de modèles
  • Démo: entraînez un modèle avec BigQuery ML pour prévoir les tarifs de taxi à New York
  • Modèles pris en charge
  • Option de laboratoire 1: prédire la durée du trajet en vélo avec un modèle de régression en BQML
  • Option de laboratoire 2: Recommandations de films dans BigQuery ML

Module 18: Création de modèle personnalisé avec Cloud AutoML

  • Pourquoi Auto ML ?
  • Auto ML Vision
  • Auto ML NLP
  • Tables ML automatique

Tags: , , ,