Pour les demandes entreprises : (+1) 438 601-1155

Pour les demandes particuliers : (+1) 438 601-1155

A propos de la formation Formation Big Data & machine learning

Détails
Objectifs pédagogiques de la formation Formation Big Data & machine learning

Qui devrait suivre cette formation Formation Big Data & machine learning ?

Public visé par la formation Formation Big Data & machine learning

Ingénieurs, analystes, responsables marketing. Data Analysts, Data Scientists, Data Steward Toute personne intéressée par les techniques de Data Mining et de Machine Learning.

Prérequis de la formation Formation Big Data & machine learning

Il est recommandé d'avoir une culture générale de base en informatique (OS, base de données, etc.).

Formations Similaires

Déroulé de la formation Formation Big Data & machine learning


Partie 1: Big Data

Contexte et opportunités du Big Data

  • Les origines du Big Data
  • Les données au cœur des enjeux
  • Explosion du nombre de données
  • La place des objets connectés dans le Big Data
  • Données structurées, semi-structurées, non structurées
  • Comment disposer de données de « qualité » ?
  • Les limites des architectures actuelles
  • Définition d’un système Big Data
  • Différences entre BI, Big Data et Data Science ?

Sécurité éthique et enjeux juridiques du Big Data

  • Les données personnellesLes informations sensibles, interdites de collecte
  • La CNIL régule les données numériques
  • Les accords intra-pays

Open data

  • La philosophie des données ouvertes et les objectifs
  • Bénéfices escomptés
  • Synergie avec le Big Data

Les projets Big Data en entreprise

  • Spécificités d’un projet Big Data
  • Enjeux stratégiques et organisationnels
  • L’innovation constante accélère le phénomène
  • Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
  • Objets connectés et domotique
  • Zoom sur le marché des biens et services proposés aux consommateurs
  • Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
  • Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
  • Architectures décisionnelles d’aujourd’hui
  • Les lacs de données (Datalake) en pleine émergence
  • Exemple de cahier des charges

Architecture et infrastructure Big Data

  • Cohabitation des solutions SGBDR et NoSQL
  • Les outils permettant d’extraire les données (ETL)
  • La nécessité de “nettoyer” les données (dataquality)
  • Exemple de traitement avec un ETL dédié Big data
  • L’apport d’un MDM (Master Data Manager)
  • Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
  • Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)

L’analyse des données et la visualisation

  • Définition de l’analyse statistique
  • Requêter avec Hive
  • Analyser les données (Pig, Mahout, etc.)
  • Intégrer les données grâce à Sqoop

Le développement d’applications Big Data

  • La philosophie de MapReduce (clef, valeur)
  • L’apport d’Apache Spark
  • Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
  • Interconnexion avec les outils SPSS, R, SAS
  • Conclusion : quelle famille et quel type de langage pour quel besoin ?

La visualisation des données (Dataviz)

  • Ce que les statistiques ne disent pas
  • Data visualisation et cas d'usage concrets
  • Quels graphes pour quels usages ?
  • Représentation de données complexes (encodage visuel, visualisation interactive)
  • Savoir communiquer sur les analyses de données (Data Storytelling)
  • Synthèse des principaux outils utilisés dans les projets

Démonstration d’un environnement distribué Hadoop

  • Les moteurs de recherche de grande envergure
  • Présentation Lucene, Solr
  • Mécanisme de traitement
  • Gestion des journaux applicatifs
  • Mécanismes et architecture Apache Flume
  • La relation entre Cloud et Big Data
  • Motivation entre clouds publics et privés
  • Les clouds de stockage
  • Se reconcentrer sur les problématiques métiers, grâce aux services managés

Partie 2: Machine Learning

 

Introduction à la formation Machine Learning

  • Intelligence Artificielle, Big Data, Data Science et Machine Learning : définitions et principes fondamentaux
  • Retour historique sur l’apprentissage automatique
  • Champs d’application du machine learning
  • Terminologie (étiquette, caractéristique, modèle, inférence…)
  • Exemples de mise en œuvre du machine learning
  • Principaux outils : Jupyter notebooks, scikit-learn, Pandas, BigML, Dataiku

Rappels mathématiques (vecteurs, loi normale, probabilité conditionnelle…)

Rappels sur la programmation en Python et notebooks Jupyter
Catégorisation des techniques et algorithmes d’apprentissage

  • Apprentissage supervisé
  • Classification et régression
  • Apprentissage non-supervisé
  • Clustering
  • Principaux algorithmes : Support Vector Machines, modèles de probabilité, arbres de décision, etc
  • Modéliser les problématiques d’entreprise en problèmes de machine learning
  • Workflow pour la construction d’un modèle
  • Choisir un type d’apprentissage et un algorithme pertinents

Obtention et préparation des données

  • Rappels sur les données (format, structuration, collecte, visualisation, interprétation)
  • Obtenir les données
  • La librairie open source scikit-learn
  • Techniques d’exploration des données
  • Feature Engineering (ingénierie des caractéristiques)
  • Extraction et sélection des features
  • Réduction de la dimension des données
  • L’analyse en composantes principales (PCA)

Evaluation des modèles d’apprentissage

  • Partitionner les données en ensembles d’apprentissage, de test et de validation
  • Exemples pour l’entraînement d’un modèle
  • Exemples pour le test d’un modèle
  • Mesures de performance : précision et rappel, matrices de confusion, cross-validation
  • Généralisation et risque de surapprentissage
  • L’intuition derrière les techniques d’apprentissage

Régression

  • Principaux cas d’utilisation
  • Régression linéaire simple
  • Méthode des moindres carrés ordinaire
  • Fonction de coût et algorithme du gradient
  • Régularisation : régression ridge et lasso
  • Les différents types de régression : multiple, polynomiale, SVR, arbre de décision, random forest, etc
  • Les métriques de la régression

Classification

  • Principaux cas d’utilisation
  • Régression logistique
  • Méthode des k plus proches voisins (k-NN)
  • Machine à vecteurs de support (SVM)
  • Kernel SVM
  • Classification naïve bayésienne (Naive Bayes)
  • Classification avec un arbre de décision et random forest
  • Les métriques de la classification

Clustering (segmentation)

  • Principes et principaux algorithmes
  • Méthode des k-moyennes (k-means)
  • Clustering hiérarchique
  • Clustering par densité

Introduction au Deep Learning (apprentissage profond)

  • Présentation générale et principes du Deep Learning
  • Les réseaux neuronaux artificiels
  • La bibliothèque TensorFlow
  • Cas d’utilisation, défis et perspectives

Formations Similaires
Qlikview Détails
Qlik Sense Détails
SAP HANA Détails
SAP BI(BO) Détails
Suite Microsoft (SSIS-SSAS-SSRS) Détails
Data Science Détails
Python Détails
Talend Détails
Microsoft BI (MCSE) Détails
Microsoft Power BI Détails
sap bi / bw Détails
Informatica PowerCenter Détails
Formation Big Data & machine learning Détails

Vous pouvez faire l’inscription ou la demande du devis avec un seul click