Construisez votre plateforme de données

Chez Qweri, nous pensons qu’il est essentiel de collecter, structurer et réconcilier ses données. Pour cela nous déployons des plateformes de données.


Temps de lecture : 5 minutes

 

 

 

Qu’est-ce qu’une plateforme de données ?

 

 

 

Une plateforme de données est un écosystème complet permettant de gérer le parcours des données de bout en bout. Elle assure la gestion des flux, le stockage, le traitement et l’analyse des données. Pour les entreprises, l’objectif principal d’une plateforme de données est de pouvoir stocker et surtout centraliser les données en un seul endroit. Cela permet de simplifier l’accès aux données et la répartition de l’information. Une plateforme de données peut également être appelée DMP pour Data Management Platform ou encore CDP pour Customer Data Platform.


Aujourd’hui les infrastructures de données sont souvent en silos, c’est-à-dire que les données n’interagissent pas et ne peuvent pas se croiser. Au sein d’une entreprise, les données sont souvent gérées par pôle d’activité, les données logistiques, les données marketing, les données de ventes… Sans croisement de toutes ces sources de données, il est difficile de prendre des décisions stratégiques globales. Nous pensons qu’avec un système centralisé et tentaculaire, la puissance d’analyse est décuplée, ce qui permet une vision globale et stratégique de tous les enjeux.

 

Par exemple, pour un site e-commerce, une plateforme de données peut accompagner concrètement tous les services :

 

  • Direction Marketing : Suivi du taux de churn, de l’acquisition, des coûts médias, des performances du CRM, des codes promo, profils utilisateurs…
  • Direction Commerciale : Suivi des achats, des ventes produits…
  • Responsable Logistique : Suivi du taux de service, de la valeur de stock, de la rentabilité par transporteur…
  • Responsable Service Client : Suivi du NPS, du temps de réponse, du taux de résolution…
  • Direction générale : Suivi du chiffre d’affaires, suivi de la marge…
  • DSI : Suivi de la santé du site, des performances…

 

En résumé, l’objectif d’une plateforme de données est d’aider une entreprise à centraliser, stocker, protéger et exploiter l’ensemble de ses données. 

 

 

Les avantages d’une plateforme de données

Une plateforme de données présentes de nombreux avantages pour une entreprise :

 

  • Centralisation des sources de données brutes et des requêtes au sein d’une même plateforme : Lorsqu’un développeur ou un ingénieur data arrive dans une entreprise, il peut rapidement trouver toutes les sources de données, comprendre toutes les requêtes mises en place et se former sur un seul outil. Les automatisations et les requêtes programmées sont gérées via une seule plateforme, ce qui simplifie les modifications et les correctifs. Enfin, il n’y a qu’un seul centre de coût, cela simplifie la facturation et évite les potentiels frais cachés.

  • Gouvernance des données : simplification des accès avec un système centralisé de gestion des rôles et des IAM, cela est très important notamment dans le cadre du RGPD et du rôle DPO. En effet, en cas de contrôle de la CNIL, l’accès aux données doit être justifié. Un système centralisé permet de contrôler finement les accès à la plateforme en toute sécurité.

  • Scalabilité de la plate-forme : elle peut être construite brique par brique sous forme d’itération. C’est un système qui fonctionne bien avec les méthodes agiles et les pôles IT. De plus, en cas de migration de CMS e-commerce par exemple, il est très simple de connecter la nouvelle source et modifier les requêtes pour avoir des données à jour.

  • Puissance des analyses : Une plateforme sur une solution cloud comme Google Cloud Platform (GCP) est très puissante et peut analyser un très gros volume de données. Cette plateforme peut être intégrée à des technologies basés sur l’intelligence artificielle comme BigQuery ML.

En résumé, notre offre de plateforme de données s’adapte à vos besoins, il est possible de mettre le curseur selon les exigeances de votre entreprise. Si vous souhaitez des rapports en temps réel, les transferts de données peuvent être adaptés, et inversement. L’objectif est d’avoir un outil sur-mesure et utile. 

Quels outils pour une plateforme de données ?

Il existe aujourd’hui de nombreux outils pour créer et consolider une plateforme de données pour une entreprise. Les GAFA ont pratiquement tous leurs plateformes applicatives Cloud, Microsoft possède Azure, Amazon possède AWS et Google possède GCP. 

Chez Qweri, nous utilisons essentiellement tout l’écosystème GCP avec les outils suivants :

 

  • Cloud Storage
  • Cloud SQL

  • BigQuery

  • Cloud Functions

Pourquoi Google ? Car c’est un outil avec une puissance de calcul très avancée et que la plupart des solutions marketing possèdent des connecteurs BigQuery.

Pour les tableaux de bord, Bigquery possède des connecteurs avec Google Data Studio, PowerBI, Tableau Software, Qlik (les solutions les plus plébiscitées par le marché).

 


Il est également possible d’utiliser des outils de no code comme Zapier ou Make pour envoyer ou extraire des données depuis BigQuery. Enfin, il est possible de déverser des données provenant d’un bucket AWS sur BigQuery. 

L’intérêt du cloud et de Google Cloud Platform est la flexibilité, les outils disposent de nombreuses fonctionnalités et d’API fournis pour s’adapter aux besoins et aux contraintes d’une entreprise. Par exemple, dans le cadre d’un projet de data science, il est possible d’envoyer des données Bigquery dans des algorithmes de machine learning via Bigquery ML.

Une plateforme de données vous intéresse ?

Combien coûte une plateforme de données ?

Une plateforme de données est un outil sur-mesure. 

Il n’y a donc pas de de prix défini. Cela dépend en effet du nombre de sources de données, de la complexité et de la fréquence des requêtes. 

Globalement, les outils comme GCP adaptent leur prix en fonction des volumes de données traités. Si votre plateforme brasse des Teras Octets de données, elle coûtera plus que des Gigas Octets. Cependant, les systèmes de facturation des outils Cloud permettent d’anticiper les coûts et d’identifier précisément les processus les plus coûteux.

 

Le système de tarification de Google Bigquery possède deux volets : 

  • Le coût de stockage des données
  • Le coût d’analyse des données

Le coût de stockage

Toutes les données chargées dans Google Bigquery sont stockées dans des tables. Selon la quantité stockée, le coût mensuel sera différent.

Les 10 premiers Go sont gratuits. De plus, il y a également un coût pour les fichiers stockées sur Google Cloud Storage, le coût est de 0,020 $ par Go.

Le coût d’analyse des données

Les traitements et les agrégations de données via des requêtes SQL ont un coût en fonction du volume de données analysées. 

Le premier To est gratuit chaque mois. 

Et concrètement ?

Globalement pour nos clients, le coût par mois de leurs plateformes de données oscille entre 0,5€ et 10€. Cela dépend de la quantité de données, de la complexité des requêtes et de la fréquence. Par exemple, si vous souhaitez un suivi du chiffre d’affaires rafraîchi toutes les heures, le coût d’analyse sera plus élevé qu’un suivi quotidien.


Dans tous les cas, il est assez rare que l’outillage de la plateforme dépasse 100€ par mois.

Chez Qweri, il est fondamental pour nous que le client soit propriétaire de sa plateforme de données. Nos ingénieurs data s’occupent du déploiement et de la maintenance de la plateforme. Nous ne sommes jamais propriétaires des données et du système déployé. Nous fournissons également une documentation pour que le fonctionnement de la plateforme puisse être géré par une équipe interne si besoin.

 

 

Une plateforme de données n’est pas synonyme d’usine à gaz, en effet, l’idéal est de construire un entrepôt brique par brique avec des itérations.

Par exemple, en 8 à 10 jours de travail, nous avons récupéré et automatisé toutes les données e-commerce de notre client et créé des tableaux de bord sur Google Data Studio de :

 

  • Suivi des commandes
  • Suivi des produits
  • Suivi du chiffre d’affaires
  • Suivi de la marge
  • Suivi des transporteurs
  • Segmentation client

Cela a permis de réaliser que notre client perdait de l’argent lorsqu’un internaute utilisait un de ses transporteurs. Notre client n’en avait pas conscience avant la mise en place de la plateforme, il a donc pu adapter sa stratégie et rehausser sa marge avec de nouvelles règles logistiques.

Comprendre le fonctionnement d’une plateforme de données

Les modèles OLTP et OLAP

Le modèle OLTP

Le modèle OnLine Transaction Processing est le système classique de gestion des données. Il est utilisé par les équipes IT pour stocker des données transactionnelles. Par exemple, sur un site web e-commerce, les données sont mises à jour en temps réel (nouvelle commande, suivi de commande…). Une base de données SQL classique pour un site web suit le processus OLTP. 

 

Le modèle OLTP possède des caractéristiques spécifiques pour atteindre l’intégrité et la fiabilité des données :

 

  • Unicité et intégrité : les données sont stockées dans un seul endroit
  • Mise à jour en temps réel : les actions d’ajout, de modification ou de suppression de ligne dans une base de données est en temps réel
  • Rapidité : le temps de réponses des requêtes est en milliseconde
  • Simplicité : les requêtes effectuées sont simples avec peu d’agrégations

Le modèle OLAP

Le modèle OnLine Analytical Processing est le système utilisé par les équipes Data (Analyst, Ingénieur ou Scientist). Il s’agit de l’agrégation des données transactionnelles. Globalement, le modèle OLAP est la transformation dans un but analytique des données présentes dans le modèle OLTP. 

 

Le modèle OLAP possède des caractéristiques spécifiques dans le but d’avoir la capacité d’effectuer des agrégations et calculs complexes  : 

 

  • Exhaustivité : les données sont stockées dans plusieurs tables de reporting
  • Mise à jour par lot : les données sont récupérées sous forme de lots (batch) périodiques
  • Lenteur : le temps de réponses des requêtes est en seconde voir en heures
  • Complexité : les requêtes effectuées sont complexes avec de nombreuses jointures

Les processus ETL et ELT

Vous avez sans doute déjà entendu parler d’ETL ou encore de pipeline de données. Peut-être plus rarement d’ELT. Les processus Extract Transform & Load (ETL) et Extract Load & Transform (ELT permettent de transformer des données d’un modèle OLTP à un modèle OLAP. 

Ils se décomposent en 3 principes : 

 

  • Extract : Récupération des données brutes auprès de leurs sources
  • Transform : Structuration, enrichissement et agrégation des données dans de nouvelles tables
  • Load : Chargement des données dans la plateforme de données

La partie Transform est l’étape la plus complexe puisqu’il s’agit de croiser des données via des requêtes plus ou moins complexes en respectant ces différentes contraintes :

 

  • Rapidité de la requête
  • Coût de la requête
  • Simplicité du code
  • Fiabilité des données

Vous l’aurez compris, la différence entre l’ETL et l’ELT provient uniquement de l’étape de transformation. 

Historiquement, tous les projets datas utilisent le processus ETL avec la mise en place de pipeline de données et de préparation de fichiers avec des outils comme Talend. 

 

Avec l’arrivée du Cloud, les puissances de calcul se sont développées et améliorées. Il est donc plus facile de transformer directement des données brutes dans la plateforme plutôt que de les transformer en amont. Chez Qweri, nous favorisons donc le processus ELT pour que toutes les transformations soient centralisées.

 

En résumé : 

ETL = Les données sont transformées avant d’être importées dans l’entrepôt de données.

ELT = Les données sont importées brutes dans l’entrepôt et transformées à postériori.

 

La révolution Cloud

Comme évoqué précédemment, le Cloud a révolutionné les systèmes de gestion des données notamment grâce à la parallélisation. 

La parallélisation est une méthode où, pour le même calcul, plusieurs processeurs sont utilisés en parallèle. Grâce au Cloud, des solutions comme BigQuery mettent à disposition des centaines de processeurs pour une requête SQL avec un coût pratiquement nul. 

 

Pour bien comprendre la parallélisation voici un exemple simple :

Le calcul est 18 + 25 + 64 + 28 + 98 + 23 + 45 + 87 + 23

 

Sans parallélisation, le calcul est effectué de gauche à droite, addition par addition. 

Avec la parallélisation les processeurs se répartissent le calcul : 

  • Processeur A : 18 + 25 + 64 = 107
  • Processeur B : 28 + 98 + 23 = 149
  • Processeur C : 45 + 87 + 23 = 155
  • Processeur D : 107 + 149 + 155 = 411

Le calcul est plus rapide, les coûts de traitements sont donc réduits.

Le fonctionnement d’une plateforme de données

Comme son nom l’indique, une plateforme est un système global regroupant plusieurs entités interconnectées. 

Fonctionnement d'une plateforme de données

Data Lake : le stockage de vos données brutes

Un Data Lake ou lac de données est un concept provenant du Big Data, c’est une réponse à un besoin constant de devoir stocker et processer des données. Globalement, le Data Lake est un lieu de stockage de données brutes. Son objectif est de répliquer les données provenant de toutes les sources de données d’une entreprise sans transformation. 

 

Data Warehouse : l’entrepôt pour transformer vos données

Un Data Warehouse ou entrepôt de données est un regroupement de plusieurs bases de données créées pour des requêtes d’analyse de données. 

L’objectif d’un Data Warehouse est d’utiliser les données brutes présentes dans le Data Lake afin de créer de nouvelles tables agrégées et partitionnées.

En résumé, le Data Warehouse est le lieu où l’on transforme des données pour les mettre à disposition aux différents outils de Business Intelligence.

 

Business Intelligence : des tableaux de bord pour visualiser vos données

La dernière brique d’une plateforme de données est la Business Intelligence (BI). La BI correspond à tous les outils et systèmes de visualisation de données. Un outil de BI est relié à une base de données afin de produire des graphiques et tableaux en fonction des champs sélectionnés. Lorsque l’on parle de BI, nous parlons aussi de “Dataviz” ou de tableaux de bord. Comme outil populaire, il existe Google Data Studio, PowerBI et Tableau Software. 

Déployez votre plateforme de données sur-mesure !