Data warehouse vs. data lake: entre structure et liberté. quel paradigme pour le stockage de mes données ?

L’entrepôt ou le lac de données : vous avez déjà entendu ces métaphores juxtaposées, parfois employées de façon quasi interchangeable pour désigner deux modes de stockage et de traitement de données. Mais quelles différences fondatrices entre ces deux paradigmes quant aux utilisateurs, aux usages et types de données concernées ?

La structure vs. La liberté : deux paradigmes de stockage, deux avenirs possibles pour le traitement des données
Les data lakes sont utilisés pour le stockage rentable de grandes quantités de données provenant de nombreuses sources hétérogènes : IoT, flux de médias sociaux en temps réel, données utilisateur et transactions d’applications Web.

Data warehouse
Data lake
Type de données
Données historiques qui ont été structurées pour s’adapter à un schéma de base de données relationnelle
Données non structurées et structurées provenant de diverses sources de données d’entreprise
Utilisateurs
Consultants
Data scientists et ingénieurs
Utilisation
Requêtes généralement en lecture seule pour agréger et résumer les données
Stockage des données et des analyses de données volumineuses, pour le deep learning et l’analyse en temps réel
Taille
Stocke uniquement les données pertinentes pour l’analyse
Stocke toutes les données qui peuvent être utilisées – peuvent prendre des pétaoctets !
Accessibilité
Accès moins aisé du fait de la rigidité de la solution
Accès facile et souple avec possibilité d’effectuer des mises à jour rapides

Les réponses aux questions d’hier vs. Les questions ouvertes sur les modèles de demain
Les données structurées de la data warehouse sont plus faciles à analyser car elles sont plus propres et disposent d’un schéma uniforme à partir duquel effectuer des requêtes.

En revanche, la structure se gagne au prix de la liberté et de l’évolutivité.

Les datalakes absorbent des données de n’importe quelle structure, sans que celles-ci n’aient besoin de s’adapter à un schéma spécifique et pré-défini, ce qui est le plus adapté pour le machine learning et deep learning.

Les data warehouses sont très efficaces pour analyser les données historiques pour des décisions de données spécifiques, mais ne sont pas recommandées pour qui souhaite innover en profondeur en parsant les données avec des modèles novateurs.

Opter pour un modèle « future-proof » ?
Si vous souhaitez obtenir des réponses rapides à des questions relativement classiques sans faire appel à l’analyse en temps réel, la data warehouse vous donnera la solution la plus facile à implémenter.

Si vous souhaitez faire un investissement d’avenir dans un mode de stockage souple et évolutif qui saura s’adapter aux mutations rapides du machine learning pour découvrir des modes d’exploration et d’analyse de données inédits, le data lake est l’option pour vous.